4月29日上午消息,阿里巴巴開源了新一代通義千問模型Qwen3(簡稱千問3),參數(shù)量僅為DeepSeek-R1的1/3,宣布成本大幅下降,性能超越R1、OpenAI-o1等領先模型。千問3是一個“混合推理模型”,將“快思考”與“慢思考”集成進同一個模型,極大節(jié)省了算力消耗。
據(jù)了解,千問3采用混合專家(MoE)架構,總參數(shù)量235B,激活僅需22B。千問3預訓練數(shù)據(jù)量達36T tokens,并在后訓練階段經(jīng)過多輪強化學習,將非思考模式無縫整合到思考模型中。千問3在推理、指令遵循、工具調(diào)用、多語言能力等方面均大幅增強。性能大幅提升的同時,千問3的部署成本還大幅下降,僅需4張H20即可部署千問3滿血版,顯存占用僅為性能相近模型的三分之一。
【版權聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,萬通商務網(wǎng)歡迎各方(自)媒體、機構轉載、引用我們原創(chuàng)內(nèi)容,但要嚴格注明來源萬通商務網(wǎng);同時,我們倡導尊重與保護知識產(chǎn)權,如發(fā)現(xiàn)本站文章存在版權問題,煩請將版權疑問、授權證明、版權證明、聯(lián)系方式等,發(fā)郵件至770276607@qq.com,我們將第一時間核實、處理。
部分資訊信息轉載網(wǎng)絡或會員自己投稿發(fā)布,如果有侵犯作者權力,請聯(lián)系我們刪除處理,聯(lián)系QQ:770276607
部分資訊信息轉載網(wǎng)絡或會員自己投稿發(fā)布,如果有侵犯作者權力,請聯(lián)系我們刪除處理,聯(lián)系QQ:770276607