3月24日晚,DeepSeek-V3發(fā)布小版本升級,實測表現(xiàn)遠(yuǎn)超預(yù)期。幾乎與此同時,另一款國產(chǎn)大模型螞蟻百靈憑借國產(chǎn)芯片訓(xùn)練,實現(xiàn)同等性能突破,還將訓(xùn)練成本再降20%,同樣引發(fā)市場關(guān)注。
根據(jù)團(tuán)隊公布的論文顯示,螞蟻推出的百靈大模型分為兩個版本——參數(shù)規(guī)模為168億(激活參數(shù)27.5億)的百靈Lite和參數(shù)規(guī)模為2900億(激活參數(shù)288億)的百靈Plus。通過實驗表明,使用國產(chǎn)較低性能的GPU芯片,也能完成3000億參數(shù)的MoE(混合專家)大語言模型的訓(xùn)練,而且性能與英偉達(dá)芯片訓(xùn)練的同等參數(shù)模型相當(dāng)。
記者在論文中看到,MoE大模型的訓(xùn)練通常依賴于英偉達(dá)H100或H800等高性能GPU芯片,但過高的成本以及出口管制等問題,也限制了大模型的普及應(yīng)用。因此,百靈團(tuán)隊通過低性能GPU來訓(xùn)練模型,通過模型訓(xùn)練環(huán)境、優(yōu)化策略、基礎(chǔ)設(shè)施、訓(xùn)練過程、評估結(jié)果和推理等層面進(jìn)行優(yōu)化,用低成本來復(fù)現(xiàn)高性能模型。
其中,跨異構(gòu)計算與分布式集群是百靈大模型的訓(xùn)練創(chuàng)新之舉。據(jù)螞蟻相關(guān)人士介紹,跨異構(gòu)計算與分布式集群主要解決基座芯片的混合性能問題,不同品牌和型號的芯片的結(jié)構(gòu)和性能存在差異,協(xié)同處理數(shù)據(jù)需要通過分布式和跨異構(gòu)計算來彌補(bǔ)芯片差異,這樣能更好地降低芯片成本,以免被同一種芯片產(chǎn)能限制。
值得一提的是,百靈團(tuán)隊通過5種不同芯片配置的硬件來訓(xùn)練百靈Plus,其中高性能硬件配置訓(xùn)練1萬億token(詞元)的預(yù)訓(xùn)練成本約為635萬元,而百靈調(diào)優(yōu)過的低規(guī)格硬件的訓(xùn)練成本將降至508萬元左右,降低約近20%的成本,而性能保持與通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當(dāng)。不過相關(guān)人士也透露,這種測試結(jié)果是實驗環(huán)境中取得的,真實使用感受的差距仍有待驗證。
目前,百靈大模型已在生活服務(wù)、金融服務(wù)、醫(yī)療健康等場景落地應(yīng)用。針對百靈大模型所取得的成績,螞蟻集團(tuán)回應(yīng)稱,未來將針對不同芯片持續(xù)調(diào)優(yōu),以降低AI應(yīng)用成本,百靈Plus和百靈Lite兩款大模型將在日后開源。
【版權(quán)聲明】秉承互聯(lián)網(wǎng)開放、包容的精神,萬通商務(wù)網(wǎng)歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們原創(chuàng)內(nèi)容,但要嚴(yán)格注明來源萬通商務(wù)網(wǎng);同時,我們倡導(dǎo)尊重與保護(hù)知識產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問題,煩請將版權(quán)疑問、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至770276607@qq.com,我們將第一時間核實、處理。
部分資訊信息轉(zhuǎn)載網(wǎng)絡(luò)或會員自己投稿發(fā)布,如果有侵犯作者權(quán)力,請聯(lián)系我們刪除處理,聯(lián)系QQ:770276607
部分資訊信息轉(zhuǎn)載網(wǎng)絡(luò)或會員自己投稿發(fā)布,如果有侵犯作者權(quán)力,請聯(lián)系我們刪除處理,聯(lián)系QQ:770276607