国内女人喷潮完整视频,免费看三片在线播放,国产人妻互换一区二区水牛影视,最新吃瓜爆料免费观看

國(guó)產(chǎn)芯片立功,AI訓(xùn)練成本降低約20%

2025/3/26 8:50:54 來(lái)源:上觀(guān)新聞
[摘要]百靈團(tuán)隊(duì)通過(guò)5種不同芯片配置的硬件來(lái)訓(xùn)練百靈Plus,其中高性能硬件配置訓(xùn)練1萬(wàn)億token(詞元)的預(yù)訓(xùn)練成本約為635萬(wàn)元
3月24日晚,DeepSeek-V3發(fā)布小版本升級(jí),實(shí)測(cè)表現(xiàn)遠(yuǎn)超預(yù)期。幾乎與此同時(shí),另一款國(guó)產(chǎn)大模型螞蟻百靈憑借國(guó)產(chǎn)芯片訓(xùn)練,實(shí)現(xiàn)同等性能突破,還將訓(xùn)練成本再降20%,同樣引發(fā)市場(chǎng)關(guān)注。

根據(jù)團(tuán)隊(duì)公布的論文顯示,螞蟻推出的百靈大模型分為兩個(gè)版本——參數(shù)規(guī)模為168億(激活參數(shù)27.5億)的百靈Lite和參數(shù)規(guī)模為2900億(激活參數(shù)288億)的百靈Plus。通過(guò)實(shí)驗(yàn)表明,使用國(guó)產(chǎn)較低性能的GPU芯片,也能完成3000億參數(shù)的MoE(混合專(zhuān)家)大語(yǔ)言模型的訓(xùn)練,而且性能與英偉達(dá)芯片訓(xùn)練的同等參數(shù)模型相當(dāng)。

記者在論文中看到,MoE大模型的訓(xùn)練通常依賴(lài)于英偉達(dá)H100或H800等高性能GPU芯片,但過(guò)高的成本以及出口管制等問(wèn)題,也限制了大模型的普及應(yīng)用。因此,百靈團(tuán)隊(duì)通過(guò)低性能GPU來(lái)訓(xùn)練模型,通過(guò)模型訓(xùn)練環(huán)境、優(yōu)化策略、基礎(chǔ)設(shè)施、訓(xùn)練過(guò)程、評(píng)估結(jié)果和推理等層面進(jìn)行優(yōu)化,用低成本來(lái)復(fù)現(xiàn)高性能模型。

其中,跨異構(gòu)計(jì)算與分布式集群是百靈大模型的訓(xùn)練創(chuàng)新之舉。據(jù)螞蟻相關(guān)人士介紹,跨異構(gòu)計(jì)算與分布式集群主要解決基座芯片的混合性能問(wèn)題,不同品牌和型號(hào)的芯片的結(jié)構(gòu)和性能存在差異,協(xié)同處理數(shù)據(jù)需要通過(guò)分布式和跨異構(gòu)計(jì)算來(lái)彌補(bǔ)芯片差異,這樣能更好地降低芯片成本,以免被同一種芯片產(chǎn)能限制。

值得一提的是,百靈團(tuán)隊(duì)通過(guò)5種不同芯片配置的硬件來(lái)訓(xùn)練百靈Plus,其中高性能硬件配置訓(xùn)練1萬(wàn)億token(詞元)的預(yù)訓(xùn)練成本約為635萬(wàn)元,而百靈調(diào)優(yōu)過(guò)的低規(guī)格硬件的訓(xùn)練成本將降至508萬(wàn)元左右,降低約近20%的成本,而性能保持與通義Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat相當(dāng)。不過(guò)相關(guān)人士也透露,這種測(cè)試結(jié)果是實(shí)驗(yàn)環(huán)境中取得的,真實(shí)使用感受的差距仍有待驗(yàn)證。

目前,百靈大模型已在生活服務(wù)、金融服務(wù)、醫(yī)療健康等場(chǎng)景落地應(yīng)用。針對(duì)百靈大模型所取得的成績(jī),螞蟻集團(tuán)回應(yīng)稱(chēng),未來(lái)將針對(duì)不同芯片持續(xù)調(diào)優(yōu),以降低AI應(yīng)用成本,百靈Plus和百靈Lite兩款大模型將在日后開(kāi)源。
【版權(quán)聲明】秉承互聯(lián)網(wǎng)開(kāi)放、包容的精神,萬(wàn)通商務(wù)網(wǎng)歡迎各方(自)媒體、機(jī)構(gòu)轉(zhuǎn)載、引用我們?cè)瓌?chuàng)內(nèi)容,但要嚴(yán)格注明來(lái)源萬(wàn)通商務(wù)網(wǎng);同時(shí),我們倡導(dǎo)尊重與保護(hù)知識(shí)產(chǎn)權(quán),如發(fā)現(xiàn)本站文章存在版權(quán)問(wèn)題,煩請(qǐng)將版權(quán)疑問(wèn)、授權(quán)證明、版權(quán)證明、聯(lián)系方式等,發(fā)郵件至770276607@qq.com,我們將第一時(shí)間核實(shí)、處理。
部分資訊信息轉(zhuǎn)載網(wǎng)絡(luò)或會(huì)員自己投稿發(fā)布,如果有侵犯作者權(quán)力,請(qǐng)聯(lián)系我們刪除處理,聯(lián)系QQ:770276607
標(biāo)簽: 芯片 AI 芯片價(jià)格
芯片相關(guān)產(chǎn)品
推薦閱讀

聯(lián)想AI算力基礎(chǔ)設(shè)施全線(xiàn)產(chǎn)品升級(jí),AI推理性能提升5-10倍

在2025聯(lián)想創(chuàng)新科技大會(huì)上,聯(lián)想中國(guó)基礎(chǔ)設(shè)施業(yè)務(wù)宣布全線(xiàn)產(chǎn)品升級(jí),推出六大創(chuàng)新技術(shù)與兩大重磅升級(jí)
2025/5/8 23:28:41   聯(lián)想 AI

阿里巴巴新夸克發(fā)布“AI超級(jí)框”

阿里巴巴宣布推出AI旗艦應(yīng)用——新夸克。新夸克基于阿里通義領(lǐng)先的推理及多模態(tài)大模型,全面升級(jí)為一個(gè)無(wú)邊界的“AI超級(jí)框”,為2億用戶(hù)帶來(lái)全新體驗(yàn)
2025/3/13 14:37:03   阿里巴巴 夸克

微軟發(fā)布Majorana 1量子芯片和生成式AI工具

Majorana 1使用了全球首個(gè)拓?fù)鋵?dǎo)體,這種突破性材料能夠觀(guān)察和控制馬約拉納粒子。
2025/2/20 9:43:05   微軟 AI 芯片

釘釘AI助理接入DeepSeek,支持深度思考

釘釘宣布AI助理全面接入DeepSeek系列模型。用戶(hù)在釘釘上創(chuàng)建AI助理時(shí),可自主選擇DeepSeeK系列的R1、V3等3種模型
2025/2/7 11:20:24   釘釘 DeepSeek

天數(shù)智芯聯(lián)合Gitee AI上線(xiàn)DeepSeek R1模型

天數(shù)智芯與 Gitee AI 聯(lián)合發(fā)布消息,在雙方的高效協(xié)作下,僅用時(shí)一天,便成功完成了與 DeepSeek R1 的適配工作,并且已正式上線(xiàn)多款大模型服務(wù)
2025/2/5 9:31:29   DeepSeek 天數(shù)智芯

英偉達(dá)推出最經(jīng)濟(jì)實(shí)惠的生成式AI超級(jí)計(jì)算機(jī)

英偉達(dá)(NVDA.O)推出全新緊湊型生成式AI超級(jí)計(jì)算機(jī)——Jetson Orin Nano Super開(kāi)發(fā)者套件,憑借軟件升級(jí)以更低價(jià)格提供更強(qiáng)的性能
2024/12/18 14:07:49   計(jì)算機(jī) 英偉達(dá)

消息稱(chēng)蘋(píng)果M5芯片預(yù)計(jì)明年年底推出

資深記者還透露,他預(yù)計(jì)蘋(píng)果將在明年年底推出M5芯片,有望一并推出搭載這一芯片的新款iPad Pro
2024/10/30 9:16:57   芯片 蘋(píng)果
推薦資訊
推薦產(chǎn)品
最新資訊
關(guān)于我們聯(lián)系我們合作代理客服中心幫助信息誠(chéng)聘英才網(wǎng)站地圖意見(jiàn)反饋快遞查詢(xún)RSS訂閱
Copyright © 2010-2025 h665.cn Corporation, All Rights Reserved
萬(wàn)通商務(wù)網(wǎng) 版權(quán)所有