首頁> 中國發(fā)展門戶網(wǎng)> 發(fā)展要聞>

大模型不再拼“塊頭”

2025-11-26 09:24

來源：科技日報(bào)

分享到：

鏈接已復(fù)制

字體：小大

如今，大模型蓬勃發(fā)展，有沒有指標(biāo)來衡量AI大模型的“智力能力水平”？近日，清華大學(xué)研究團(tuán)隊(duì)提出了大模型的密度法則，相關(guān)論文刊發(fā)于自然子刊《自然·機(jī)器智能》上。密度法則揭示大語言模型的最大能力密度隨時間呈指數(shù)級增長，2023年2月至2025年4月，約每3.5個月翻一倍。

計(jì)算機(jī)領(lǐng)域的“摩爾定律”大家已經(jīng)耳熟能詳：芯片上可容納的晶體管數(shù)量，每隔一段時間就會翻一番。計(jì)算機(jī)的強(qiáng)大，不是因?yàn)樾酒兊孟穹孔右粯哟?，而是因?yàn)樗谥讣咨w大小的面積上集成了天文數(shù)字的計(jì)算單元。清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系助理研究員肖朝軍告訴科技日報(bào)記者，大模型的智力能力水平應(yīng)該也有一個指標(biāo)，這就是“能力密度”。

研究的核心假設(shè)是，采用相同制造工藝、充分訓(xùn)練的不同尺寸模型，其能力密度相同。正如芯片行業(yè)通過提升電路密度實(shí)現(xiàn)了計(jì)算設(shè)備的小型化和普惠化，大模型也在通過提升能力密度實(shí)現(xiàn)高效化發(fā)展。

肖朝軍說，過去，在規(guī)模法則的指引下，大家關(guān)心一個大模型的“塊頭”（參數(shù)量）有多大，越大就越智能，就像關(guān)心一個舉重運(yùn)動員的體重，體重越重，力量越大?，F(xiàn)在，密度法則從另一個視角揭示了大模型“高效發(fā)展”的規(guī)律——我們更應(yīng)該關(guān)心它的“能力密度”，即每一單位“腦細(xì)胞”（參數(shù)）里包含了多少“智慧”?！叭缤u價(jià)一個武林高手，看的不是他肌肉多發(fā)達(dá)，而是他一招一式里蘊(yùn)含了多少功力?！毙こ娬f。

研究團(tuán)隊(duì)對51個近年來發(fā)布的開源大模型進(jìn)行了系統(tǒng)分析，他們發(fā)現(xiàn)了一個重要規(guī)律：大模型的最大能力密度隨時間呈指數(shù)級增長，2023年以來平均每3.5個月翻一倍。這意味著，隨著“數(shù)據(jù)—算力—算法”的協(xié)同發(fā)展，可以用更少參數(shù)實(shí)現(xiàn)相同的智能水平。

團(tuán)隊(duì)還給出了一些推論。比如，同能力模型的推理開銷隨時間指數(shù)級下降，同時大模型能力密度正在加速增強(qiáng)。ChatGPT發(fā)布前能力密度每4.8個月翻倍，而ChatGPT發(fā)布后能力密度每3.2個月翻倍，密度增強(qiáng)速度提升了50%。這表明隨著大模型技術(shù)的成熟和開源生態(tài)的繁榮，能力密度提升正在加速。

肖朝軍表示，從直觀上看，能力密度越高，大模型就越聰明，運(yùn)行大模型所需要的算力越少，成本就越低。圍繞這一科學(xué)指引，學(xué)術(shù)界、工業(yè)界能進(jìn)行多維度的技術(shù)創(chuàng)新，讓大模型越來越普惠。

從大模型的應(yīng)用角度來說，密度法則也意味著AI正在變得越來越可用。肖朝軍介紹，隨著芯片電路密度（摩爾定律）和模型能力密度（密度法則）持續(xù)增強(qiáng)，此前只能在云端部署的大模型，未來用終端芯片就裝得下、跑得動。大模型跑在終端設(shè)備上，在響應(yīng)速度、用戶隱私等方面具備先天優(yōu)勢，可以為用戶做得更多。

肖朝軍舉了個例子。此前大模型在智能汽車上的應(yīng)用，都是“幫我打開車窗”“幫我查一下附近的餐廳”等“被動式”服務(wù)。端側(cè)模型“上車”后，通過豐富的“艙內(nèi)外感知”和“意圖理解”能力，可以實(shí)現(xiàn)艙內(nèi)外環(huán)境的多模態(tài)感知融合與主動決策閉環(huán)，驅(qū)動智能座艙從“被動響應(yīng)”走向“主動服務(wù)”，讓智能浸潤每一次駕駛體驗(yàn)。

記者張蓋倫

【責(zé)任編輯：孔令瑤】

色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

LANGUAGES

新聞

財(cái)經(jīng)

觀點(diǎn)

文化

國情

承建網(wǎng)站

專業(yè)平臺

外宣平臺

大模型不再拼“塊頭”