色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

分享到:
鏈接已復(fù)制

LANGUAGES

新聞

新聞直播 要聞 國際 軍事 政協(xié) 政務(wù) 圖片 視頻

財(cái)經(jīng)

財(cái)經(jīng) 金融 證券 汽車 科技 消費(fèi) 能源 地產(chǎn) 農(nóng)業(yè)

觀點(diǎn)

觀點(diǎn) 理論 智庫 中國3分鐘 中國訪談 中國網(wǎng)評 中國關(guān)鍵詞

文化

文化 文創(chuàng) 藝術(shù) 時尚 旅游 鐵路 悅讀 民藏 中醫(yī) 中國瓷

國情

國情 助殘 一帶一路 海洋 草原 灣區(qū) 聯(lián)盟 心理 老年

首頁> 中國發(fā)展門戶網(wǎng)> 本網(wǎng)獨(dú)家>

突破人工智能大模型的“數(shù)據(jù)瓶頸”

2025-04-27 15:35

來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)

分享到:
鏈接已復(fù)制
字體:

——構(gòu)建國家級語料庫運(yùn)營平臺的思考

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊  習(xí)近平總書記強(qiáng)調(diào),人工智能是引領(lǐng)這一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),具有溢出帶動性很強(qiáng)的“頭雁”效應(yīng)。從全球范圍來看,人工智能(AI)大模型行業(yè)競爭日趨激烈,美國、歐盟、日本等密集出臺AI發(fā)展戰(zhàn)略,全體提升自身科技競爭實(shí)力。語料作為AI大模型訓(xùn)練的基礎(chǔ),其范圍、數(shù)量和質(zhì)量直接影響到模型的訓(xùn)練效果和性能,高質(zhì)量語料庫已然成為提升系統(tǒng)準(zhǔn)確性和泛化能力的核心。因此,構(gòu)建國家級語料庫運(yùn)營平臺顯得尤為重要,它不僅是實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)供給的重要渠道,也是促進(jìn)我國產(chǎn)業(yè)升級、技術(shù)進(jìn)步的關(guān)鍵力量,更是提升AI國際競爭力的必由之路。

數(shù)據(jù)瓶頸:AI發(fā)展面臨訓(xùn)練數(shù)據(jù)枯竭問題

全球AI大模型行業(yè)競爭日益加劇

AI大模型領(lǐng)域呈現(xiàn)前所未有的技術(shù)創(chuàng)新活力和全球競爭態(tài)勢。多個國家投入大模型研發(fā)陣營,美國谷歌、OpenAI等機(jī)構(gòu)較早開始大模型技術(shù)研發(fā),歐盟、俄羅斯、以色列、韓國等地區(qū)和國家也緊跟其后,加入全球AI大模型研發(fā)陣營。特別是在ChatGPT發(fā)布以來,全球范圍內(nèi)的AI大模型迎來了空前的發(fā)展高潮。近年來,我國進(jìn)入大模型加速發(fā)展期,在自然語言處理、機(jī)器視覺和多模態(tài)等各技術(shù)分支上發(fā)展迅猛,不僅涌現(xiàn)出“文心一言”“通義千問”“星火認(rèn)知”等一批具有行業(yè)影響力的AI大模型,特別是隨著DeepSeek-R1、V3、Coder等系列模型為代表的AI成果不斷涌現(xiàn),國產(chǎn)模型在語言理解、內(nèi)容生成和邏輯推理等方面展現(xiàn)出強(qiáng)大的能力,初步形成一流的AI大模型技術(shù)群。從區(qū)域分布來看,當(dāng)前全球大模型呈現(xiàn)出“美國領(lǐng)跑、中國緊跟、其他區(qū)域落后”的態(tài)勢。2025年,全球AI的競爭將進(jìn)一步升級為系統(tǒng)性競爭,各國將在基礎(chǔ)大模型、行業(yè)應(yīng)用、硬件、產(chǎn)業(yè)鏈等方面展開全面較量。

AI大模型領(lǐng)域日益成為中美兩國科技競爭的前沿陣地。從全球已發(fā)布的AI大模型分布來看,中國和美國大幅領(lǐng)先,合計(jì)數(shù)量超過全球總數(shù)的80%,這充分顯示了中美兩國在AI大模型領(lǐng)域的領(lǐng)先地位和強(qiáng)大實(shí)力。AI大模型的競爭,已經(jīng)不僅僅是技術(shù)層面的競爭,更是國家科技戰(zhàn)略的競爭。美國將優(yōu)先發(fā)展AI上升為國家戰(zhàn)略,不斷向AI領(lǐng)域發(fā)展投入大量資源,以實(shí)現(xiàn)絕對的優(yōu)勢。而且,美國將中國確定為AI領(lǐng)域的主要競爭對手,出臺了一系列法規(guī)和政策來限制中國在AI領(lǐng)域的技術(shù)獲取和合作機(jī)會,尤其是針對AI芯片和大模型技術(shù)的封鎖和限制。例如,美國陸續(xù)出臺《2020年國家人工智能倡議法案》(National Artificial Intelligence lnitiative Act of 2020)、《2022年芯片與科學(xué)法案》(CHIPS and Science Act 2022)等文件,對中國實(shí)施AI芯片新限制,試圖通過封鎖算力抑制中國AI大模型的發(fā)展,使美國成為“頭號玩家”。細(xì)觀中國AI大模型產(chǎn)業(yè),得益于政策、技術(shù)和市場的共同驅(qū)動:一方面,中國政府強(qiáng)有力的政策支持和不斷擴(kuò)大的市場需求為中國AI大模型行業(yè)的蓬勃發(fā)展提供了有力保障,企業(yè)技術(shù)創(chuàng)新主體地位更加凸顯;另一方面,美國的限制措施和技術(shù)封鎖,客觀刺激和促進(jìn)了中國技術(shù)創(chuàng)新水平的提升,助力中國在全球大模型領(lǐng)域競爭力提升。

語料庫成為大模型競爭的關(guān)鍵要素

AI大模型訓(xùn)練對數(shù)據(jù)供給要求極高。AI是第四次工業(yè)革命的“核心引擎”,數(shù)據(jù)是AI大模型發(fā)展的“燃料”。AI大模型技術(shù)的快速迭代,不僅帶來對數(shù)據(jù)的海量需求,也對數(shù)據(jù)集的構(gòu)建提出了更多挑戰(zhàn)。因?yàn)橛?xùn)練AI大模型需要大規(guī)模、高質(zhì)量、多模態(tài)的數(shù)據(jù)集,這些數(shù)據(jù)通常來自各個領(lǐng)域和多個數(shù)據(jù)源,包含文本、圖像、語音、視頻等多種形式。近年來,AI大模型訓(xùn)練所用的數(shù)據(jù)集規(guī)模呈現(xiàn)出顯著的增長趨勢。以DeepSeek系列模型為例,DeepSeek-LLM(V1)通過數(shù)據(jù)去重、過濾和混洗(remixing)3個階段,構(gòu)建了一個包含約2萬億token的中英雙語預(yù)訓(xùn)練數(shù)據(jù)集,以確保數(shù)據(jù)多樣性和高質(zhì)量;DeepSeek-V2擴(kuò)展了數(shù)據(jù)量并提高了數(shù)據(jù)質(zhì)量,模型預(yù)訓(xùn)練所使用的語料庫包含8.1萬億token的多語言數(shù)據(jù)集;DeepSeek-V3通過提高數(shù)學(xué)和編程樣本的比例來優(yōu)化預(yù)訓(xùn)練語料庫,模型預(yù)訓(xùn)練所使用的語料庫提升到14.8萬億token的多語言數(shù)據(jù)集。

語料將成為AI時代的下一個競爭焦點(diǎn)。在AI時代,語料庫將成為提升AI大模型技術(shù)性能和應(yīng)用效果的關(guān)鍵。語料數(shù)據(jù)作為AI大模型優(yōu)秀輸出能力的保證,已經(jīng)被廣泛應(yīng)用于自然語言處理、機(jī)器翻譯、智能問答、情感分析等多個領(lǐng)域,成為推動AI技術(shù)進(jìn)步的關(guān)鍵因素。而且,各國都在加快語料庫發(fā)展,特別是推動高質(zhì)量語料庫的建設(shè)和應(yīng)用。

訓(xùn)練數(shù)據(jù)短缺成為全球共性問題

AI技術(shù)的快速迭代,加劇數(shù)據(jù)供需矛盾。AI大模型訓(xùn)練所需要的數(shù)據(jù)集的增速遠(yuǎn)大于高質(zhì)量數(shù)據(jù)生成的速度,將會導(dǎo)致高質(zhì)量數(shù)據(jù)逐漸枯竭。專注于AI發(fā)展趨勢的研究團(tuán)隊(duì)EPOCH AI,在研究中預(yù)測,最早在2024年人類就可能會陷入訓(xùn)練數(shù)據(jù)荒,屆時全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。盡管他們在最新的研究中,將高質(zhì)量文本數(shù)據(jù)耗盡的時間推遲到2026—2032年,但是依舊認(rèn)為訓(xùn)練數(shù)據(jù)是AI大模型技術(shù)發(fā)展的主要瓶頸。在此背景下,企業(yè)加大了對數(shù)據(jù)資源的競爭,為了獲取更多數(shù)據(jù),包括OpenAI、Meta在內(nèi)的多家企業(yè)不斷調(diào)整數(shù)據(jù)采集和使用條款,甚至公開討論如何規(guī)避版權(quán)保護(hù)。因此,高質(zhì)量數(shù)據(jù)短缺將成為制約AI技術(shù)發(fā)展的重要因素,平衡科技創(chuàng)新與版權(quán)保護(hù)之間的關(guān)系也是不能回避的現(xiàn)實(shí)問題。

高質(zhì)量語料庫:人工智能大模型發(fā)展的核心動能

訓(xùn)練數(shù)據(jù)直接影響大模型的內(nèi)容生成

數(shù)據(jù)的質(zhì)量、規(guī)模和多樣性直接影響AI大模型的性能。數(shù)據(jù)規(guī)模是AI大模型預(yù)訓(xùn)練的基礎(chǔ),數(shù)據(jù)質(zhì)量直接影響模型最終生成的內(nèi)容質(zhì)量。如果訓(xùn)練數(shù)據(jù)準(zhǔn)確、全面且具備代表性,那么AI大模型在分析和生成自然語言文本方面的能力將得到顯著提升,從而更精確地模擬和理解人類語言的復(fù)雜性和多樣性。此外,通用參數(shù)、文本語言、圖像、視頻音頻等不同類別的數(shù)據(jù)類型直接影響AI大模型的認(rèn)知邊界。而且,AI大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練階段有所不同。以ChatGPT為例,在預(yù)訓(xùn)練階段主要關(guān)注數(shù)據(jù)的類型廣泛度,需要包括網(wǎng)頁、圖書、學(xué)術(shù)論文、新聞報(bào)道、社交媒體文本、代碼等形式在內(nèi)的各類數(shù)據(jù);在監(jiān)督微調(diào)(SFT)階段和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段更關(guān)注人類認(rèn)知的數(shù)據(jù),因?yàn)檫@2個階段是對AI大模型泛化能力和涌現(xiàn)能力的訓(xùn)練,對于數(shù)據(jù)質(zhì)量要求較高,強(qiáng)調(diào)語料特征與人類價(jià)值觀的一致。

數(shù)據(jù)質(zhì)量問題對AI大模型生成內(nèi)容的負(fù)面影響不容忽視。如果訓(xùn)練數(shù)據(jù)存在錯誤、偏見或信息稀缺,這些問題將在模型生成的文本中得以體現(xiàn)。準(zhǔn)確性問題。如果訓(xùn)練數(shù)據(jù)中包含錯誤或不準(zhǔn)確的信息,AI大模型將會學(xué)習(xí)并重現(xiàn)這些錯誤,這可能導(dǎo)致模型在生成文本時產(chǎn)生事實(shí)性錯誤或誤導(dǎo)性信息。偏見和刻板印象。數(shù)據(jù)中的偏見和刻板印象也會被模型學(xué)習(xí)并反映在其生成的文本中。例如,如果訓(xùn)練數(shù)據(jù)中存在性別、種族或文化的刻板印象,模型可能會在生成的內(nèi)容中無意中強(qiáng)化這些偏見。 數(shù)據(jù)稀缺性。如果訓(xùn)練數(shù)據(jù)中某些類型的信息較為稀缺,模型在處理這些信息時可能會表現(xiàn)不佳??傊粶?zhǔn)確的數(shù)據(jù)可能導(dǎo)致模型產(chǎn)生事實(shí)性錯誤,數(shù)據(jù)中的偏見會無意識地被模型學(xué)習(xí)和重現(xiàn),而數(shù)據(jù)的稀缺性則可能限制模型在處理特定信息時的表現(xiàn)。

高質(zhì)量數(shù)據(jù)對模型內(nèi)容生成具有積極影響。將AI大模型打造成新質(zhì)生產(chǎn)力工具,建設(shè)高質(zhì)量語料庫是關(guān)鍵。利用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,可以顯著提升大模型生成內(nèi)容的準(zhǔn)確性、客觀性和多樣性。提高準(zhǔn)確性。準(zhǔn)確無誤的數(shù)據(jù)集可以幫助模型學(xué)習(xí)到正確的語言模式和知識,準(zhǔn)確模擬真實(shí)世界,使模型的預(yù)測更貼近實(shí)際數(shù)據(jù)分布。增強(qiáng)客觀性。經(jīng)過仔細(xì)篩選和清洗數(shù)據(jù),并借助優(yōu)化算法減少訓(xùn)練中的損失函數(shù),可以最大程度地減少數(shù)據(jù)中的偏見和刻板印象,保證模型生成的文本更加中立和客觀。豐富多樣性。多樣化的訓(xùn)練數(shù)據(jù)可以使模型在處理不同類型的信息時都能表現(xiàn)出色,無論是通用知識還是專業(yè)領(lǐng)域的知識。

高質(zhì)量中文語料庫建設(shè)意義重大

高質(zhì)量的中文語料數(shù)據(jù)尤為稀缺。受制于數(shù)據(jù)集建設(shè)的高額成本,以及尚未成熟的開源生態(tài),國內(nèi)開源數(shù)據(jù)集在數(shù)據(jù)規(guī)模和語料質(zhì)量上相比海外仍有較大差距,進(jìn)而導(dǎo)致數(shù)據(jù)來源較為單一,且更新頻率較低,影響模型的訓(xùn)練效果。據(jù)相關(guān)數(shù)據(jù)估算,國內(nèi)互聯(lián)網(wǎng)中文語料的質(zhì)量和規(guī)模均大幅低于英文語料,英文文本和數(shù)據(jù)資料是中文的8倍左右;并且,以公開渠道獲取大批量、高質(zhì)量的中文語料數(shù)據(jù)的難度較大。而且,中文語料、科研成果等高質(zhì)量數(shù)據(jù)集開放程度低,企業(yè)用于訓(xùn)練的語料來源不清晰、權(quán)屬不明確,開源后存在一定的合規(guī)隱患,這使得企業(yè)更傾向于自采、自用,國內(nèi)AI大模型數(shù)據(jù)流通機(jī)制尚未形成。

高質(zhì)量中文語料庫建設(shè)勢在必行,中式價(jià)值觀類語料更為必要。AI大模型需要依賴現(xiàn)實(shí)語料庫進(jìn)行訓(xùn)練,因而可能會延續(xù)現(xiàn)實(shí)社會中存在的偏見和價(jià)值偏差,甚至?xí)驗(yàn)榭焖俸偷统杀镜膽?yīng)用加劇這些偏見和偏差。當(dāng)前,中文語料庫面臨總量不足、分布不均、垂直覆蓋有限、質(zhì)量參差不齊等問題,導(dǎo)致國內(nèi)許多從事AI大模型開發(fā)的機(jī)構(gòu)在進(jìn)行模型訓(xùn)練時,不得不依賴于外文標(biāo)注數(shù)據(jù)集、開源數(shù)據(jù)集或是爬取網(wǎng)絡(luò)數(shù)據(jù)。在國際形勢日趨復(fù)雜的態(tài)勢下,意識形態(tài)之爭正在逐步加劇,而AI大模型很可能被“武器化”,成為進(jìn)行輿論引導(dǎo)的新工具——經(jīng)英文語料庫訓(xùn)練出來的AI大模型,不可避免地更符合西方主流價(jià)值觀。因此,需要加大對高質(zhì)量中文語料庫,尤其是反映優(yōu)秀傳統(tǒng)文化和本土價(jià)值觀的中式價(jià)值觀類語料的開發(fā),盡快掌控中文語料庫的話語權(quán),既是幫助大模型更好地理解和反映我國的文化背景和價(jià)值取向,也能在價(jià)值引導(dǎo)方面占據(jù)主動地位。

“擴(kuò)源提質(zhì)”打造高質(zhì)量語料庫

“擴(kuò)源提質(zhì)”是建設(shè)高質(zhì)量語料庫的有效策略。“擴(kuò)源”意味著要不斷擴(kuò)大數(shù)據(jù)的來源和多樣性,通過收集、匯聚社交媒體文本、學(xué)術(shù)論文、新聞報(bào)道等多種來源的數(shù)據(jù),覆蓋文本、圖像、視頻、音頻等多種數(shù)據(jù)類型,為大模型提供豐富的語言環(huán)境和知識背景。“提質(zhì)”則強(qiáng)調(diào)的是提升數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,對數(shù)據(jù)進(jìn)行去重、格式化、迭代更新、標(biāo)注、內(nèi)容監(jiān)督等深入挖掘和精細(xì)化處理,形成包含預(yù)訓(xùn)練數(shù)據(jù)集、指令微調(diào)數(shù)據(jù)集、測試數(shù)據(jù)集等內(nèi)容的、高效可用的多模態(tài)語料庫,以支持后續(xù)數(shù)據(jù)的深度分析、模型訓(xùn)練,以及數(shù)據(jù)應(yīng)用與服務(wù)需求。

高質(zhì)量合成數(shù)據(jù)或?qū)⑹瞧胀〝?shù)據(jù)的有效補(bǔ)充。基于各類原始數(shù)據(jù),運(yùn)用模數(shù)學(xué)模型創(chuàng)建生成新的合成數(shù)據(jù),能夠?yàn)槟P吞峁┯?xùn)練材料。例如,專攻棋類的AlphaZero就是使用合成數(shù)據(jù)訓(xùn)練出來的。合成數(shù)據(jù)既可以基于真實(shí)數(shù)據(jù)構(gòu)建,也可以通過現(xiàn)有模型或者人類專業(yè)知識創(chuàng)建;合成數(shù)據(jù)在豐富數(shù)據(jù)多樣性的同時,能夠更快地生成多模態(tài)數(shù)據(jù),幫助模型預(yù)訓(xùn)練。但是,由于合成數(shù)據(jù)生成過程可能存在偏差或噪聲,其質(zhì)量和真實(shí)性無法完全模擬客觀世界,在數(shù)據(jù)可信度、泛化能力及倫理方面面臨更多的挑戰(zhàn)。因此,基于當(dāng)前數(shù)據(jù)現(xiàn)狀,以及合成數(shù)據(jù)的發(fā)展實(shí)踐來看,合成數(shù)據(jù)為豐富模型訓(xùn)練數(shù)據(jù)提供了一種解決方案,但是要想讓合成數(shù)據(jù)成為有效的訓(xùn)練數(shù)據(jù),必須保證合成數(shù)據(jù)的質(zhì)量。

語料庫運(yùn)營平臺:提升人工智能國際競爭力的必由之路

對標(biāo)國外:歐美國家積極建設(shè)語料庫運(yùn)營平臺

美國、歐盟積極建設(shè)語料庫運(yùn)營平臺以實(shí)現(xiàn)各類語料庫的匯聚、開發(fā)、利用。例如,美國最全面的公共數(shù)據(jù)平臺Data.Gov、歐盟“共同數(shù)據(jù)空間”(Common European Data Spaces)等。通過對國外語料庫運(yùn)營平臺架構(gòu)分析發(fā)現(xiàn),這些平臺建設(shè)內(nèi)容主要包括數(shù)據(jù)匯聚共享、數(shù)據(jù)治理,以及安全監(jiān)管等方面。具體來看,各國主要基于數(shù)據(jù)處理不同的階段進(jìn)行平臺的設(shè)計(jì)和建設(shè)。

數(shù)據(jù)匯聚階段,各國不斷擴(kuò)大數(shù)據(jù)來源,并選取合理方式實(shí)現(xiàn)數(shù)據(jù)匯聚。各國加大對公共、企業(yè)、個人數(shù)據(jù)匯聚的同時,注重對科研數(shù)據(jù)的收集、匯聚。例如,歐盟“共同數(shù)據(jù)空間”匯聚了法律、氣象、安全執(zhí)法等公共數(shù)據(jù),制造業(yè)、綠色節(jié)能、交通、健康等17類行業(yè)數(shù)據(jù),以及姓名、郵箱等個人數(shù)據(jù)。在數(shù)據(jù)匯聚方式上,大多采用物理匯聚和邏輯接入的方式。例如,歐盟出于對數(shù)據(jù)安全的考量,更傾向于邏輯接入,而非物理匯聚方式進(jìn)行集中存儲。

數(shù)據(jù)治理階段,國內(nèi)外普遍通過數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)量評價(jià)等方式實(shí)現(xiàn)數(shù)據(jù)高效治理。具體實(shí)踐中,數(shù)據(jù)清洗更多側(cè)重明確清洗規(guī)則、使用自動化技術(shù)和工具;數(shù)據(jù)標(biāo)準(zhǔn)化旨在統(tǒng)一數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)命名等規(guī)范;數(shù)據(jù)標(biāo)注環(huán)節(jié)關(guān)注標(biāo)注技術(shù)和工具研發(fā)、人才培養(yǎng)和生態(tài)培育等內(nèi)容;數(shù)據(jù)質(zhì)量評價(jià)更多側(cè)重?cái)?shù)據(jù)質(zhì)量評價(jià)指標(biāo)體系打造、反饋機(jī)制及優(yōu)化等內(nèi)容。例如,美國Data.gov主要采取包括人工評價(jià)、系統(tǒng)自動評估、第三方評價(jià)在內(nèi)的綜合數(shù)據(jù)質(zhì)量評價(jià)體系。此外,國外倡導(dǎo)政府、行業(yè)協(xié)會、非營利性平臺、企業(yè)等主體共同參與數(shù)據(jù)治理,營造良好的數(shù)據(jù)治理生態(tài)。

數(shù)據(jù)服務(wù)階段,主要通過公共數(shù)據(jù)平臺和社會數(shù)據(jù)平臺提供各類數(shù)據(jù)服務(wù)。具體方式包括:建立檢索下載平臺、開發(fā)數(shù)據(jù)工具服務(wù)、組建語料庫聯(lián)盟、構(gòu)建開源生態(tài)等。例如,大模型訓(xùn)練數(shù)據(jù)庫Common Crawl以API接口服務(wù)形式為GPT-3、騰訊WeLM等AI大模型提供語料。而且,國外積極引入數(shù)據(jù)中介、數(shù)據(jù)經(jīng)紀(jì)商等多方力量,構(gòu)建多元服務(wù)生態(tài)。

數(shù)據(jù)運(yùn)營階段,當(dāng)前語料庫運(yùn)營平臺運(yùn)營主體主要包括政府、高校和科研機(jī)構(gòu)、非營利(開源)組織,以及大型互聯(lián)網(wǎng)公司和專業(yè)機(jī)構(gòu)。不同類型的運(yùn)營主體根據(jù)對語料庫的定位不同,采取不同的建設(shè)運(yùn)營模式,也對應(yīng)不同收費(fèi)模式。例如,美國政府基于公私合營打通數(shù)據(jù)運(yùn)營全鏈條,形成以“開放共享數(shù)據(jù)集+高質(zhì)量語料庫+全生命周期的語料處理+靈活多樣的配套運(yùn)營保障”為核心的全鏈服務(wù)矩陣。此外,語料庫運(yùn)營平臺的安全監(jiān)管和運(yùn)營生態(tài)建設(shè)也是各國關(guān)注的重點(diǎn)內(nèi)容。

國內(nèi)環(huán)境:建設(shè)語料庫運(yùn)營平臺是科技競爭的必然

發(fā)展AI語料庫不僅是科技競爭的關(guān)鍵所在,也是落實(shí)國家戰(zhàn)略、推動產(chǎn)業(yè)升級、優(yōu)化資源配置的重要舉措。從國家戰(zhàn)略要求看,建設(shè)國家級語料庫運(yùn)營平臺是落實(shí)國家AI戰(zhàn)略,發(fā)揮平臺經(jīng)濟(jì)作用,推動高質(zhì)量發(fā)展的重要載體?!缎乱淮斯ぶ悄馨l(fā)展規(guī)劃》的推出,將AI發(fā)展放在國家戰(zhàn)略層面系統(tǒng)布局、主動謀劃。建設(shè)國家級語料庫運(yùn)營平臺是基于AI大模型發(fā)展對高質(zhì)量、大規(guī)模、安全可信語料數(shù)據(jù)資源需求的現(xiàn)實(shí)考量,是加快推進(jìn)發(fā)展AI,促進(jìn)新質(zhì)生產(chǎn)力發(fā)展的重要引擎。此外,推動平臺經(jīng)濟(jì)發(fā)展是國家立足新發(fā)展階段、貫徹新發(fā)展理念、構(gòu)建新發(fā)展格局、推動高質(zhì)量發(fā)展的戰(zhàn)略布局。建設(shè)國家級語料庫運(yùn)營平臺,以數(shù)據(jù)基礎(chǔ)設(shè)施為重要支撐,以促進(jìn)數(shù)據(jù)關(guān)鍵生產(chǎn)要素價(jià)值發(fā)揮為目標(biāo),能夠充分凸顯平臺建設(shè)的價(jià)值和優(yōu)勢。

從產(chǎn)業(yè)發(fā)展的角度來看,實(shí)施“AI+”行動已經(jīng)成為推動現(xiàn)代化產(chǎn)業(yè)體系建設(shè)和經(jīng)濟(jì)高質(zhì)量發(fā)展的重中之重。AI與實(shí)體經(jīng)濟(jì)的深度融合,不僅促進(jìn)傳統(tǒng)產(chǎn)業(yè)的智能化改造和轉(zhuǎn)型升級,還可以催生出一批新興產(chǎn)業(yè)。數(shù)據(jù)是AI發(fā)展的催化劑,大模型驅(qū)動的AI發(fā)展對于高質(zhì)量數(shù)據(jù)供提出了更高要求。在AI領(lǐng)域,無論是算法的優(yōu)化、模型的改進(jìn)還是新技術(shù)的應(yīng)用,都需要大量的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和驗(yàn)證。推動語料庫運(yùn)營平臺建設(shè),加大高質(zhì)量語料庫供給,才能充分發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用。

從資源配置的角度來看,數(shù)據(jù)資源的集約配置是提高AI技術(shù)應(yīng)用效率的關(guān)鍵。通過建設(shè)集中、統(tǒng)一的國家級語料庫運(yùn)營平臺,能夠避免數(shù)據(jù)的重復(fù)采集和浪費(fèi),提高數(shù)據(jù)資源的利用效率。語料庫運(yùn)營平臺還可以通過集成和整合國家AI“五大”訓(xùn)練基地的數(shù)據(jù)資源,以實(shí)現(xiàn)數(shù)據(jù)資源的互通共享。這不僅可以降低數(shù)據(jù)獲取和處理成本,也能夠?yàn)槠髽I(yè)和個人提供更便捷、高效的AI服務(wù)。

建設(shè)策略:積極打造國家級語料庫運(yùn)營平臺

明晰平臺定位,打造國家語料庫匯聚與運(yùn)營平臺

國家級語料庫運(yùn)營平臺是搶抓AI發(fā)展戰(zhàn)略機(jī)遇,構(gòu)筑我國AI競爭優(yōu)勢的重要突破口。平臺的建設(shè)應(yīng)定位為“國家語料庫集聚與運(yùn)營服務(wù)平臺”,致力于打造全國范圍內(nèi)最權(quán)威、最全面、最精準(zhǔn)的語料數(shù)據(jù)和服務(wù)提供載體。因此,平臺建設(shè)應(yīng)當(dāng)突出國家戰(zhàn)略部署和基礎(chǔ)服務(wù)功能,強(qiáng)化其公共屬性和公益定位;同時,考慮大規(guī)模語料匯聚、治理、開發(fā)等工作所需要的巨大資源投入,平臺可以通過語料產(chǎn)品的開發(fā)來獲取運(yùn)營收益,反哺平臺的建設(shè)運(yùn)營。平臺應(yīng)兼顧匯聚和運(yùn)營,不僅能夠采集、匯聚和存儲海量的語料數(shù)據(jù),還應(yīng)通過數(shù)據(jù)治理,形成對外提供語料檢索、分析和應(yīng)用的服務(wù)能力,以支持自然語言處理、機(jī)器學(xué)習(xí)、AI等領(lǐng)域的研究與應(yīng)用。平臺應(yīng)以需求為導(dǎo)向,面向AI企業(yè)、AI訓(xùn)練基地等具有高質(zhì)量語料的需求方提供數(shù)據(jù)服務(wù)或產(chǎn)品。平臺應(yīng)著眼于產(chǎn)業(yè)發(fā)展和生態(tài)構(gòu)建,在數(shù)據(jù)治理和數(shù)據(jù)服務(wù)等環(huán)節(jié),發(fā)揮平臺優(yōu)勢,充分鏈接更多市場參與主體,通過專業(yè)化、鏈接型、前瞻性的戰(zhàn)略布局,推動市場構(gòu)建語料生態(tài)。

設(shè)計(jì)總體架構(gòu),實(shí)現(xiàn)業(yè)務(wù)和技術(shù)的深度融合

業(yè)務(wù)架構(gòu)上,國家級語料庫運(yùn)營平臺采用“三橫三縱”的總體架構(gòu)(圖1)。橫向維度,平臺貫通數(shù)據(jù)匯聚、數(shù)據(jù)治理和數(shù)據(jù)服務(wù)三大環(huán)節(jié)。數(shù)據(jù)匯聚模塊,以全國一體化政務(wù)大數(shù)據(jù)平臺和各省市政務(wù)大數(shù)據(jù)平臺為抓手實(shí)現(xiàn)公共數(shù)據(jù)、企業(yè)數(shù)據(jù)、專項(xiàng)數(shù)據(jù)等各類數(shù)據(jù)的采集、匯聚;數(shù)據(jù)治理模塊,通過數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)量評價(jià)的治理手段,形成直接可用于AI大模型訓(xùn)練的預(yù)訓(xùn)練數(shù)據(jù)集、指令微調(diào)數(shù)據(jù)集、監(jiān)督測試數(shù)據(jù)集;數(shù)據(jù)服務(wù)模塊,提供數(shù)據(jù)檢索、數(shù)據(jù)共享、數(shù)據(jù)流通交易等配套服務(wù),著力于開源數(shù)據(jù)生態(tài)打造??v向維度,平臺覆蓋技術(shù)工具、安全監(jiān)管、生態(tài)創(chuàng)新等“三大能力”的全流程支撐。技術(shù)工具方面,通過隱私保護(hù)、數(shù)據(jù)互操作、跨域數(shù)據(jù)交換等技術(shù)的更新迭代,助力語料庫打通多主體、跨層級數(shù)據(jù)流通壁壘;安全監(jiān)管方面,強(qiáng)調(diào)對數(shù)據(jù)安全、隱私保護(hù)和合規(guī)性的全面監(jiān)管,構(gòu)建“技術(shù)+運(yùn)維+管理”三元語料庫安全防護(hù)體系,以保證平臺平穩(wěn)運(yùn)行的基礎(chǔ);生態(tài)創(chuàng)新方面,通過數(shù)據(jù)標(biāo)準(zhǔn)生態(tài)、行業(yè)多元主體參與生態(tài)的打造,增強(qiáng)語料庫運(yùn)營平臺價(jià)值發(fā)揮,向市場傳遞重構(gòu)語料生態(tài)的頂層設(shè)計(jì)理念。

技術(shù)架構(gòu)上,建議國家級語料庫運(yùn)營平臺采用“1+N”一體化架構(gòu)設(shè)計(jì)。國家級語料庫運(yùn)營平臺設(shè)計(jì)必須考慮當(dāng)前我國數(shù)據(jù)資源現(xiàn)狀,以數(shù)據(jù)安全為底線,綜合考慮國家統(tǒng)籌管理與區(qū)域現(xiàn)狀特點(diǎn)相結(jié)合,注重資源高效利用,推動建立全國數(shù)據(jù)要素統(tǒng)一大市場。因此,借鑒全國一體化在線政務(wù)服務(wù)平臺建設(shè)和數(shù)據(jù)匯聚的思路,建議國家級語料庫運(yùn)營平臺采用“1+N”的一體化架構(gòu)設(shè)計(jì)。其中,“1”,指國家語料庫運(yùn)營平臺,即中心平臺。中心平臺負(fù)責(zé)國家級語料庫運(yùn)營平臺的全國統(tǒng)籌管理,建立中心編目系統(tǒng)管理分布式數(shù)據(jù)平臺的元數(shù)據(jù),但不直接進(jìn)行數(shù)據(jù)治理和數(shù)據(jù)運(yùn)營;具體通過制定標(biāo)準(zhǔn)、開源系統(tǒng)工具支撐、開放接口建設(shè)等,實(shí)現(xiàn)所有平臺之間的整體聯(lián)動和協(xié)同共享。此外,中心平臺還需負(fù)責(zé)國家電子政務(wù)數(shù)據(jù)、部委、央企等單位數(shù)據(jù)的匯聚。“N”,指選取部分區(qū)域建設(shè)N個國家級語料庫運(yùn)營平臺。例如,支持以國家AI“五大”訓(xùn)練基地所在區(qū)域?yàn)樵圏c(diǎn),建設(shè)國家級語料庫運(yùn)營平臺,負(fù)責(zé)各區(qū)域內(nèi)的語料匯聚和存儲。在“1+N”的一體化架構(gòu)下,基于全國數(shù)據(jù)互聯(lián)、服務(wù)互通的統(tǒng)一數(shù)據(jù)門戶,中心平臺在收到用戶請求時,根據(jù)元數(shù)據(jù)描述從分布系統(tǒng)實(shí)時調(diào)用對應(yīng)的數(shù)據(jù)集,形成全國語料庫服務(wù)“一張網(wǎng)”。

確定運(yùn)營主體,高效推動平臺建設(shè)與運(yùn)營

國家級語料庫運(yùn)營平臺的建設(shè)運(yùn)營主體,是影響平臺建設(shè)進(jìn)度和成效的關(guān)鍵要素。初步設(shè)想,有4種路徑:由國家數(shù)據(jù)局統(tǒng)一規(guī)劃建設(shè)統(tǒng)一運(yùn)營管理,因?yàn)樵趪覕?shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計(jì)劃(2024—2026年)》中明確提出建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開展AI大模型開發(fā)和訓(xùn)練。由國家數(shù)據(jù)局委托國家信息中心、中國信息通信研究院等具有國家信息化項(xiàng)目建設(shè)經(jīng)驗(yàn)的單位開展建設(shè)運(yùn)營,國家數(shù)據(jù)發(fā)展研究院協(xié)助建設(shè)。以國家數(shù)據(jù)局為總牽頭,協(xié)調(diào)“東數(shù)西算”八大樞紐節(jié)點(diǎn)或國家AI“五大”訓(xùn)練基地所在地區(qū)發(fā)展和改革委員會、經(jīng)濟(jì)和信息化廳等相關(guān)部門,聯(lián)合組建國家級語料庫運(yùn)營主體。由國家數(shù)據(jù)局指導(dǎo)中國移動、中國聯(lián)通、中國電信等電信運(yùn)營商進(jìn)行建設(shè)與運(yùn)營,發(fā)揮運(yùn)營商在數(shù)字基礎(chǔ)設(shè)施、數(shù)字化能力及大型信息化項(xiàng)目建設(shè)方面所具備的較強(qiáng)優(yōu)勢。

聚焦核心內(nèi)容,覆蓋語料生產(chǎn)應(yīng)用全生命周期

國家級語料庫運(yùn)營平臺覆蓋了語料獲取、清洗、加工、治理、應(yīng)用和管理的全生命周期,具有多種靈活的采集、匯聚方式;能分布式高效處理海量語料,有效提升語料開發(fā)利用效率,賦能企業(yè)或更多機(jī)構(gòu)建設(shè)大模型、增強(qiáng)大模型能力。在數(shù)據(jù)匯聚環(huán)節(jié),一方面,保證數(shù)據(jù)來源,關(guān)注公共數(shù)據(jù)、企業(yè)數(shù)據(jù)等數(shù)據(jù)來源和獲取渠道,兼顧數(shù)據(jù)在時間和領(lǐng)域維度的融合,建立數(shù)據(jù)長期更新機(jī)制;另一方面,選取合理的數(shù)據(jù)匯聚方式——公共數(shù)據(jù)可以考慮以邏輯接入為主,企業(yè)數(shù)據(jù)視情況選擇不同匯聚方式。在數(shù)據(jù)治理環(huán)節(jié),既要考慮數(shù)據(jù)匯聚之后的治理,也要基于不同的場景需求,服務(wù)于數(shù)據(jù)運(yùn)營需求;考慮采用先進(jìn)審核技術(shù)、動態(tài)策略管理等中間層技術(shù),對“有毒”數(shù)據(jù)進(jìn)行攔截與修改。在數(shù)據(jù)服務(wù)環(huán)節(jié),一方面,積極探索服務(wù)內(nèi)容,平臺除主要提供數(shù)據(jù)目錄、數(shù)據(jù)共享、數(shù)據(jù)交換、數(shù)據(jù)工具等服務(wù)內(nèi)容外,還應(yīng)加強(qiáng)探索合成數(shù)據(jù)的建設(shè)和應(yīng)用;另一方面,要建立合理的數(shù)據(jù)運(yùn)營機(jī)制,在明確平臺運(yùn)營主體之后,基于服務(wù)內(nèi)容,科學(xué)設(shè)定數(shù)據(jù)定價(jià)機(jī)制和收益分配機(jī)制。

(作者:李興騰,浙江大學(xué)公共管理學(xué)院;馮鋒,中國科學(xué)技術(shù)大學(xué)管理學(xué)院;黃鸝強(qiáng),浙江大學(xué)管理學(xué)院。《中國科學(xué)院院刊》供稿)

【責(zé)任編輯:殷曉霞】
返回頂部