突破人工智能大模型的“數(shù)據(jù)瓶頸”
——構(gòu)建國家級語料庫運(yùn)營平臺的思考
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 習(xí)近平總書記強(qiáng)調(diào),人工智能是引領(lǐng)這一輪科技革命和產(chǎn)業(yè)變革的戰(zhàn)略性技術(shù),具有溢出帶動性很強(qiáng)的“頭雁”效應(yīng)。從全球范圍來看,人工智能(AI)大模型行業(yè)競爭日趨激烈,美國、歐盟、日本等密集出臺AI發(fā)展戰(zhàn)略,全體提升自身科技競爭實(shí)力。語料作為AI大模型訓(xùn)練的基礎(chǔ),其范圍、數(shù)量和質(zhì)量直接影響到模型的訓(xùn)練效果和性能,高質(zhì)量語料庫已然成為提升系統(tǒng)準(zhǔn)確性和泛化能力的核心。因此,構(gòu)建國家級語料庫運(yùn)營平臺顯得尤為重要,它不僅是實(shí)現(xiàn)高質(zhì)量數(shù)據(jù)供給的重要渠道,也是促進(jìn)我國產(chǎn)業(yè)升級、技術(shù)進(jìn)步的關(guān)鍵力量,更是提升AI國際競爭力的必由之路。
數(shù)據(jù)瓶頸:AI發(fā)展面臨訓(xùn)練數(shù)據(jù)枯竭問題
全球AI大模型行業(yè)競爭日益加劇
AI大模型領(lǐng)域呈現(xiàn)前所未有的技術(shù)創(chuàng)新活力和全球競爭態(tài)勢。多個國家投入大模型研發(fā)陣營,美國谷歌、OpenAI等機(jī)構(gòu)較早開始大模型技術(shù)研發(fā),歐盟、俄羅斯、以色列、韓國等地區(qū)和國家也緊跟其后,加入全球AI大模型研發(fā)陣營。特別是在ChatGPT發(fā)布以來,全球范圍內(nèi)的AI大模型迎來了空前的發(fā)展高潮。近年來,我國進(jìn)入大模型加速發(fā)展期,在自然語言處理、機(jī)器視覺和多模態(tài)等各技術(shù)分支上發(fā)展迅猛,不僅涌現(xiàn)出“文心一言”“通義千問”“星火認(rèn)知”等一批具有行業(yè)影響力的AI大模型,特別是隨著DeepSeek-R1、V3、Coder等系列模型為代表的AI成果不斷涌現(xiàn),國產(chǎn)模型在語言理解、內(nèi)容生成和邏輯推理等方面展現(xiàn)出強(qiáng)大的能力,初步形成一流的AI大模型技術(shù)群。從區(qū)域分布來看,當(dāng)前全球大模型呈現(xiàn)出“美國領(lǐng)跑、中國緊跟、其他區(qū)域落后”的態(tài)勢。2025年,全球AI的競爭將進(jìn)一步升級為系統(tǒng)性競爭,各國將在基礎(chǔ)大模型、行業(yè)應(yīng)用、硬件、產(chǎn)業(yè)鏈等方面展開全面較量。
AI大模型領(lǐng)域日益成為中美兩國科技競爭的前沿陣地。從全球已發(fā)布的AI大模型分布來看,中國和美國大幅領(lǐng)先,合計(jì)數(shù)量超過全球總數(shù)的80%,這充分顯示了中美兩國在AI大模型領(lǐng)域的領(lǐng)先地位和強(qiáng)大實(shí)力。AI大模型的競爭,已經(jīng)不僅僅是技術(shù)層面的競爭,更是國家科技戰(zhàn)略的競爭。美國將優(yōu)先發(fā)展AI上升為國家戰(zhàn)略,不斷向AI領(lǐng)域發(fā)展投入大量資源,以實(shí)現(xiàn)絕對的優(yōu)勢。而且,美國將中國確定為AI領(lǐng)域的主要競爭對手,出臺了一系列法規(guī)和政策來限制中國在AI領(lǐng)域的技術(shù)獲取和合作機(jī)會,尤其是針對AI芯片和大模型技術(shù)的封鎖和限制。例如,美國陸續(xù)出臺《2020年國家人工智能倡議法案》(National Artificial Intelligence lnitiative Act of 2020)、《2022年芯片與科學(xué)法案》(CHIPS and Science Act 2022)等文件,對中國實(shí)施AI芯片新限制,試圖通過封鎖算力抑制中國AI大模型的發(fā)展,使美國成為“頭號玩家”。細(xì)觀中國AI大模型產(chǎn)業(yè),得益于政策、技術(shù)和市場的共同驅(qū)動:一方面,中國政府強(qiáng)有力的政策支持和不斷擴(kuò)大的市場需求為中國AI大模型行業(yè)的蓬勃發(fā)展提供了有力保障,企業(yè)技術(shù)創(chuàng)新主體地位更加凸顯;另一方面,美國的限制措施和技術(shù)封鎖,客觀刺激和促進(jìn)了中國技術(shù)創(chuàng)新水平的提升,助力中國在全球大模型領(lǐng)域競爭力提升。
語料庫成為大模型競爭的關(guān)鍵要素
AI大模型訓(xùn)練對數(shù)據(jù)供給要求極高。AI是第四次工業(yè)革命的“核心引擎”,數(shù)據(jù)是AI大模型發(fā)展的“燃料”。AI大模型技術(shù)的快速迭代,不僅帶來對數(shù)據(jù)的海量需求,也對數(shù)據(jù)集的構(gòu)建提出了更多挑戰(zhàn)。因?yàn)橛?xùn)練AI大模型需要大規(guī)模、高質(zhì)量、多模態(tài)的數(shù)據(jù)集,這些數(shù)據(jù)通常來自各個領(lǐng)域和多個數(shù)據(jù)源,包含文本、圖像、語音、視頻等多種形式。近年來,AI大模型訓(xùn)練所用的數(shù)據(jù)集規(guī)模呈現(xiàn)出顯著的增長趨勢。以DeepSeek系列模型為例,DeepSeek-LLM(V1)通過數(shù)據(jù)去重、過濾和混洗(remixing)3個階段,構(gòu)建了一個包含約2萬億token的中英雙語預(yù)訓(xùn)練數(shù)據(jù)集,以確保數(shù)據(jù)多樣性和高質(zhì)量;DeepSeek-V2擴(kuò)展了數(shù)據(jù)量并提高了數(shù)據(jù)質(zhì)量,模型預(yù)訓(xùn)練所使用的語料庫包含8.1萬億token的多語言數(shù)據(jù)集;DeepSeek-V3通過提高數(shù)學(xué)和編程樣本的比例來優(yōu)化預(yù)訓(xùn)練語料庫,模型預(yù)訓(xùn)練所使用的語料庫提升到14.8萬億token的多語言數(shù)據(jù)集。
語料將成為AI時代的下一個競爭焦點(diǎn)。在AI時代,語料庫將成為提升AI大模型技術(shù)性能和應(yīng)用效果的關(guān)鍵。語料數(shù)據(jù)作為AI大模型優(yōu)秀輸出能力的保證,已經(jīng)被廣泛應(yīng)用于自然語言處理、機(jī)器翻譯、智能問答、情感分析等多個領(lǐng)域,成為推動AI技術(shù)進(jìn)步的關(guān)鍵因素。而且,各國都在加快語料庫發(fā)展,特別是推動高質(zhì)量語料庫的建設(shè)和應(yīng)用。
訓(xùn)練數(shù)據(jù)短缺成為全球共性問題
AI技術(shù)的快速迭代,加劇數(shù)據(jù)供需矛盾。AI大模型訓(xùn)練所需要的數(shù)據(jù)集的增速遠(yuǎn)大于高質(zhì)量數(shù)據(jù)生成的速度,將會導(dǎo)致高質(zhì)量數(shù)據(jù)逐漸枯竭。專注于AI發(fā)展趨勢的研究團(tuán)隊(duì)EPOCH AI,在研究中預(yù)測,最早在2024年人類就可能會陷入訓(xùn)練數(shù)據(jù)荒,屆時全世界的高質(zhì)量訓(xùn)練數(shù)據(jù)都將面臨枯竭。盡管他們在最新的研究中,將高質(zhì)量文本數(shù)據(jù)耗盡的時間推遲到2026—2032年,但是依舊認(rèn)為訓(xùn)練數(shù)據(jù)是AI大模型技術(shù)發(fā)展的主要瓶頸。在此背景下,企業(yè)加大了對數(shù)據(jù)資源的競爭,為了獲取更多數(shù)據(jù),包括OpenAI、Meta在內(nèi)的多家企業(yè)不斷調(diào)整數(shù)據(jù)采集和使用條款,甚至公開討論如何規(guī)避版權(quán)保護(hù)。因此,高質(zhì)量數(shù)據(jù)短缺將成為制約AI技術(shù)發(fā)展的重要因素,平衡科技創(chuàng)新與版權(quán)保護(hù)之間的關(guān)系也是不能回避的現(xiàn)實(shí)問題。
高質(zhì)量語料庫:人工智能大模型發(fā)展的核心動能
訓(xùn)練數(shù)據(jù)直接影響大模型的內(nèi)容生成
數(shù)據(jù)的質(zhì)量、規(guī)模和多樣性直接影響AI大模型的性能。數(shù)據(jù)規(guī)模是AI大模型預(yù)訓(xùn)練的基礎(chǔ),數(shù)據(jù)質(zhì)量直接影響模型最終生成的內(nèi)容質(zhì)量。如果訓(xùn)練數(shù)據(jù)準(zhǔn)確、全面且具備代表性,那么AI大模型在分析和生成自然語言文本方面的能力將得到顯著提升,從而更精確地模擬和理解人類語言的復(fù)雜性和多樣性。此外,通用參數(shù)、文本語言、圖像、視頻音頻等不同類別的數(shù)據(jù)類型直接影響AI大模型的認(rèn)知邊界。而且,AI大模型所需要的數(shù)據(jù)根據(jù)訓(xùn)練階段有所不同。以ChatGPT為例,在預(yù)訓(xùn)練階段主要關(guān)注數(shù)據(jù)的類型廣泛度,需要包括網(wǎng)頁、圖書、學(xué)術(shù)論文、新聞報(bào)道、社交媒體文本、代碼等形式在內(nèi)的各類數(shù)據(jù);在監(jiān)督微調(diào)(SFT)階段和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)階段更關(guān)注人類認(rèn)知的數(shù)據(jù),因?yàn)檫@2個階段是對AI大模型泛化能力和涌現(xiàn)能力的訓(xùn)練,對于數(shù)據(jù)質(zhì)量要求較高,強(qiáng)調(diào)語料特征與人類價(jià)值觀的一致。
數(shù)據(jù)質(zhì)量問題對AI大模型生成內(nèi)容的負(fù)面影響不容忽視。如果訓(xùn)練數(shù)據(jù)存在錯誤、偏見或信息稀缺,這些問題將在模型生成的文本中得以體現(xiàn)。準(zhǔn)確性問題。如果訓(xùn)練數(shù)據(jù)中包含錯誤或不準(zhǔn)確的信息,AI大模型將會學(xué)習(xí)并重現(xiàn)這些錯誤,這可能導(dǎo)致模型在生成文本時產(chǎn)生事實(shí)性錯誤或誤導(dǎo)性信息。偏見和刻板印象。數(shù)據(jù)中的偏見和刻板印象也會被模型學(xué)習(xí)并反映在其生成的文本中。例如,如果訓(xùn)練數(shù)據(jù)中存在性別、種族或文化的刻板印象,模型可能會在生成的內(nèi)容中無意中強(qiáng)化這些偏見。 數(shù)據(jù)稀缺性。如果訓(xùn)練數(shù)據(jù)中某些類型的信息較為稀缺,模型在處理這些信息時可能會表現(xiàn)不佳??傊粶?zhǔn)確的數(shù)據(jù)可能導(dǎo)致模型產(chǎn)生事實(shí)性錯誤,數(shù)據(jù)中的偏見會無意識地被模型學(xué)習(xí)和重現(xiàn),而數(shù)據(jù)的稀缺性則可能限制模型在處理特定信息時的表現(xiàn)。
高質(zhì)量數(shù)據(jù)對模型內(nèi)容生成具有積極影響。將AI大模型打造成新質(zhì)生產(chǎn)力工具,建設(shè)高質(zhì)量語料庫是關(guān)鍵。利用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練,可以顯著提升大模型生成內(nèi)容的準(zhǔn)確性、客觀性和多樣性。提高準(zhǔn)確性。準(zhǔn)確無誤的數(shù)據(jù)集可以幫助模型學(xué)習(xí)到正確的語言模式和知識,準(zhǔn)確模擬真實(shí)世界,使模型的預(yù)測更貼近實(shí)際數(shù)據(jù)分布。增強(qiáng)客觀性。經(jīng)過仔細(xì)篩選和清洗數(shù)據(jù),并借助優(yōu)化算法減少訓(xùn)練中的損失函數(shù),可以最大程度地減少數(shù)據(jù)中的偏見和刻板印象,保證模型生成的文本更加中立和客觀。豐富多樣性。多樣化的訓(xùn)練數(shù)據(jù)可以使模型在處理不同類型的信息時都能表現(xiàn)出色,無論是通用知識還是專業(yè)領(lǐng)域的知識。
高質(zhì)量中文語料庫建設(shè)意義重大
高質(zhì)量的中文語料數(shù)據(jù)尤為稀缺。受制于數(shù)據(jù)集建設(shè)的高額成本,以及尚未成熟的開源生態(tài),國內(nèi)開源數(shù)據(jù)集在數(shù)據(jù)規(guī)模和語料質(zhì)量上相比海外仍有較大差距,進(jìn)而導(dǎo)致數(shù)據(jù)來源較為單一,且更新頻率較低,影響模型的訓(xùn)練效果。據(jù)相關(guān)數(shù)據(jù)估算,國內(nèi)互聯(lián)網(wǎng)中文語料的質(zhì)量和規(guī)模均大幅低于英文語料,英文文本和數(shù)據(jù)資料是中文的8倍左右;并且,以公開渠道獲取大批量、高質(zhì)量的中文語料數(shù)據(jù)的難度較大。而且,中文語料、科研成果等高質(zhì)量數(shù)據(jù)集開放程度低,企業(yè)用于訓(xùn)練的語料來源不清晰、權(quán)屬不明確,開源后存在一定的合規(guī)隱患,這使得企業(yè)更傾向于自采、自用,國內(nèi)AI大模型數(shù)據(jù)流通機(jī)制尚未形成。
高質(zhì)量中文語料庫建設(shè)勢在必行,中式價(jià)值觀類語料更為必要。AI大模型需要依賴現(xiàn)實(shí)語料庫進(jìn)行訓(xùn)練,因而可能會延續(xù)現(xiàn)實(shí)社會中存在的偏見和價(jià)值偏差,甚至?xí)驗(yàn)榭焖俸偷统杀镜膽?yīng)用加劇這些偏見和偏差。當(dāng)前,中文語料庫面臨總量不足、分布不均、垂直覆蓋有限、質(zhì)量參差不齊等問題,導(dǎo)致國內(nèi)許多從事AI大模型開發(fā)的機(jī)構(gòu)在進(jìn)行模型訓(xùn)練時,不得不依賴于外文標(biāo)注數(shù)據(jù)集、開源數(shù)據(jù)集或是爬取網(wǎng)絡(luò)數(shù)據(jù)。在國際形勢日趨復(fù)雜的態(tài)勢下,意識形態(tài)之爭正在逐步加劇,而AI大模型很可能被“武器化”,成為進(jìn)行輿論引導(dǎo)的新工具——經(jīng)英文語料庫訓(xùn)練出來的AI大模型,不可避免地更符合西方主流價(jià)值觀。因此,需要加大對高質(zhì)量中文語料庫,尤其是反映優(yōu)秀傳統(tǒng)文化和本土價(jià)值觀的中式價(jià)值觀類語料的開發(fā),盡快掌控中文語料庫的話語權(quán),既是幫助大模型更好地理解和反映我國的文化背景和價(jià)值取向,也能在價(jià)值引導(dǎo)方面占據(jù)主動地位。
“擴(kuò)源提質(zhì)”打造高質(zhì)量語料庫
“擴(kuò)源提質(zhì)”是建設(shè)高質(zhì)量語料庫的有效策略。“擴(kuò)源”意味著要不斷擴(kuò)大數(shù)據(jù)的來源和多樣性,通過收集、匯聚社交媒體文本、學(xué)術(shù)論文、新聞報(bào)道等多種來源的數(shù)據(jù),覆蓋文本、圖像、視頻、音頻等多種數(shù)據(jù)類型,為大模型提供豐富的語言環(huán)境和知識背景。“提質(zhì)”則強(qiáng)調(diào)的是提升數(shù)據(jù)的質(zhì)量和準(zhǔn)確性,對數(shù)據(jù)進(jìn)行去重、格式化、迭代更新、標(biāo)注、內(nèi)容監(jiān)督等深入挖掘和精細(xì)化處理,形成包含預(yù)訓(xùn)練數(shù)據(jù)集、指令微調(diào)數(shù)據(jù)集、測試數(shù)據(jù)集等內(nèi)容的、高效可用的多模態(tài)語料庫,以支持后續(xù)數(shù)據(jù)的深度分析、模型訓(xùn)練,以及數(shù)據(jù)應(yīng)用與服務(wù)需求。
高質(zhì)量合成數(shù)據(jù)或?qū)⑹瞧胀〝?shù)據(jù)的有效補(bǔ)充。基于各類原始數(shù)據(jù),運(yùn)用模數(shù)學(xué)模型創(chuàng)建生成新的合成數(shù)據(jù),能夠?yàn)槟P吞峁┯?xùn)練材料。例如,專攻棋類的AlphaZero就是使用合成數(shù)據(jù)訓(xùn)練出來的。合成數(shù)據(jù)既可以基于真實(shí)數(shù)據(jù)構(gòu)建,也可以通過現(xiàn)有模型或者人類專業(yè)知識創(chuàng)建;合成數(shù)據(jù)在豐富數(shù)據(jù)多樣性的同時,能夠更快地生成多模態(tài)數(shù)據(jù),幫助模型預(yù)訓(xùn)練。但是,由于合成數(shù)據(jù)生成過程可能存在偏差或噪聲,其質(zhì)量和真實(shí)性無法完全模擬客觀世界,在數(shù)據(jù)可信度、泛化能力及倫理方面面臨更多的挑戰(zhàn)。因此,基于當(dāng)前數(shù)據(jù)現(xiàn)狀,以及合成數(shù)據(jù)的發(fā)展實(shí)踐來看,合成數(shù)據(jù)為豐富模型訓(xùn)練數(shù)據(jù)提供了一種解決方案,但是要想讓合成數(shù)據(jù)成為有效的訓(xùn)練數(shù)據(jù),必須保證合成數(shù)據(jù)的質(zhì)量。
語料庫運(yùn)營平臺:提升人工智能國際競爭力的必由之路
對標(biāo)國外:歐美國家積極建設(shè)語料庫運(yùn)營平臺
美國、歐盟積極建設(shè)語料庫運(yùn)營平臺以實(shí)現(xiàn)各類語料庫的匯聚、開發(fā)、利用。例如,美國最全面的公共數(shù)據(jù)平臺Data.Gov、歐盟“共同數(shù)據(jù)空間”(Common European Data Spaces)等。通過對國外語料庫運(yùn)營平臺架構(gòu)分析發(fā)現(xiàn),這些平臺建設(shè)內(nèi)容主要包括數(shù)據(jù)匯聚共享、數(shù)據(jù)治理,以及安全監(jiān)管等方面。具體來看,各國主要基于數(shù)據(jù)處理不同的階段進(jìn)行平臺的設(shè)計(jì)和建設(shè)。
數(shù)據(jù)匯聚階段,各國不斷擴(kuò)大數(shù)據(jù)來源,并選取合理方式實(shí)現(xiàn)數(shù)據(jù)匯聚。各國加大對公共、企業(yè)、個人數(shù)據(jù)匯聚的同時,注重對科研數(shù)據(jù)的收集、匯聚。例如,歐盟“共同數(shù)據(jù)空間”匯聚了法律、氣象、安全執(zhí)法等公共數(shù)據(jù),制造業(yè)、綠色節(jié)能、交通、健康等17類行業(yè)數(shù)據(jù),以及姓名、郵箱等個人數(shù)據(jù)。在數(shù)據(jù)匯聚方式上,大多采用物理匯聚和邏輯接入的方式。例如,歐盟出于對數(shù)據(jù)安全的考量,更傾向于邏輯接入,而非物理匯聚方式進(jìn)行集中存儲。
數(shù)據(jù)治理階段,國內(nèi)外普遍通過數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)注、數(shù)據(jù)質(zhì)量評價(jià)等方式實(shí)現(xiàn)數(shù)據(jù)高效治理。具體實(shí)踐中,數(shù)據(jù)清洗更多側(cè)重明確清洗規(guī)則、使用自動化技術(shù)和工具;數(shù)據(jù)標(biāo)準(zhǔn)化旨在統(tǒng)一數(shù)據(jù)格式、數(shù)據(jù)類型、數(shù)據(jù)命名等規(guī)范;數(shù)據(jù)標(biāo)注環(huán)節(jié)關(guān)注標(biāo)注技術(shù)和工具研發(fā)、人才培養(yǎng)和生態(tài)培育等內(nèi)容;數(shù)據(jù)質(zhì)量評價(jià)更多側(cè)重?cái)?shù)據(jù)質(zhì)量評價(jià)指標(biāo)體系打造、反饋機(jī)制及優(yōu)化等內(nèi)容。例如,美國Data.gov主要采取包括人工評價(jià)、系統(tǒng)自動評估、第三方評價(jià)在內(nèi)的綜合數(shù)據(jù)質(zhì)量評價(jià)體系。此外,國外倡導(dǎo)政府、行業(yè)協(xié)會、非營利性平臺、企業(yè)等主體共同參與數(shù)據(jù)治理,營造良好的數(shù)據(jù)治理生態(tài)。
數(shù)據(jù)服務(wù)階段,主要通過公共數(shù)據(jù)平臺和社會數(shù)據(jù)平臺提供各類數(shù)據(jù)服務(wù)。具體方式包括:建立檢索下載平臺、開發(fā)數(shù)據(jù)工具服務(wù)、組建語料庫聯(lián)盟、構(gòu)建開源生態(tài)等。例如,大模型訓(xùn)練數(shù)據(jù)庫Common Crawl以API接口服務(wù)形式為GPT-3、騰訊WeLM等AI大模型提供語料。而且,國外積極引入數(shù)據(jù)中介、數(shù)據(jù)經(jīng)紀(jì)商等多方力量,構(gòu)建多元服務(wù)生態(tài)。
數(shù)據(jù)運(yùn)營階段,當(dāng)前語料庫運(yùn)營平臺運(yùn)營主體主要包括政府、高校和科研機(jī)構(gòu)、非營利(開源)組織,以及大型互聯(lián)網(wǎng)公司和專業(yè)機(jī)構(gòu)。不同類型的運(yùn)營主體根據(jù)對語料庫的定位不同,采取不同的建設(shè)運(yùn)營模式,也對應(yīng)不同收費(fèi)模式。例如,美國政府基于公私合營打通數(shù)據(jù)運(yùn)營全鏈條,形成以“開放共享數(shù)據(jù)集+高質(zhì)量語料庫+全生命周期的語料處理+靈活多樣的配套運(yùn)營保障”為核心的全鏈服務(wù)矩陣。此外,語料庫運(yùn)營平臺的安全監(jiān)管和運(yùn)營生態(tài)建設(shè)也是各國關(guān)注的重點(diǎn)內(nèi)容。
國內(nèi)環(huán)境:建設(shè)語料庫運(yùn)營平臺是科技競爭的必然
發(fā)展AI語料庫不僅是科技競爭的關(guān)鍵所在,也是落實(shí)國家戰(zhàn)略、推動產(chǎn)業(yè)升級、優(yōu)化資源配置的重要舉措。從國家戰(zhàn)略要求看,建設(shè)國家級語料庫運(yùn)營平臺是落實(shí)國家AI戰(zhàn)略,發(fā)揮平臺經(jīng)濟(jì)作用,推動高質(zhì)量發(fā)展的重要載體?!缎乱淮斯ぶ悄馨l(fā)展規(guī)劃》的推出,將AI發(fā)展放在國家戰(zhàn)略層面系統(tǒng)布局、主動謀劃。建設(shè)國家級語料庫運(yùn)營平臺是基于AI大模型發(fā)展對高質(zhì)量、大規(guī)模、安全可信語料數(shù)據(jù)資源需求的現(xiàn)實(shí)考量,是加快推進(jìn)發(fā)展AI,促進(jìn)新質(zhì)生產(chǎn)力發(fā)展的重要引擎。此外,推動平臺經(jīng)濟(jì)發(fā)展是國家立足新發(fā)展階段、貫徹新發(fā)展理念、構(gòu)建新發(fā)展格局、推動高質(zhì)量發(fā)展的戰(zhàn)略布局。建設(shè)國家級語料庫運(yùn)營平臺,以數(shù)據(jù)基礎(chǔ)設(shè)施為重要支撐,以促進(jìn)數(shù)據(jù)關(guān)鍵生產(chǎn)要素價(jià)值發(fā)揮為目標(biāo),能夠充分凸顯平臺建設(shè)的價(jià)值和優(yōu)勢。
從產(chǎn)業(yè)發(fā)展的角度來看,實(shí)施“AI+”行動已經(jīng)成為推動現(xiàn)代化產(chǎn)業(yè)體系建設(shè)和經(jīng)濟(jì)高質(zhì)量發(fā)展的重中之重。AI與實(shí)體經(jīng)濟(jì)的深度融合,不僅促進(jìn)傳統(tǒng)產(chǎn)業(yè)的智能化改造和轉(zhuǎn)型升級,還可以催生出一批新興產(chǎn)業(yè)。數(shù)據(jù)是AI發(fā)展的催化劑,大模型驅(qū)動的AI發(fā)展對于高質(zhì)量數(shù)據(jù)供提出了更高要求。在AI領(lǐng)域,無論是算法的優(yōu)化、模型的改進(jìn)還是新技術(shù)的應(yīng)用,都需要大量的數(shù)據(jù)進(jìn)行實(shí)驗(yàn)和驗(yàn)證。推動語料庫運(yùn)營平臺建設(shè),加大高質(zhì)量語料庫供給,才能充分發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用。
從資源配置的角度來看,數(shù)據(jù)資源的集約配置是提高AI技術(shù)應(yīng)用效率的關(guān)鍵。通過建設(shè)集中、統(tǒng)一的國家級語料庫運(yùn)營平臺,能夠避免數(shù)據(jù)的重復(fù)采集和浪費(fèi),提高數(shù)據(jù)資源的利用效率。語料庫運(yùn)營平臺還可以通過集成和整合國家AI“五大”訓(xùn)練基地的數(shù)據(jù)資源,以實(shí)現(xiàn)數(shù)據(jù)資源的互通共享。這不僅可以降低數(shù)據(jù)獲取和處理成本,也能夠?yàn)槠髽I(yè)和個人提供更便捷、高效的AI服務(wù)。
建設(shè)策略:積極打造國家級語料庫運(yùn)營平臺
明晰平臺定位,打造國家語料庫匯聚與運(yùn)營平臺
國家級語料庫運(yùn)營平臺是搶抓AI發(fā)展戰(zhàn)略機(jī)遇,構(gòu)筑我國AI競爭優(yōu)勢的重要突破口。平臺的建設(shè)應(yīng)定位為“國家語料庫集聚與運(yùn)營服務(wù)平臺”,致力于打造全國范圍內(nèi)最權(quán)威、最全面、最精準(zhǔn)的語料數(shù)據(jù)和服務(wù)提供載體。因此,平臺建設(shè)應(yīng)當(dāng)突出國家戰(zhàn)略部署和基礎(chǔ)服務(wù)功能,強(qiáng)化其公共屬性和公益定位;同時,考慮大規(guī)模語料匯聚、治理、開發(fā)等工作所需要的巨大資源投入,平臺可以通過語料產(chǎn)品的開發(fā)來獲取運(yùn)營收益,反哺平臺的建設(shè)運(yùn)營。平臺應(yīng)兼顧匯聚和運(yùn)營,不僅能夠采集、匯聚和存儲海量的語料數(shù)據(jù),還應(yīng)通過數(shù)據(jù)治理,形成對外提供語料檢索、分析和應(yīng)用的服務(wù)能力,以支持自然語言處理、機(jī)器學(xué)習(xí)、AI等領(lǐng)域的研究與應(yīng)用。平臺應(yīng)以需求為導(dǎo)向,面向AI企業(yè)、AI訓(xùn)練基地等具有高質(zhì)量語料的需求方提供數(shù)據(jù)服務(wù)或產(chǎn)品。平臺應(yīng)著眼于產(chǎn)業(yè)發(fā)展和生態(tài)構(gòu)建,在數(shù)據(jù)治理和數(shù)據(jù)服務(wù)等環(huán)節(jié),發(fā)揮平臺優(yōu)勢,充分鏈接更多市場參與主體,通過專業(yè)化、鏈接型、前瞻性的戰(zhàn)略布局,推動市場構(gòu)建語料生態(tài)。
設(shè)計(jì)總體架構(gòu),實(shí)現(xiàn)業(yè)務(wù)和技術(shù)的深度融合
業(yè)務(wù)架構(gòu)上,國家級語料庫運(yùn)營平臺采用“三橫三縱”的總體架構(gòu)(圖1)。橫向維度,平臺貫通數(shù)據(jù)匯聚、數(shù)據(jù)治理和數(shù)據(jù)服務(wù)三大環(huán)節(jié)。數(shù)據(jù)匯聚模塊,以全國一體化政務(wù)大數(shù)據(jù)平臺和各省市政務(wù)大數(shù)據(jù)平臺為抓手實(shí)現(xiàn)公共數(shù)據(jù)、企業(yè)數(shù)據(jù)、專項(xiàng)數(shù)據(jù)等各類數(shù)據(jù)的采集、匯聚;數(shù)據(jù)治理模塊,通過數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)標(biāo)注和數(shù)據(jù)質(zhì)量評價(jià)的治理手段,形成直接可用于AI大模型訓(xùn)練的預(yù)訓(xùn)練數(shù)據(jù)集、指令微調(diào)數(shù)據(jù)集、監(jiān)督測試數(shù)據(jù)集;數(shù)據(jù)服務(wù)模塊,提供數(shù)據(jù)檢索、數(shù)據(jù)共享、數(shù)據(jù)流通交易等配套服務(wù),著力于開源數(shù)據(jù)生態(tài)打造??v向維度,平臺覆蓋技術(shù)工具、安全監(jiān)管、生態(tài)創(chuàng)新等“三大能力”的全流程支撐。技術(shù)工具方面,通過隱私保護(hù)、數(shù)據(jù)互操作、跨域數(shù)據(jù)交換等技術(shù)的更新迭代,助力語料庫打通多主體、跨層級數(shù)據(jù)流通壁壘;安全監(jiān)管方面,強(qiáng)調(diào)對數(shù)據(jù)安全、隱私保護(hù)和合規(guī)性的全面監(jiān)管,構(gòu)建“技術(shù)+運(yùn)維+管理”三元語料庫安全防護(hù)體系,以保證平臺平穩(wěn)運(yùn)行的基礎(chǔ);生態(tài)創(chuàng)新方面,通過數(shù)據(jù)標(biāo)準(zhǔn)生態(tài)、行業(yè)多元主體參與生態(tài)的打造,增強(qiáng)語料庫運(yùn)營平臺價(jià)值發(fā)揮,向市場傳遞重構(gòu)語料生態(tài)的頂層設(shè)計(jì)理念。

技術(shù)架構(gòu)上,建議國家級語料庫運(yùn)營平臺采用“1+N”一體化架構(gòu)設(shè)計(jì)。國家級語料庫運(yùn)營平臺設(shè)計(jì)必須考慮當(dāng)前我國數(shù)據(jù)資源現(xiàn)狀,以數(shù)據(jù)安全為底線,綜合考慮國家統(tǒng)籌管理與區(qū)域現(xiàn)狀特點(diǎn)相結(jié)合,注重資源高效利用,推動建立全國數(shù)據(jù)要素統(tǒng)一大市場。因此,借鑒全國一體化在線政務(wù)服務(wù)平臺建設(shè)和數(shù)據(jù)匯聚的思路,建議國家級語料庫運(yùn)營平臺采用“1+N”的一體化架構(gòu)設(shè)計(jì)。其中,“1”,指國家語料庫運(yùn)營平臺,即中心平臺。中心平臺負(fù)責(zé)國家級語料庫運(yùn)營平臺的全國統(tǒng)籌管理,建立中心編目系統(tǒng)管理分布式數(shù)據(jù)平臺的元數(shù)據(jù),但不直接進(jìn)行數(shù)據(jù)治理和數(shù)據(jù)運(yùn)營;具體通過制定標(biāo)準(zhǔn)、開源系統(tǒng)工具支撐、開放接口建設(shè)等,實(shí)現(xiàn)所有平臺之間的整體聯(lián)動和協(xié)同共享。此外,中心平臺還需負(fù)責(zé)國家電子政務(wù)數(shù)據(jù)、部委、央企等單位數(shù)據(jù)的匯聚。“N”,指選取部分區(qū)域建設(shè)N個國家級語料庫運(yùn)營平臺。例如,支持以國家AI“五大”訓(xùn)練基地所在區(qū)域?yàn)樵圏c(diǎn),建設(shè)國家級語料庫運(yùn)營平臺,負(fù)責(zé)各區(qū)域內(nèi)的語料匯聚和存儲。在“1+N”的一體化架構(gòu)下,基于全國數(shù)據(jù)互聯(lián)、服務(wù)互通的統(tǒng)一數(shù)據(jù)門戶,中心平臺在收到用戶請求時,根據(jù)元數(shù)據(jù)描述從分布系統(tǒng)實(shí)時調(diào)用對應(yīng)的數(shù)據(jù)集,形成全國語料庫服務(wù)“一張網(wǎng)”。
確定運(yùn)營主體,高效推動平臺建設(shè)與運(yùn)營
國家級語料庫運(yùn)營平臺的建設(shè)運(yùn)營主體,是影響平臺建設(shè)進(jìn)度和成效的關(guān)鍵要素。初步設(shè)想,有4種路徑:由國家數(shù)據(jù)局統(tǒng)一規(guī)劃建設(shè)統(tǒng)一運(yùn)營管理,因?yàn)樵趪覕?shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計(jì)劃(2024—2026年)》中明確提出建設(shè)高質(zhì)量語料庫和基礎(chǔ)科學(xué)數(shù)據(jù)集,支持開展AI大模型開發(fā)和訓(xùn)練。由國家數(shù)據(jù)局委托國家信息中心、中國信息通信研究院等具有國家信息化項(xiàng)目建設(shè)經(jīng)驗(yàn)的單位開展建設(shè)運(yùn)營,國家數(shù)據(jù)發(fā)展研究院協(xié)助建設(shè)。以國家數(shù)據(jù)局為總牽頭,協(xié)調(diào)“東數(shù)西算”八大樞紐節(jié)點(diǎn)或國家AI“五大”訓(xùn)練基地所在地區(qū)發(fā)展和改革委員會、經(jīng)濟(jì)和信息化廳等相關(guān)部門,聯(lián)合組建國家級語料庫運(yùn)營主體。由國家數(shù)據(jù)局指導(dǎo)中國移動、中國聯(lián)通、中國電信等電信運(yùn)營商進(jìn)行建設(shè)與運(yùn)營,發(fā)揮運(yùn)營商在數(shù)字基礎(chǔ)設(shè)施、數(shù)字化能力及大型信息化項(xiàng)目建設(shè)方面所具備的較強(qiáng)優(yōu)勢。
聚焦核心內(nèi)容,覆蓋語料生產(chǎn)應(yīng)用全生命周期
國家級語料庫運(yùn)營平臺覆蓋了語料獲取、清洗、加工、治理、應(yīng)用和管理的全生命周期,具有多種靈活的采集、匯聚方式;能分布式高效處理海量語料,有效提升語料開發(fā)利用效率,賦能企業(yè)或更多機(jī)構(gòu)建設(shè)大模型、增強(qiáng)大模型能力。在數(shù)據(jù)匯聚環(huán)節(jié),一方面,保證數(shù)據(jù)來源,關(guān)注公共數(shù)據(jù)、企業(yè)數(shù)據(jù)等數(shù)據(jù)來源和獲取渠道,兼顧數(shù)據(jù)在時間和領(lǐng)域維度的融合,建立數(shù)據(jù)長期更新機(jī)制;另一方面,選取合理的數(shù)據(jù)匯聚方式——公共數(shù)據(jù)可以考慮以邏輯接入為主,企業(yè)數(shù)據(jù)視情況選擇不同匯聚方式。在數(shù)據(jù)治理環(huán)節(jié),既要考慮數(shù)據(jù)匯聚之后的治理,也要基于不同的場景需求,服務(wù)于數(shù)據(jù)運(yùn)營需求;考慮采用先進(jìn)審核技術(shù)、動態(tài)策略管理等中間層技術(shù),對“有毒”數(shù)據(jù)進(jìn)行攔截與修改。在數(shù)據(jù)服務(wù)環(huán)節(jié),一方面,積極探索服務(wù)內(nèi)容,平臺除主要提供數(shù)據(jù)目錄、數(shù)據(jù)共享、數(shù)據(jù)交換、數(shù)據(jù)工具等服務(wù)內(nèi)容外,還應(yīng)加強(qiáng)探索合成數(shù)據(jù)的建設(shè)和應(yīng)用;另一方面,要建立合理的數(shù)據(jù)運(yùn)營機(jī)制,在明確平臺運(yùn)營主體之后,基于服務(wù)內(nèi)容,科學(xué)設(shè)定數(shù)據(jù)定價(jià)機(jī)制和收益分配機(jī)制。
(作者:李興騰,浙江大學(xué)公共管理學(xué)院;馮鋒,中國科學(xué)技術(shù)大學(xué)管理學(xué)院;黃鸝強(qiáng),浙江大學(xué)管理學(xué)院。《中國科學(xué)院院刊》供稿)







