我國AI訓練數(shù)據(jù)生產(chǎn)流通的制約因素與應(yīng)對策略研究
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 訓練數(shù)據(jù)的規(guī)模和質(zhì)量決定了人工智能發(fā)展的高度。端側(cè)模型和具身智能等技術(shù)路線的演進,對高質(zhì)量、多模態(tài)和規(guī)模化的數(shù)據(jù)資源提出了更高要求。優(yōu)質(zhì)數(shù)據(jù)的可得性、真實性和多樣性,已成為人工智能技術(shù)持續(xù)突破的核心基礎(chǔ)。
當前,我國人工智能在部分領(lǐng)域已取得顯著進展,但整體性能與世界頂尖水平仍有一定差距。除算力、人才、資金等因素外,訓練數(shù)據(jù)的供給質(zhì)量和流通效率日益成為制約模型性能和行業(yè)創(chuàng)新的關(guān)鍵因素。我國訓練數(shù)據(jù)面臨“質(zhì)量低、數(shù)量少、分布散”的突出問題。優(yōu)質(zhì)中文語料積累不足、公共數(shù)據(jù)流通不暢、垂直行業(yè)數(shù)據(jù)標注成本高企,加之版權(quán)與個人信息保護等監(jiān)管障礙,使訓練數(shù)據(jù)的獲取、使用和共享成本居高不下。在此背景下,合成數(shù)據(jù)逐漸成為重要補充手段,但其在真實性和多樣性方面仍存在局限,難以全面緩解優(yōu)質(zhì)數(shù)據(jù)的結(jié)構(gòu)性短缺問題。
提升數(shù)據(jù)質(zhì)量、促進數(shù)據(jù)流通,是我國在人工智能競爭中取勝的關(guān)鍵。數(shù)據(jù)要素的復制成本低、資產(chǎn)專用性強,對訓練數(shù)據(jù)的生產(chǎn)和流通形成了諸多制約。只有充分考慮數(shù)據(jù)要素的基本特性,制定針對性強的政策措施,才能為人工智能發(fā)展奠定堅實基礎(chǔ),推動產(chǎn)業(yè)健康可持續(xù)發(fā)展。
商業(yè)生態(tài)對訓練數(shù)據(jù)的影響
人工智能技術(shù)的迅速發(fā)展,使得相關(guān)企業(yè)對優(yōu)質(zhì)數(shù)據(jù)的需求不斷攀升。但與此同時,這一需求的增長受到技術(shù)方案、商業(yè)應(yīng)用和資本市場的深刻影響。
訓練數(shù)據(jù)具有較強的資產(chǎn)專用性,往往為特定領(lǐng)域和任務(wù)定制,難以跨場景通用。例如,ChatGPT-o1和DeepSeek-R1等推理模型,在強化學習階段需要高質(zhì)量的思維鏈數(shù)據(jù)作為“冷啟動”素材,這與以往所需要的數(shù)據(jù)大不相同。再如,一些國內(nèi)的自動駕駛企業(yè)發(fā)現(xiàn),訓練自動駕駛的端到端大模型,導致以前積累的路測數(shù)據(jù)只有大約2%可以使用,需要重新考慮數(shù)據(jù)標注方案。這些現(xiàn)象表明,技術(shù)方案直接決定了訓練數(shù)據(jù)的收集方式和標注流程,從而影響了訓練數(shù)據(jù)的市場需求。
應(yīng)用場景的開發(fā)狀況直接影響訓練數(shù)據(jù)的質(zhì)量。目前,國內(nèi)開放的大部分自動駕駛路測區(qū)域,難以涵蓋復雜路況,限制了數(shù)據(jù)的多樣性。此外,部分平臺企業(yè)在模型初步可用后,過度強調(diào)游戲、社交和廣告等場景的商業(yè)落地,導致模型停留在低質(zhì)量數(shù)據(jù)的循環(huán)中,使得性能難以進一步優(yōu)化。
平臺和初創(chuàng)企業(yè)所面臨的結(jié)構(gòu)性限制,抑制了探索前沿技術(shù)和獲取優(yōu)質(zhì)數(shù)據(jù)的動力。部分平臺企業(yè)因組織惰性和股東干預,傾向于將資源投入低風險項目,導致訓練數(shù)據(jù)的低水平重復。初創(chuàng)企業(yè)則受到風投資本短期趨利行為和“明股實債”對賭協(xié)議的影響,傾向于短期變現(xiàn),忽視底層數(shù)據(jù)積累,造成總體技術(shù)水平始終落后于人工智能前沿水平的國家。
總體來看,商業(yè)生態(tài)不僅影響著訓練數(shù)據(jù)生產(chǎn)和流通的市場需求,還影響著企業(yè)生產(chǎn)優(yōu)質(zhì)數(shù)據(jù)的動力。在監(jiān)管合規(guī)壓力較大的環(huán)境中,只要技術(shù)方向明確、商業(yè)利潤可觀、資金投入預期清晰,即便優(yōu)質(zhì)數(shù)據(jù)本身的合規(guī)性較為模糊,行業(yè)存在一定的灰色地帶,企業(yè)依然有積極性從事這些數(shù)據(jù)的生產(chǎn)和交易。
監(jiān)管政策對訓練數(shù)據(jù)的影響
在技術(shù)發(fā)展遭遇瓶頸、企業(yè)對技術(shù)和市場前景預期不明確的情況下,監(jiān)管政策的重要性就會凸顯出來,影響訓練數(shù)據(jù)的生產(chǎn)和流通。監(jiān)管政策帶來的不確定性,也會反過來影響數(shù)據(jù)行業(yè)的融資和市場規(guī)模。總體來看,國內(nèi)外監(jiān)管政策對訓練數(shù)據(jù)的關(guān)注點,主要集中在知識產(chǎn)權(quán)和個人信息保護等方面。
知識產(chǎn)權(quán)
2023年7月,國家互聯(lián)網(wǎng)信息辦公室等七部門發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中,第7條明確規(guī)定,“使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型”“涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán)”等。然而,按照現(xiàn)行的《中華人民共和國著作權(quán)法》(以下簡稱《著作權(quán)法》),相關(guān)企業(yè)必須事先獲得訓練數(shù)據(jù)中權(quán)利人的許可。如果堅持先許可后使用的原則,企業(yè)將面臨過高的許可成本?!吨鳈?quán)法》第24條明確規(guī)定了版權(quán)作品合理使用的13種條件,但在人工智能模型訓練中使用版權(quán)作品的行為,仍處于法律適用的模糊地帶,尚無明確的豁免依據(jù)。
一個引人注目的案例是秘塔AI公司與中國知網(wǎng)(CNKI)的版權(quán)糾紛。秘塔AI公司在使用中國知網(wǎng)學術(shù)資源搭建搜索系統(tǒng)時,未獲得中國知網(wǎng)的授權(quán)。中國知網(wǎng)認為秘塔AI公司侵犯了其著作權(quán),而秘塔AI公司則主張其行為僅涉及知網(wǎng)論文的題錄和摘要,屬于合理使用。最終,該事件以秘塔AI公司宣布不再收錄知網(wǎng)內(nèi)容而告終。
部分國家都不同程度放寬了訓練數(shù)據(jù)在版權(quán)問題上的要求。以色列和日本在版權(quán)問題上較為激進,兩國行政部門均曾公開聲明,人工智能使用版權(quán)作品進行訓練,屬于“合理使用”的范圍。歐盟和英國也在相關(guān)法案中,單獨定義了文本和數(shù)據(jù)挖掘行為(text and data mining),并注明這一行為在版權(quán)法中的適用條件。日本和韓國的行政部門還出臺了詳細的合規(guī)指南,區(qū)分不同市場主體的法律責任,并提供具體的合規(guī)建議。
個人信息保護
個人信息保護和數(shù)據(jù)安全的監(jiān)管,可能會增加數(shù)據(jù)采集、標注和人工智能等行業(yè)的合規(guī)成本,影響數(shù)據(jù)生產(chǎn)和流通的市場預期。在實際執(zhí)行層面,數(shù)據(jù)企業(yè)主要面臨“難落實”和“缺細則”這兩個問題。
“落實難”。監(jiān)管法規(guī)中的個別條款在當前階段落實難度較大。對中小企業(yè)來說,由于資源限制,很難建立法規(guī)要求的內(nèi)部風控和評估機制。當前法規(guī)對數(shù)據(jù)“匿名化”的要求過高且標準模糊,算法處理后可能遺漏極端情形,需要人工篩查,而中小企業(yè)難以負擔此類合規(guī)流程的高昂成本。在自動駕駛和機器人等領(lǐng)域,“匿名化”會降低圖像和視頻數(shù)據(jù)的質(zhì)量,削弱人工智能模型的性能。訓練數(shù)據(jù)的生產(chǎn)鏈條尤為復雜,企業(yè)難以確保所有數(shù)據(jù)都獲得相關(guān)個人的知情同意,也難以判斷是否違反了數(shù)據(jù)收集的“最少必要”原則,這進一步加劇了企業(yè)的合規(guī)風險。
“缺細則”。在“落實難”的情況下,企業(yè)急需更加明確的細則,以減少合規(guī)過程中存在的不確定性。例如,針對數(shù)據(jù)采集、標注、交易和使用等環(huán)節(jié),“知情同意”和“最少必要”原則應(yīng)當有例外和免責條款。除汽車行業(yè)的數(shù)據(jù)安全管理規(guī)定,其他行業(yè)尚未明確“重要數(shù)據(jù)”范圍,個人信息“匿名化”也缺乏明確的技術(shù)標準。此外,部分法規(guī)對“情節(jié)嚴重”的認定較為模糊,導致法律責任的判定依賴法官的自由裁量,也讓企業(yè)在實操中難以把握合規(guī)邊界。
國外在監(jiān)管法規(guī)方面的借鑒。歐盟。歐盟《通用數(shù)據(jù)保護條例》(GDPR)側(cè)重個人權(quán)利保護,企業(yè)收集數(shù)據(jù)通常援引“正當利益”(legitimate interest)條款,但監(jiān)管機構(gòu)對“正當利益”判定較為嚴格。實證研究顯示,GDPR頒布后,企業(yè)的合規(guī)成本上升,導致歐盟企業(yè)比北美地區(qū)企業(yè)平均減少了將近1/4的數(shù)據(jù)要素投入強度。北美。北美地區(qū)的個人信息保護立法,以美國加利福尼亞州最為典型?!都又菹M者隱私法案》(CCPA)和《加州隱私權(quán)法案》(CPRA)以促進數(shù)據(jù)流通為導向,采用“選擇-退出”(opt-out)機制,默認企業(yè)可以收集、出售和共享個人信息,但用戶有權(quán)拒絕企業(yè)的出售和共享行為。此外,北美地區(qū)與個人信息保護相關(guān)的多部法案,要求企業(yè)對數(shù)據(jù)進行“去標識化”處理,整體合規(guī)義務(wù)相對較輕,有助于降低企業(yè)的合規(guī)成本。其他國家。其他國家的監(jiān)管也有值得借鑒的地方,例如:新加坡將“業(yè)務(wù)改進或研究目的”視為個人信息保護的例外情況;韓國則加強監(jiān)管部門和利益相關(guān)者的溝通合作,通過司法解釋與合規(guī)指引等方式,推動個人信息保護與人工智能產(chǎn)業(yè)發(fā)展相協(xié)調(diào)。
公共數(shù)據(jù)開發(fā)利用
當前,各地公共數(shù)據(jù)交易機制在制度設(shè)計與實施環(huán)節(jié)均存在一定障礙,影響了數(shù)據(jù)流通效率和市場活力。體制內(nèi)單位沉淀的數(shù)據(jù),如醫(yī)療記錄、教育題庫、司法文書、工商登記、圖書史料等,具有較高的客觀性和準確性,是人工智能訓練數(shù)據(jù)的重要資源。2020年以來,各地紛紛建立政府主導的數(shù)據(jù)交易機構(gòu),作為公共數(shù)據(jù)授權(quán)運營產(chǎn)品的交易場所,以及為企業(yè)之間的數(shù)據(jù)交易提供撮合服務(wù)。但在實踐中,前置合規(guī)審查比較煩瑣,再加上相關(guān)法規(guī)仍有“難落實”和“缺細則”的地方,增加了場內(nèi)交易成本。例如,某地數(shù)據(jù)交易所實行“不合規(guī)不掛牌,無場景不交易”的原則,一定程度上阻礙了更多企業(yè)進場交易。個別數(shù)據(jù)交易機構(gòu)出于特定技術(shù)要求或合規(guī)目的,要求企業(yè)將數(shù)據(jù)提前存儲在交易所內(nèi),引發(fā)企業(yè)的不安全感,挫傷場內(nèi)交易的積極性。雖然高價值的公共數(shù)據(jù)需要通過合規(guī)認證來保障交易標的的真實性,但當前場內(nèi)交易的合規(guī)審查機制亟待優(yōu)化。
此外,公共數(shù)據(jù)的開發(fā)利用仍呈現(xiàn)孤島化的格局,阻礙了公共數(shù)據(jù)需求和價值的提升。數(shù)據(jù)要達到一定規(guī)模,才能創(chuàng)造足夠大的市場價值和需求。目前,公共數(shù)據(jù)由各地分散開發(fā),授權(quán)定價碎片化,在監(jiān)管上尺度把握不一致,相當于“高速公路上設(shè)置多個獨立經(jīng)營的收費站”,增加了需求方整合各地公共數(shù)據(jù)的交易成本,會在無形中提高市場準入門檻,排斥可能在全國范圍內(nèi)產(chǎn)生創(chuàng)新的潛在優(yōu)質(zhì)企業(yè)。個別地方政府在數(shù)字服務(wù)采購和授權(quán)運營過程中,容易產(chǎn)生隱性腐敗和不正當競爭,也會導致技術(shù)標準和公共數(shù)據(jù)市場的分割,形成數(shù)字經(jīng)濟的“地方保護主義”。而目前數(shù)據(jù)行業(yè)的技術(shù)人才、具備數(shù)字經(jīng)濟思維的領(lǐng)導干部,以及對公共數(shù)據(jù)的市場需求,都高度集中在沿海經(jīng)濟發(fā)達地區(qū)和中央層面。如果讓各地區(qū)繼續(xù)自行探索,區(qū)域間差距將會越來越大?,F(xiàn)在經(jīng)濟發(fā)達地區(qū)的試點探索已經(jīng)有了一定成效,如事前統(tǒng)一授權(quán)、減少數(shù)源單位責任、建立收益掛鉤機制等。如果能將這些經(jīng)驗總結(jié)推廣,就有望推動形成公共數(shù)據(jù)的全國統(tǒng)一大市場。
促進訓練數(shù)據(jù)生產(chǎn)和流通的政策建議
出臺產(chǎn)業(yè)政策和激勵措施,推動優(yōu)質(zhì)數(shù)據(jù)的生產(chǎn)
鼓勵科教文衛(wèi)機構(gòu)生產(chǎn)開源數(shù)據(jù),促進科研數(shù)據(jù)管理機構(gòu)和開放平臺的統(tǒng)一。高質(zhì)量的科研數(shù)據(jù)已成為人工智能模型訓練和科技競爭的關(guān)鍵資源。例如,獲得2024年諾貝爾獎、由英國DeepMind公司開發(fā)的人工智能模型AlphaFold,正是依托全球開放的生物蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫Protein Data Bank實現(xiàn)蛋白質(zhì)結(jié)構(gòu)預測的重大突破。與此同時,近期北美部分科研數(shù)據(jù)庫限制中國用戶的訪問權(quán)限,凸顯出科研數(shù)據(jù)在國際競爭中的戰(zhàn)略意義,也反映出我國建設(shè)自主科研數(shù)據(jù)體系的緊迫性。構(gòu)建系統(tǒng)性的開放科研數(shù)據(jù)庫是一項長期工作,需要持續(xù)投入與制度保障??平涛男l(wèi)機構(gòu)擁有大量專業(yè)人才,是生產(chǎn)優(yōu)質(zhì)開源數(shù)據(jù)的重要力量。因此,建議在科教文衛(wèi)機構(gòu)的課題申請和考核中,增加數(shù)據(jù)集產(chǎn)出的考核權(quán)重,鼓勵科研人員原創(chuàng)、擴展和長期維護科研數(shù)據(jù)庫;并且,根據(jù)科研規(guī)律引入類似專利保護期的制度,激勵科研人員在合理期限內(nèi),依托原創(chuàng)數(shù)據(jù)產(chǎn)出科研成果。超過規(guī)定的保護期后,原則上應(yīng)將數(shù)據(jù)庫向社會公開。此政策不僅適用于理工科,還應(yīng)覆蓋人文社科領(lǐng)域的數(shù)據(jù)資源和課題成果,推動跨學科的數(shù)據(jù)共享和創(chuàng)新。此外,設(shè)立統(tǒng)一的科研數(shù)據(jù)管理機構(gòu),有助于規(guī)范數(shù)據(jù)的收集、存儲和共享,從而確保數(shù)據(jù)資源在更廣泛的科研領(lǐng)域得到有效利用。
持續(xù)打造人工智能技術(shù)的應(yīng)用場景,培育物聯(lián)網(wǎng)和新型硬件終端市場。擴展和豐富人工智能技術(shù)的應(yīng)用場景,是積累優(yōu)質(zhì)數(shù)據(jù)資源的重要手段。人工智能企業(yè)通過產(chǎn)品和服務(wù)的實際應(yīng)用場景,不斷收集用戶行為數(shù)據(jù)和反饋信息,為模型訓練和算法優(yōu)化提供豐富的數(shù)據(jù)支撐。物聯(lián)網(wǎng)和新型硬件終端能夠超越文字、圖像、語音等傳統(tǒng)模態(tài),收集更多維度的數(shù)據(jù),是下一代人工智能的基礎(chǔ)。產(chǎn)業(yè)政策應(yīng)繼續(xù)通過有條件的稅費減免、財政補助等形式,支持自動駕駛、增強現(xiàn)實技術(shù)(AR)、虛擬現(xiàn)實技術(shù)(VR)和智能機器人等新型終端設(shè)備進入實際應(yīng)用場景,積累數(shù)據(jù)資源,優(yōu)化模型性能。此外,企業(yè)數(shù)字化和工業(yè)互聯(lián)網(wǎng)是人工智能數(shù)據(jù)積累的重要場景,要利用龍頭企業(yè)和產(chǎn)業(yè)鏈鏈主企業(yè)的示范效應(yīng),帶動中小企業(yè)和傳統(tǒng)制造業(yè)企業(yè)的數(shù)字化轉(zhuǎn)型。
完善數(shù)據(jù)安全的監(jiān)管框架,促進優(yōu)質(zhì)數(shù)據(jù)的流通
在監(jiān)管調(diào)整方面,采取“寬進嚴出”的監(jiān)管理念。促進數(shù)據(jù)要素生產(chǎn)和流通,需要將立法、司法、行政監(jiān)管和產(chǎn)業(yè)政策緊密結(jié)合,進行通盤考慮。政策出臺應(yīng)遵循合理的邏輯順序,建議優(yōu)先推進立法和司法工作,針對具體問題設(shè)立免責條款、出臺司法解釋,結(jié)合公眾、行業(yè)和政府的需求,對涉及數(shù)據(jù)要素的法規(guī)進行動態(tài)調(diào)整。隨后,再由行政監(jiān)管機構(gòu)和行業(yè)組織聯(lián)合推動,完善合規(guī)指南,從而使產(chǎn)業(yè)政策在促進數(shù)據(jù)生產(chǎn)和流通方面,發(fā)揮更大的作用。我國對數(shù)據(jù)要素的監(jiān)管政策較為全面,重視對上游要素和下游應(yīng)用的監(jiān)管,強調(diào)對事前、事中、事后環(huán)節(jié)的全鏈路監(jiān)管。雖然對行業(yè)上游和事前環(huán)節(jié)的監(jiān)管可以減少監(jiān)管成本,但是我們需要審慎評估對技術(shù)和市場發(fā)展的影響。為了促進人工智能的創(chuàng)新發(fā)展,建議監(jiān)管要采取“寬進嚴出”、包容審慎的理念,適當放寬對行業(yè)上游的算法、數(shù)據(jù)等生產(chǎn)要素在輸入端的監(jiān)管,把監(jiān)管重點放在行業(yè)下游的應(yīng)用場景和輸出端的使用環(huán)節(jié),從而有利于提升人工智能模型的性能水平。監(jiān)管應(yīng)當考慮不同市場主體的管理能力和有限責任,通過司法解釋、負面清單、合規(guī)指南等方式,適當放寬事前監(jiān)管要求,落實事中事后監(jiān)管,完善事后救濟措施。
在訓練數(shù)據(jù)的著作權(quán)問題上,放寬“合理使用”原則的適用范圍,出臺司法解釋與合規(guī)指南。為進一步推動數(shù)據(jù)的廣泛使用和創(chuàng)新,建議在《著作權(quán)法》中放寬“合理使用”原則的適用情形。例如,參考部分發(fā)達國家和地區(qū)在知識產(chǎn)權(quán)法規(guī)中的實踐,對“文本和數(shù)據(jù)挖掘”的情形進行單獨定義,為版權(quán)作品的采集和使用提供例外和免責條款。司法機關(guān)可考慮對數(shù)據(jù)采集交易和人工智能版權(quán)糾紛案件進行集中審理,出臺司法解釋和指導性案例;以促進人工智能技術(shù)創(chuàng)新發(fā)展為宗旨,進一步明確“合理使用”的邊界。在立法和司法工作的基礎(chǔ)上,建議知識產(chǎn)權(quán)相關(guān)的行政機構(gòu)可以與企業(yè)座談,調(diào)研域外國家經(jīng)驗,出臺詳盡的合規(guī)指南。在合規(guī)指南中,可以針對人工智能模型的不同階段,區(qū)分版權(quán)持有方、模型開發(fā)者、服務(wù)提供商和模型使用者等不同市場主體的法律責任,并提供相應(yīng)的合規(guī)建議,穩(wěn)定企業(yè)預期。
在個人信息保護和數(shù)據(jù)安全方面,設(shè)立免責條款和負面清單,強化事中事后監(jiān)管,完善事后救濟措施。針對“訓練通用型人工智能”這一特定目的,進一步明確適用條款,放寬個人信息保護的限制。在匿名化技術(shù)尚未成熟的情況下,依照數(shù)據(jù)處理的難度和對模型性能的影響,可以允許訓練數(shù)據(jù)中包含部分個人信息,或者僅去除直接標識符,只要數(shù)據(jù)管理和模型輸出(包括由模型控制的機器行為)符合安全要求即可。如果包含重要數(shù)據(jù),則需履行重要數(shù)據(jù)相關(guān)義務(wù)。開發(fā)者轉(zhuǎn)賣數(shù)據(jù),應(yīng)遵守一般市場主體的數(shù)據(jù)安全義務(wù)。與此同時,要加強人工智能安全技術(shù)的研發(fā),以技術(shù)發(fā)展促進監(jiān)管能力的提升。落實負面清單制度,在全國范圍內(nèi)加緊推出各行業(yè)的重要數(shù)據(jù)目錄,盡快明確“匿名化”等數(shù)據(jù)處理流程的國家標準與合規(guī)指南。當前已有《重要數(shù)據(jù)識別指南(征求意見稿)》《數(shù)據(jù)出境安全評估辦法》《數(shù)據(jù)分類分級規(guī)則》《匿名化技術(shù)應(yīng)用指南》等政策文件,但大多屬于原則性的指導,沒有細化到具體的數(shù)據(jù)名稱和技術(shù)細節(jié)。建議各行業(yè)主管部門可以整合試點經(jīng)驗和行業(yè)反饋,動態(tài)調(diào)整負面清單和數(shù)據(jù)處理技術(shù)標準,由國家數(shù)據(jù)局等部門進行統(tǒng)一梳理整合。如果行業(yè)主管部門沒有重要數(shù)據(jù)需要管理,也最好進行明確說明。盡快明確小型個人信息處理者的定義,并出臺相應(yīng)的合規(guī)指南??梢苑抡諝W盟網(wǎng)絡(luò)安全局出臺的《中小企業(yè)個人數(shù)據(jù)安全處理指南》,從企業(yè)營收、雇員數(shù)量、主營業(yè)務(wù)等方面,明確劃分標準,對合規(guī)義務(wù)、操作流程和具體監(jiān)管案例進行梳理總結(jié)。制定總體性數(shù)據(jù)合規(guī)指南,梳理上位法細則與模糊條款。建議相關(guān)部門統(tǒng)一《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》《中華人民共和國刑法》等法律框架下的解釋口徑,澄清過往司法案例中語焉不詳、容易讓企業(yè)誤解擔憂的地方,穩(wěn)定企業(yè)的預期。 推動發(fā)展數(shù)據(jù)安全保險機制,提升中小企業(yè)合規(guī)風險應(yīng)對能力。《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》明確,“鼓勵保險公司開發(fā)網(wǎng)絡(luò)數(shù)據(jù)損害賠償責任險種”??紤]到數(shù)據(jù)安全保險的風險核算,需要大量網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù),建議保險公司可以通過數(shù)據(jù)交易、行業(yè)聯(lián)盟、兼并收購等方式,與網(wǎng)絡(luò)安全和云服務(wù)企業(yè)密切合作。在合作環(huán)節(jié)中,需要留意不正當競爭的可能性。在法規(guī)調(diào)整到位的基礎(chǔ)上,可以仿照北美地區(qū)2016年提出的《數(shù)據(jù)泄露保險法案》,通過采購準入、稅收優(yōu)惠等方式,促進數(shù)據(jù)安全保險快速鋪開,幫助完善中小企業(yè)的數(shù)據(jù)安全內(nèi)控機制,從長遠來看也有利于網(wǎng)絡(luò)安全技術(shù)的創(chuàng)新發(fā)展和中小企業(yè)的數(shù)字化轉(zhuǎn)型。
加快建設(shè)國家級公共數(shù)據(jù)平臺,匯總整合各地各部門數(shù)據(jù)資源
建設(shè)國家級公共數(shù)據(jù)平臺,實現(xiàn)公共數(shù)據(jù)開放和授權(quán)運營渠道的統(tǒng)一,形成數(shù)據(jù)要素的全國統(tǒng)一大市場。全國平臺能夠匯聚各地各部門的數(shù)據(jù)資源,提升公共數(shù)據(jù)價值,激發(fā)市場主體對公共數(shù)據(jù)的需求。需求量增加,單次授權(quán)價格就可以適當減少,企業(yè)進入市場的門檻就會降低。在授權(quán)機制上,建議各地各部門在平臺上公布高價值數(shù)據(jù)清單和字段。企業(yè)可以選擇全量數(shù)據(jù),也可以選擇特定地區(qū)的部分數(shù)據(jù)或部分字段申請授權(quán)。同一份數(shù)據(jù)可以事前統(tǒng)一授權(quán)多個企業(yè),發(fā)揮市場競爭的作用。繞過各地尺度不一的事前審查環(huán)節(jié),改為全國平臺的統(tǒng)一審查,也是一種減少事前監(jiān)管的方式。事中和事后的監(jiān)管,可以由企業(yè)所在地政府分別執(zhí)行,落實屬地和行業(yè)監(jiān)管責任。全國平臺相當于各方共建的“數(shù)據(jù)開放和授權(quán)運營渠道”,為此國家可以建立基于數(shù)據(jù)要素貢獻的收益分配機制,調(diào)動各地各部門參與共建的積極性,中央在其中適當收取少量的“渠道費用”。同時,各地各部門仍可以保留自己建設(shè)的平臺,繼續(xù)進行政策層面的探索。全國平臺也可以和其他部委的產(chǎn)業(yè)政策進行聯(lián)動。例如,可以在平臺上“揭榜掛帥”,吸引企業(yè)和高校等機構(gòu)共同研發(fā)數(shù)據(jù)相關(guān)的技術(shù);也可以通過價格折扣等方式,對特定地區(qū)的公共數(shù)據(jù)授權(quán)運營進行政策傾斜。
在技術(shù)層面,可以利用開源框架,統(tǒng)一公共數(shù)據(jù)平臺的技術(shù)標準。各地建設(shè)的公共數(shù)據(jù)平臺,在數(shù)據(jù)格式、數(shù)據(jù)接口、授權(quán)協(xié)議、運維管理等方面并不互通。本文建議,國家數(shù)據(jù)局可以利用已有的成熟開源框架,自上而下統(tǒng)一數(shù)據(jù)平臺的技術(shù)標準。國際上已有成功先例可供參考,例如:包括北美地區(qū)、英國、新加坡在內(nèi)的30多個國家和地區(qū),用“全面知識存檔網(wǎng)絡(luò)”(CKAN)或“基于Drupal的知識存檔網(wǎng)絡(luò)”(DKAN)等開源軟件,創(chuàng)建網(wǎng)站并發(fā)布公共數(shù)據(jù)集;北美地區(qū)的政府還自主開發(fā)了一系列轉(zhuǎn)換、處理和分析數(shù)據(jù)的開源工具,供各地各部門使用。從中央到地方都用同一套開源軟件創(chuàng)建網(wǎng)站和發(fā)布數(shù)據(jù),可以讓國家利用統(tǒng)一的數(shù)據(jù)接口,將各地各部門更新的數(shù)據(jù)集及時匯總到全國平臺。這有利于在未來對各地各部門開放數(shù)據(jù)的行為進行準確考核和評估。如果對安全有顧慮,政府也可以聯(lián)合多方力量,自主開發(fā)開源框架;在開放平臺的基礎(chǔ)上,有條件地擴展支持授權(quán)運營功能,嵌入基于隱私增強技術(shù)的閉源模塊,提升數(shù)據(jù)傳輸和交易過程的安全性。
在政府內(nèi)部權(quán)責關(guān)系方面,建議在各地各部門設(shè)立數(shù)據(jù)專員崗位,落實公共數(shù)據(jù)開放的行政責任?!皵?shù)據(jù)專員”應(yīng)當由各部門領(lǐng)導班子中熟悉業(yè)務(wù)的重要成員擔任,并且部門領(lǐng)導和成員都要經(jīng)過專門培訓,把握數(shù)據(jù)處理分析的理念和基本框架,配合國家數(shù)據(jù)局和黨委分管領(lǐng)導開展工作。國家數(shù)據(jù)局在公共數(shù)據(jù)平臺的基礎(chǔ)上,統(tǒng)計匯總社會公眾需求,對各地各部門的數(shù)據(jù)開放效果進行考核評估。數(shù)據(jù)開放的考核,也應(yīng)當擴展到高校、圖書館、檔案館等國有企事業(yè)單位。
結(jié)語
訓練數(shù)據(jù)是影響人工智能發(fā)展的關(guān)鍵要素。優(yōu)質(zhì)數(shù)據(jù)的供給與開放程度決定了人工智能模型性能的上限,也關(guān)系到人工智能行業(yè)的創(chuàng)新潛力和市場前景。只有通過技術(shù)、市場和政策的多方合力,才能促進訓練數(shù)據(jù)的生產(chǎn)和流通,夯實我國在全球人工智能競爭中的優(yōu)勢,助力經(jīng)濟社會高質(zhì)量發(fā)展。
受篇幅所限,本文尚未討論隱私增強技術(shù)和數(shù)據(jù)跨境傳輸?shù)膯栴}。目前,以隱私計算、區(qū)塊鏈、數(shù)據(jù)沙箱為基礎(chǔ)構(gòu)建的“可信數(shù)據(jù)空間”已成為保障數(shù)據(jù)安全的重要技術(shù)路徑。然而,這一技術(shù)路線仍面臨資源消耗大、傳輸效率低、實施成本高等瓶頸問題,且依賴統(tǒng)一的技術(shù)標準和跨行業(yè)協(xié)同機制,短期內(nèi)難以大規(guī)模推廣。在此類技術(shù)成熟之前,數(shù)據(jù)要素的監(jiān)管政策應(yīng)當保持靈活寬松,以及幫助企業(yè)降低數(shù)據(jù)相關(guān)的研發(fā)和應(yīng)用成本,促進人工智能技術(shù)的創(chuàng)新和普及。
數(shù)據(jù)跨境傳輸也是值得關(guān)注的議題。隨著我國企業(yè)國際化進程加速,跨境數(shù)據(jù)流通將成為支持人工智能等新質(zhì)生產(chǎn)力“出?!钡年P(guān)鍵因素。根據(jù)DEPA和CPTPP等國際協(xié)定的要求,數(shù)據(jù)流通需要兼具開放性與安全性,這就意味著我國必須理順國內(nèi)政策體系,加快接軌和引領(lǐng)國際規(guī)則,不斷增強數(shù)字經(jīng)濟的國際競爭力和話語權(quán),為全球人工智能和數(shù)據(jù)治理貢獻中國方案。
(作者:林韜,香港中文大學 美國華盛頓大學政治學系。《中國科學院院刊》供稿)







