色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

分享到:
鏈接已復制

LANGUAGES

新聞

新聞直播 要聞 國際 軍事 政協(xié) 政務(wù) 圖片 視頻

財經(jīng)

財經(jīng) 金融 證券 汽車 科技 消費 能源 地產(chǎn) 農(nóng)業(yè)

觀點

觀點 理論 智庫 中國3分鐘 中國訪談 中國網(wǎng)評 中國關(guān)鍵詞

文化

文化 文創(chuàng) 藝術(shù) 時尚 旅游 鐵路 悅讀 民藏 中醫(yī) 中國瓷

國情

國情 助殘 一帶一路 海洋 草原 灣區(qū) 聯(lián)盟 心理 老年

首頁> 中國發(fā)展門戶網(wǎng)> 本網(wǎng)獨家>

我國AI訓練數(shù)據(jù)生產(chǎn)流通的制約因素與應(yīng)對策略研究

2025-05-27 16:53

來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)

分享到:
鏈接已復制
字體:

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 訓練數(shù)據(jù)的規(guī)模和質(zhì)量決定了人工智能發(fā)展的高度。端側(cè)模型和具身智能等技術(shù)路線的演進,對高質(zhì)量、多模態(tài)和規(guī)模化的數(shù)據(jù)資源提出了更高要求。優(yōu)質(zhì)數(shù)據(jù)的可得性、真實性和多樣性,已成為人工智能技術(shù)持續(xù)突破的核心基礎(chǔ)。

當前,我國人工智能在部分領(lǐng)域已取得顯著進展,但整體性能與世界頂尖水平仍有一定差距。除算力、人才、資金等因素外,訓練數(shù)據(jù)的供給質(zhì)量和流通效率日益成為制約模型性能和行業(yè)創(chuàng)新的關(guān)鍵因素。我國訓練數(shù)據(jù)面臨“質(zhì)量低、數(shù)量少、分布散”的突出問題。優(yōu)質(zhì)中文語料積累不足、公共數(shù)據(jù)流通不暢、垂直行業(yè)數(shù)據(jù)標注成本高企,加之版權(quán)與個人信息保護等監(jiān)管障礙,使訓練數(shù)據(jù)的獲取、使用和共享成本居高不下。在此背景下,合成數(shù)據(jù)逐漸成為重要補充手段,但其在真實性和多樣性方面仍存在局限,難以全面緩解優(yōu)質(zhì)數(shù)據(jù)的結(jié)構(gòu)性短缺問題。

提升數(shù)據(jù)質(zhì)量、促進數(shù)據(jù)流通,是我國在人工智能競爭中取勝的關(guān)鍵。數(shù)據(jù)要素的復制成本低、資產(chǎn)專用性強,對訓練數(shù)據(jù)的生產(chǎn)和流通形成了諸多制約。只有充分考慮數(shù)據(jù)要素的基本特性,制定針對性強的政策措施,才能為人工智能發(fā)展奠定堅實基礎(chǔ),推動產(chǎn)業(yè)健康可持續(xù)發(fā)展。

商業(yè)生態(tài)對訓練數(shù)據(jù)的影響

人工智能技術(shù)的迅速發(fā)展,使得相關(guān)企業(yè)對優(yōu)質(zhì)數(shù)據(jù)的需求不斷攀升。但與此同時,這一需求的增長受到技術(shù)方案、商業(yè)應(yīng)用和資本市場的深刻影響。

訓練數(shù)據(jù)具有較強的資產(chǎn)專用性,往往為特定領(lǐng)域和任務(wù)定制,難以跨場景通用。例如,ChatGPT-o1和DeepSeek-R1等推理模型,在強化學習階段需要高質(zhì)量的思維鏈數(shù)據(jù)作為“冷啟動”素材,這與以往所需要的數(shù)據(jù)大不相同。再如,一些國內(nèi)的自動駕駛企業(yè)發(fā)現(xiàn),訓練自動駕駛的端到端大模型,導致以前積累的路測數(shù)據(jù)只有大約2%可以使用,需要重新考慮數(shù)據(jù)標注方案。這些現(xiàn)象表明,技術(shù)方案直接決定了訓練數(shù)據(jù)的收集方式和標注流程,從而影響了訓練數(shù)據(jù)的市場需求。

應(yīng)用場景的開發(fā)狀況直接影響訓練數(shù)據(jù)的質(zhì)量。目前,國內(nèi)開放的大部分自動駕駛路測區(qū)域,難以涵蓋復雜路況,限制了數(shù)據(jù)的多樣性。此外,部分平臺企業(yè)在模型初步可用后,過度強調(diào)游戲、社交和廣告等場景的商業(yè)落地,導致模型停留在低質(zhì)量數(shù)據(jù)的循環(huán)中,使得性能難以進一步優(yōu)化。

平臺和初創(chuàng)企業(yè)所面臨的結(jié)構(gòu)性限制,抑制了探索前沿技術(shù)和獲取優(yōu)質(zhì)數(shù)據(jù)的動力。部分平臺企業(yè)因組織惰性和股東干預,傾向于將資源投入低風險項目,導致訓練數(shù)據(jù)的低水平重復。初創(chuàng)企業(yè)則受到風投資本短期趨利行為和“明股實債”對賭協(xié)議的影響,傾向于短期變現(xiàn),忽視底層數(shù)據(jù)積累,造成總體技術(shù)水平始終落后于人工智能前沿水平的國家。

總體來看,商業(yè)生態(tài)不僅影響著訓練數(shù)據(jù)生產(chǎn)和流通的市場需求,還影響著企業(yè)生產(chǎn)優(yōu)質(zhì)數(shù)據(jù)的動力。在監(jiān)管合規(guī)壓力較大的環(huán)境中,只要技術(shù)方向明確、商業(yè)利潤可觀、資金投入預期清晰,即便優(yōu)質(zhì)數(shù)據(jù)本身的合規(guī)性較為模糊,行業(yè)存在一定的灰色地帶,企業(yè)依然有積極性從事這些數(shù)據(jù)的生產(chǎn)和交易。

監(jiān)管政策對訓練數(shù)據(jù)的影響

在技術(shù)發(fā)展遭遇瓶頸、企業(yè)對技術(shù)和市場前景預期不明確的情況下,監(jiān)管政策的重要性就會凸顯出來,影響訓練數(shù)據(jù)的生產(chǎn)和流通。監(jiān)管政策帶來的不確定性,也會反過來影響數(shù)據(jù)行業(yè)的融資和市場規(guī)模。總體來看,國內(nèi)外監(jiān)管政策對訓練數(shù)據(jù)的關(guān)注點,主要集中在知識產(chǎn)權(quán)和個人信息保護等方面。

知識產(chǎn)權(quán)

2023年7月,國家互聯(lián)網(wǎng)信息辦公室等七部門發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中,第7條明確規(guī)定,“使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型”“涉及知識產(chǎn)權(quán)的,不得侵害他人依法享有的知識產(chǎn)權(quán)”等。然而,按照現(xiàn)行的《中華人民共和國著作權(quán)法》(以下簡稱《著作權(quán)法》),相關(guān)企業(yè)必須事先獲得訓練數(shù)據(jù)中權(quán)利人的許可。如果堅持先許可后使用的原則,企業(yè)將面臨過高的許可成本?!吨鳈?quán)法》第24條明確規(guī)定了版權(quán)作品合理使用的13種條件,但在人工智能模型訓練中使用版權(quán)作品的行為,仍處于法律適用的模糊地帶,尚無明確的豁免依據(jù)。

一個引人注目的案例是秘塔AI公司與中國知網(wǎng)(CNKI)的版權(quán)糾紛。秘塔AI公司在使用中國知網(wǎng)學術(shù)資源搭建搜索系統(tǒng)時,未獲得中國知網(wǎng)的授權(quán)。中國知網(wǎng)認為秘塔AI公司侵犯了其著作權(quán),而秘塔AI公司則主張其行為僅涉及知網(wǎng)論文的題錄和摘要,屬于合理使用。最終,該事件以秘塔AI公司宣布不再收錄知網(wǎng)內(nèi)容而告終。

部分國家都不同程度放寬了訓練數(shù)據(jù)在版權(quán)問題上的要求。以色列和日本在版權(quán)問題上較為激進,兩國行政部門均曾公開聲明,人工智能使用版權(quán)作品進行訓練,屬于“合理使用”的范圍。歐盟和英國也在相關(guān)法案中,單獨定義了文本和數(shù)據(jù)挖掘行為(text and data mining),并注明這一行為在版權(quán)法中的適用條件。日本和韓國的行政部門還出臺了詳細的合規(guī)指南,區(qū)分不同市場主體的法律責任,并提供具體的合規(guī)建議。

個人信息保護

個人信息保護和數(shù)據(jù)安全的監(jiān)管,可能會增加數(shù)據(jù)采集、標注和人工智能等行業(yè)的合規(guī)成本,影響數(shù)據(jù)生產(chǎn)和流通的市場預期。在實際執(zhí)行層面,數(shù)據(jù)企業(yè)主要面臨“難落實”和“缺細則”這兩個問題。

“落實難”。監(jiān)管法規(guī)中的個別條款在當前階段落實難度較大。對中小企業(yè)來說,由于資源限制,很難建立法規(guī)要求的內(nèi)部風控和評估機制。當前法規(guī)對數(shù)據(jù)“匿名化”的要求過高且標準模糊,算法處理后可能遺漏極端情形,需要人工篩查,而中小企業(yè)難以負擔此類合規(guī)流程的高昂成本。在自動駕駛和機器人等領(lǐng)域,“匿名化”會降低圖像和視頻數(shù)據(jù)的質(zhì)量,削弱人工智能模型的性能。訓練數(shù)據(jù)的生產(chǎn)鏈條尤為復雜,企業(yè)難以確保所有數(shù)據(jù)都獲得相關(guān)個人的知情同意,也難以判斷是否違反了數(shù)據(jù)收集的“最少必要”原則,這進一步加劇了企業(yè)的合規(guī)風險。

“缺細則”。在“落實難”的情況下,企業(yè)急需更加明確的細則,以減少合規(guī)過程中存在的不確定性。例如,針對數(shù)據(jù)采集、標注、交易和使用等環(huán)節(jié),“知情同意”和“最少必要”原則應(yīng)當有例外和免責條款。除汽車行業(yè)的數(shù)據(jù)安全管理規(guī)定,其他行業(yè)尚未明確“重要數(shù)據(jù)”范圍,個人信息“匿名化”也缺乏明確的技術(shù)標準。此外,部分法規(guī)對“情節(jié)嚴重”的認定較為模糊,導致法律責任的判定依賴法官的自由裁量,也讓企業(yè)在實操中難以把握合規(guī)邊界。

國外在監(jiān)管法規(guī)方面的借鑒。歐盟。歐盟《通用數(shù)據(jù)保護條例》(GDPR)側(cè)重個人權(quán)利保護,企業(yè)收集數(shù)據(jù)通常援引“正當利益”(legitimate interest)條款,但監(jiān)管機構(gòu)對“正當利益”判定較為嚴格。實證研究顯示,GDPR頒布后,企業(yè)的合規(guī)成本上升,導致歐盟企業(yè)比北美地區(qū)企業(yè)平均減少了將近1/4的數(shù)據(jù)要素投入強度。北美。北美地區(qū)的個人信息保護立法,以美國加利福尼亞州最為典型?!都又菹M者隱私法案》(CCPA)和《加州隱私權(quán)法案》(CPRA)以促進數(shù)據(jù)流通為導向,采用“選擇-退出”(opt-out)機制,默認企業(yè)可以收集、出售和共享個人信息,但用戶有權(quán)拒絕企業(yè)的出售和共享行為。此外,北美地區(qū)與個人信息保護相關(guān)的多部法案,要求企業(yè)對數(shù)據(jù)進行“去標識化”處理,整體合規(guī)義務(wù)相對較輕,有助于降低企業(yè)的合規(guī)成本。其他國家。其他國家的監(jiān)管也有值得借鑒的地方,例如:新加坡將“業(yè)務(wù)改進或研究目的”視為個人信息保護的例外情況;韓國則加強監(jiān)管部門和利益相關(guān)者的溝通合作,通過司法解釋與合規(guī)指引等方式,推動個人信息保護與人工智能產(chǎn)業(yè)發(fā)展相協(xié)調(diào)。

公共數(shù)據(jù)開發(fā)利用

當前,各地公共數(shù)據(jù)交易機制在制度設(shè)計與實施環(huán)節(jié)均存在一定障礙,影響了數(shù)據(jù)流通效率和市場活力。體制內(nèi)單位沉淀的數(shù)據(jù),如醫(yī)療記錄、教育題庫、司法文書、工商登記、圖書史料等,具有較高的客觀性和準確性,是人工智能訓練數(shù)據(jù)的重要資源。2020年以來,各地紛紛建立政府主導的數(shù)據(jù)交易機構(gòu),作為公共數(shù)據(jù)授權(quán)運營產(chǎn)品的交易場所,以及為企業(yè)之間的數(shù)據(jù)交易提供撮合服務(wù)。但在實踐中,前置合規(guī)審查比較煩瑣,再加上相關(guān)法規(guī)仍有“難落實”和“缺細則”的地方,增加了場內(nèi)交易成本。例如,某地數(shù)據(jù)交易所實行“不合規(guī)不掛牌,無場景不交易”的原則,一定程度上阻礙了更多企業(yè)進場交易。個別數(shù)據(jù)交易機構(gòu)出于特定技術(shù)要求或合規(guī)目的,要求企業(yè)將數(shù)據(jù)提前存儲在交易所內(nèi),引發(fā)企業(yè)的不安全感,挫傷場內(nèi)交易的積極性。雖然高價值的公共數(shù)據(jù)需要通過合規(guī)認證來保障交易標的的真實性,但當前場內(nèi)交易的合規(guī)審查機制亟待優(yōu)化。

此外,公共數(shù)據(jù)的開發(fā)利用仍呈現(xiàn)孤島化的格局,阻礙了公共數(shù)據(jù)需求和價值的提升。數(shù)據(jù)要達到一定規(guī)模,才能創(chuàng)造足夠大的市場價值和需求。目前,公共數(shù)據(jù)由各地分散開發(fā),授權(quán)定價碎片化,在監(jiān)管上尺度把握不一致,相當于“高速公路上設(shè)置多個獨立經(jīng)營的收費站”,增加了需求方整合各地公共數(shù)據(jù)的交易成本,會在無形中提高市場準入門檻,排斥可能在全國范圍內(nèi)產(chǎn)生創(chuàng)新的潛在優(yōu)質(zhì)企業(yè)。個別地方政府在數(shù)字服務(wù)采購和授權(quán)運營過程中,容易產(chǎn)生隱性腐敗和不正當競爭,也會導致技術(shù)標準和公共數(shù)據(jù)市場的分割,形成數(shù)字經(jīng)濟的“地方保護主義”。而目前數(shù)據(jù)行業(yè)的技術(shù)人才、具備數(shù)字經(jīng)濟思維的領(lǐng)導干部,以及對公共數(shù)據(jù)的市場需求,都高度集中在沿海經(jīng)濟發(fā)達地區(qū)和中央層面。如果讓各地區(qū)繼續(xù)自行探索,區(qū)域間差距將會越來越大?,F(xiàn)在經(jīng)濟發(fā)達地區(qū)的試點探索已經(jīng)有了一定成效,如事前統(tǒng)一授權(quán)、減少數(shù)源單位責任、建立收益掛鉤機制等。如果能將這些經(jīng)驗總結(jié)推廣,就有望推動形成公共數(shù)據(jù)的全國統(tǒng)一大市場。

促進訓練數(shù)據(jù)生產(chǎn)和流通的政策建議

出臺產(chǎn)業(yè)政策和激勵措施,推動優(yōu)質(zhì)數(shù)據(jù)的生產(chǎn)

鼓勵科教文衛(wèi)機構(gòu)生產(chǎn)開源數(shù)據(jù),促進科研數(shù)據(jù)管理機構(gòu)和開放平臺的統(tǒng)一。高質(zhì)量的科研數(shù)據(jù)已成為人工智能模型訓練和科技競爭的關(guān)鍵資源。例如,獲得2024年諾貝爾獎、由英國DeepMind公司開發(fā)的人工智能模型AlphaFold,正是依托全球開放的生物蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫Protein Data Bank實現(xiàn)蛋白質(zhì)結(jié)構(gòu)預測的重大突破。與此同時,近期北美部分科研數(shù)據(jù)庫限制中國用戶的訪問權(quán)限,凸顯出科研數(shù)據(jù)在國際競爭中的戰(zhàn)略意義,也反映出我國建設(shè)自主科研數(shù)據(jù)體系的緊迫性。構(gòu)建系統(tǒng)性的開放科研數(shù)據(jù)庫是一項長期工作,需要持續(xù)投入與制度保障??平涛男l(wèi)機構(gòu)擁有大量專業(yè)人才,是生產(chǎn)優(yōu)質(zhì)開源數(shù)據(jù)的重要力量。因此,建議在科教文衛(wèi)機構(gòu)的課題申請和考核中,增加數(shù)據(jù)集產(chǎn)出的考核權(quán)重,鼓勵科研人員原創(chuàng)、擴展和長期維護科研數(shù)據(jù)庫;并且,根據(jù)科研規(guī)律引入類似專利保護期的制度,激勵科研人員在合理期限內(nèi),依托原創(chuàng)數(shù)據(jù)產(chǎn)出科研成果。超過規(guī)定的保護期后,原則上應(yīng)將數(shù)據(jù)庫向社會公開。此政策不僅適用于理工科,還應(yīng)覆蓋人文社科領(lǐng)域的數(shù)據(jù)資源和課題成果,推動跨學科的數(shù)據(jù)共享和創(chuàng)新。此外,設(shè)立統(tǒng)一的科研數(shù)據(jù)管理機構(gòu),有助于規(guī)范數(shù)據(jù)的收集、存儲和共享,從而確保數(shù)據(jù)資源在更廣泛的科研領(lǐng)域得到有效利用。

持續(xù)打造人工智能技術(shù)的應(yīng)用場景,培育物聯(lián)網(wǎng)和新型硬件終端市場。擴展和豐富人工智能技術(shù)的應(yīng)用場景,是積累優(yōu)質(zhì)數(shù)據(jù)資源的重要手段。人工智能企業(yè)通過產(chǎn)品和服務(wù)的實際應(yīng)用場景,不斷收集用戶行為數(shù)據(jù)和反饋信息,為模型訓練和算法優(yōu)化提供豐富的數(shù)據(jù)支撐。物聯(lián)網(wǎng)和新型硬件終端能夠超越文字、圖像、語音等傳統(tǒng)模態(tài),收集更多維度的數(shù)據(jù),是下一代人工智能的基礎(chǔ)。產(chǎn)業(yè)政策應(yīng)繼續(xù)通過有條件的稅費減免、財政補助等形式,支持自動駕駛、增強現(xiàn)實技術(shù)(AR)、虛擬現(xiàn)實技術(shù)(VR)和智能機器人等新型終端設(shè)備進入實際應(yīng)用場景,積累數(shù)據(jù)資源,優(yōu)化模型性能。此外,企業(yè)數(shù)字化和工業(yè)互聯(lián)網(wǎng)是人工智能數(shù)據(jù)積累的重要場景,要利用龍頭企業(yè)和產(chǎn)業(yè)鏈鏈主企業(yè)的示范效應(yīng),帶動中小企業(yè)和傳統(tǒng)制造業(yè)企業(yè)的數(shù)字化轉(zhuǎn)型。

完善數(shù)據(jù)安全的監(jiān)管框架,促進優(yōu)質(zhì)數(shù)據(jù)的流通

在監(jiān)管調(diào)整方面,采取“寬進嚴出”的監(jiān)管理念。促進數(shù)據(jù)要素生產(chǎn)和流通,需要將立法、司法、行政監(jiān)管和產(chǎn)業(yè)政策緊密結(jié)合,進行通盤考慮。政策出臺應(yīng)遵循合理的邏輯順序,建議優(yōu)先推進立法和司法工作,針對具體問題設(shè)立免責條款、出臺司法解釋,結(jié)合公眾、行業(yè)和政府的需求,對涉及數(shù)據(jù)要素的法規(guī)進行動態(tài)調(diào)整。隨后,再由行政監(jiān)管機構(gòu)和行業(yè)組織聯(lián)合推動,完善合規(guī)指南,從而使產(chǎn)業(yè)政策在促進數(shù)據(jù)生產(chǎn)和流通方面,發(fā)揮更大的作用。我國對數(shù)據(jù)要素的監(jiān)管政策較為全面,重視對上游要素和下游應(yīng)用的監(jiān)管,強調(diào)對事前、事中、事后環(huán)節(jié)的全鏈路監(jiān)管。雖然對行業(yè)上游和事前環(huán)節(jié)的監(jiān)管可以減少監(jiān)管成本,但是我們需要審慎評估對技術(shù)和市場發(fā)展的影響。為了促進人工智能的創(chuàng)新發(fā)展,建議監(jiān)管要采取“寬進嚴出”、包容審慎的理念,適當放寬對行業(yè)上游的算法、數(shù)據(jù)等生產(chǎn)要素在輸入端的監(jiān)管,把監(jiān)管重點放在行業(yè)下游的應(yīng)用場景和輸出端的使用環(huán)節(jié),從而有利于提升人工智能模型的性能水平。監(jiān)管應(yīng)當考慮不同市場主體的管理能力和有限責任,通過司法解釋、負面清單、合規(guī)指南等方式,適當放寬事前監(jiān)管要求,落實事中事后監(jiān)管,完善事后救濟措施。

在訓練數(shù)據(jù)的著作權(quán)問題上,放寬“合理使用”原則的適用范圍,出臺司法解釋與合規(guī)指南。為進一步推動數(shù)據(jù)的廣泛使用和創(chuàng)新,建議在《著作權(quán)法》中放寬“合理使用”原則的適用情形。例如,參考部分發(fā)達國家和地區(qū)在知識產(chǎn)權(quán)法規(guī)中的實踐,對“文本和數(shù)據(jù)挖掘”的情形進行單獨定義,為版權(quán)作品的采集和使用提供例外和免責條款。司法機關(guān)可考慮對數(shù)據(jù)采集交易和人工智能版權(quán)糾紛案件進行集中審理,出臺司法解釋和指導性案例;以促進人工智能技術(shù)創(chuàng)新發(fā)展為宗旨,進一步明確“合理使用”的邊界。在立法和司法工作的基礎(chǔ)上,建議知識產(chǎn)權(quán)相關(guān)的行政機構(gòu)可以與企業(yè)座談,調(diào)研域外國家經(jīng)驗,出臺詳盡的合規(guī)指南。在合規(guī)指南中,可以針對人工智能模型的不同階段,區(qū)分版權(quán)持有方、模型開發(fā)者、服務(wù)提供商和模型使用者等不同市場主體的法律責任,并提供相應(yīng)的合規(guī)建議,穩(wěn)定企業(yè)預期。

在個人信息保護和數(shù)據(jù)安全方面,設(shè)立免責條款和負面清單,強化事中事后監(jiān)管,完善事后救濟措施。針對“訓練通用型人工智能”這一特定目的,進一步明確適用條款,放寬個人信息保護的限制。在匿名化技術(shù)尚未成熟的情況下,依照數(shù)據(jù)處理的難度和對模型性能的影響,可以允許訓練數(shù)據(jù)中包含部分個人信息,或者僅去除直接標識符,只要數(shù)據(jù)管理和模型輸出(包括由模型控制的機器行為)符合安全要求即可。如果包含重要數(shù)據(jù),則需履行重要數(shù)據(jù)相關(guān)義務(wù)。開發(fā)者轉(zhuǎn)賣數(shù)據(jù),應(yīng)遵守一般市場主體的數(shù)據(jù)安全義務(wù)。與此同時,要加強人工智能安全技術(shù)的研發(fā),以技術(shù)發(fā)展促進監(jiān)管能力的提升。落實負面清單制度,在全國范圍內(nèi)加緊推出各行業(yè)的重要數(shù)據(jù)目錄,盡快明確“匿名化”等數(shù)據(jù)處理流程的國家標準與合規(guī)指南。當前已有《重要數(shù)據(jù)識別指南(征求意見稿)》《數(shù)據(jù)出境安全評估辦法》《數(shù)據(jù)分類分級規(guī)則》《匿名化技術(shù)應(yīng)用指南》等政策文件,但大多屬于原則性的指導,沒有細化到具體的數(shù)據(jù)名稱和技術(shù)細節(jié)。建議各行業(yè)主管部門可以整合試點經(jīng)驗和行業(yè)反饋,動態(tài)調(diào)整負面清單和數(shù)據(jù)處理技術(shù)標準,由國家數(shù)據(jù)局等部門進行統(tǒng)一梳理整合。如果行業(yè)主管部門沒有重要數(shù)據(jù)需要管理,也最好進行明確說明。盡快明確小型個人信息處理者的定義,并出臺相應(yīng)的合規(guī)指南??梢苑抡諝W盟網(wǎng)絡(luò)安全局出臺的《中小企業(yè)個人數(shù)據(jù)安全處理指南》,從企業(yè)營收、雇員數(shù)量、主營業(yè)務(wù)等方面,明確劃分標準,對合規(guī)義務(wù)、操作流程和具體監(jiān)管案例進行梳理總結(jié)。制定總體性數(shù)據(jù)合規(guī)指南,梳理上位法細則與模糊條款。建議相關(guān)部門統(tǒng)一《中華人民共和國網(wǎng)絡(luò)安全法》《中華人民共和國數(shù)據(jù)安全法》《中華人民共和國個人信息保護法》《中華人民共和國刑法》等法律框架下的解釋口徑,澄清過往司法案例中語焉不詳、容易讓企業(yè)誤解擔憂的地方,穩(wěn)定企業(yè)的預期。 推動發(fā)展數(shù)據(jù)安全保險機制,提升中小企業(yè)合規(guī)風險應(yīng)對能力。《網(wǎng)絡(luò)數(shù)據(jù)安全管理條例》明確,“鼓勵保險公司開發(fā)網(wǎng)絡(luò)數(shù)據(jù)損害賠償責任險種”??紤]到數(shù)據(jù)安全保險的風險核算,需要大量網(wǎng)絡(luò)安全相關(guān)的數(shù)據(jù),建議保險公司可以通過數(shù)據(jù)交易、行業(yè)聯(lián)盟、兼并收購等方式,與網(wǎng)絡(luò)安全和云服務(wù)企業(yè)密切合作。在合作環(huán)節(jié)中,需要留意不正當競爭的可能性。在法規(guī)調(diào)整到位的基礎(chǔ)上,可以仿照北美地區(qū)2016年提出的《數(shù)據(jù)泄露保險法案》,通過采購準入、稅收優(yōu)惠等方式,促進數(shù)據(jù)安全保險快速鋪開,幫助完善中小企業(yè)的數(shù)據(jù)安全內(nèi)控機制,從長遠來看也有利于網(wǎng)絡(luò)安全技術(shù)的創(chuàng)新發(fā)展和中小企業(yè)的數(shù)字化轉(zhuǎn)型。

加快建設(shè)國家級公共數(shù)據(jù)平臺,匯總整合各地各部門數(shù)據(jù)資源

建設(shè)國家級公共數(shù)據(jù)平臺,實現(xiàn)公共數(shù)據(jù)開放和授權(quán)運營渠道的統(tǒng)一,形成數(shù)據(jù)要素的全國統(tǒng)一大市場。全國平臺能夠匯聚各地各部門的數(shù)據(jù)資源,提升公共數(shù)據(jù)價值,激發(fā)市場主體對公共數(shù)據(jù)的需求。需求量增加,單次授權(quán)價格就可以適當減少,企業(yè)進入市場的門檻就會降低。在授權(quán)機制上,建議各地各部門在平臺上公布高價值數(shù)據(jù)清單和字段。企業(yè)可以選擇全量數(shù)據(jù),也可以選擇特定地區(qū)的部分數(shù)據(jù)或部分字段申請授權(quán)。同一份數(shù)據(jù)可以事前統(tǒng)一授權(quán)多個企業(yè),發(fā)揮市場競爭的作用。繞過各地尺度不一的事前審查環(huán)節(jié),改為全國平臺的統(tǒng)一審查,也是一種減少事前監(jiān)管的方式。事中和事后的監(jiān)管,可以由企業(yè)所在地政府分別執(zhí)行,落實屬地和行業(yè)監(jiān)管責任。全國平臺相當于各方共建的“數(shù)據(jù)開放和授權(quán)運營渠道”,為此國家可以建立基于數(shù)據(jù)要素貢獻的收益分配機制,調(diào)動各地各部門參與共建的積極性,中央在其中適當收取少量的“渠道費用”。同時,各地各部門仍可以保留自己建設(shè)的平臺,繼續(xù)進行政策層面的探索。全國平臺也可以和其他部委的產(chǎn)業(yè)政策進行聯(lián)動。例如,可以在平臺上“揭榜掛帥”,吸引企業(yè)和高校等機構(gòu)共同研發(fā)數(shù)據(jù)相關(guān)的技術(shù);也可以通過價格折扣等方式,對特定地區(qū)的公共數(shù)據(jù)授權(quán)運營進行政策傾斜。

在技術(shù)層面,可以利用開源框架,統(tǒng)一公共數(shù)據(jù)平臺的技術(shù)標準。各地建設(shè)的公共數(shù)據(jù)平臺,在數(shù)據(jù)格式、數(shù)據(jù)接口、授權(quán)協(xié)議、運維管理等方面并不互通。本文建議,國家數(shù)據(jù)局可以利用已有的成熟開源框架,自上而下統(tǒng)一數(shù)據(jù)平臺的技術(shù)標準。國際上已有成功先例可供參考,例如:包括北美地區(qū)、英國、新加坡在內(nèi)的30多個國家和地區(qū),用“全面知識存檔網(wǎng)絡(luò)”(CKAN)或“基于Drupal的知識存檔網(wǎng)絡(luò)”(DKAN)等開源軟件,創(chuàng)建網(wǎng)站并發(fā)布公共數(shù)據(jù)集;北美地區(qū)的政府還自主開發(fā)了一系列轉(zhuǎn)換、處理和分析數(shù)據(jù)的開源工具,供各地各部門使用。從中央到地方都用同一套開源軟件創(chuàng)建網(wǎng)站和發(fā)布數(shù)據(jù),可以讓國家利用統(tǒng)一的數(shù)據(jù)接口,將各地各部門更新的數(shù)據(jù)集及時匯總到全國平臺。這有利于在未來對各地各部門開放數(shù)據(jù)的行為進行準確考核和評估。如果對安全有顧慮,政府也可以聯(lián)合多方力量,自主開發(fā)開源框架;在開放平臺的基礎(chǔ)上,有條件地擴展支持授權(quán)運營功能,嵌入基于隱私增強技術(shù)的閉源模塊,提升數(shù)據(jù)傳輸和交易過程的安全性。

在政府內(nèi)部權(quán)責關(guān)系方面,建議在各地各部門設(shè)立數(shù)據(jù)專員崗位,落實公共數(shù)據(jù)開放的行政責任?!皵?shù)據(jù)專員”應(yīng)當由各部門領(lǐng)導班子中熟悉業(yè)務(wù)的重要成員擔任,并且部門領(lǐng)導和成員都要經(jīng)過專門培訓,把握數(shù)據(jù)處理分析的理念和基本框架,配合國家數(shù)據(jù)局和黨委分管領(lǐng)導開展工作。國家數(shù)據(jù)局在公共數(shù)據(jù)平臺的基礎(chǔ)上,統(tǒng)計匯總社會公眾需求,對各地各部門的數(shù)據(jù)開放效果進行考核評估。數(shù)據(jù)開放的考核,也應(yīng)當擴展到高校、圖書館、檔案館等國有企事業(yè)單位。

結(jié)語

訓練數(shù)據(jù)是影響人工智能發(fā)展的關(guān)鍵要素。優(yōu)質(zhì)數(shù)據(jù)的供給與開放程度決定了人工智能模型性能的上限,也關(guān)系到人工智能行業(yè)的創(chuàng)新潛力和市場前景。只有通過技術(shù)、市場和政策的多方合力,才能促進訓練數(shù)據(jù)的生產(chǎn)和流通,夯實我國在全球人工智能競爭中的優(yōu)勢,助力經(jīng)濟社會高質(zhì)量發(fā)展。

受篇幅所限,本文尚未討論隱私增強技術(shù)和數(shù)據(jù)跨境傳輸?shù)膯栴}。目前,以隱私計算、區(qū)塊鏈、數(shù)據(jù)沙箱為基礎(chǔ)構(gòu)建的“可信數(shù)據(jù)空間”已成為保障數(shù)據(jù)安全的重要技術(shù)路徑。然而,這一技術(shù)路線仍面臨資源消耗大、傳輸效率低、實施成本高等瓶頸問題,且依賴統(tǒng)一的技術(shù)標準和跨行業(yè)協(xié)同機制,短期內(nèi)難以大規(guī)模推廣。在此類技術(shù)成熟之前,數(shù)據(jù)要素的監(jiān)管政策應(yīng)當保持靈活寬松,以及幫助企業(yè)降低數(shù)據(jù)相關(guān)的研發(fā)和應(yīng)用成本,促進人工智能技術(shù)的創(chuàng)新和普及。

數(shù)據(jù)跨境傳輸也是值得關(guān)注的議題。隨著我國企業(yè)國際化進程加速,跨境數(shù)據(jù)流通將成為支持人工智能等新質(zhì)生產(chǎn)力“出?!钡年P(guān)鍵因素。根據(jù)DEPA和CPTPP等國際協(xié)定的要求,數(shù)據(jù)流通需要兼具開放性與安全性,這就意味著我國必須理順國內(nèi)政策體系,加快接軌和引領(lǐng)國際規(guī)則,不斷增強數(shù)字經(jīng)濟的國際競爭力和話語權(quán),為全球人工智能和數(shù)據(jù)治理貢獻中國方案。

(作者:林韜,香港中文大學 美國華盛頓大學政治學系。《中國科學院院刊》供稿)

【責任編輯:殷曉霞】
返回頂部