智能時(shí)代公共安全體系面臨的技術(shù)挑戰(zhàn)
中國(guó)網(wǎng)/中國(guó)發(fā)展門戶網(wǎng)訊 人工智能生成內(nèi)容(AIGC)技術(shù)是指基于生成式人工智能算法和模型創(chuàng)作文本、圖像、聲音、視頻、代碼等內(nèi)容的技術(shù)。作為近年來人工智能領(lǐng)域的最大突破之一,AIGC方向不斷涌現(xiàn)里程碑式突破,人工智能模型由理解判別走向生成創(chuàng)造。以GPT-3.5為代表的語言模型、以Stable Diffusion為代表的文生圖模型和以Sora為代表的文生視頻模型分別突破通用化文本、圖像和視頻生成的難關(guān),內(nèi)容效果愈發(fā)逼真,制作成本逐漸降低,可用范圍不斷擴(kuò)展。據(jù)預(yù)測(cè),我國(guó)AIGC市場(chǎng)在2030年將達(dá)到萬億元規(guī)模,人工智能合成數(shù)據(jù)將成為新增人工智能訓(xùn)練數(shù)據(jù)的主要來源。
然而,AIGC技術(shù)與應(yīng)用的蓬勃發(fā)展也帶來了新的公共安全隱患,嚴(yán)重威脅國(guó)家安全和社會(huì)穩(wěn)定。最新AIGC技術(shù)的特點(diǎn)可以大致總結(jié)為“逼真度高、創(chuàng)作效率高、通用性高”,這種質(zhì)量、數(shù)量、適用范圍的全面提升,導(dǎo)致人類和傳統(tǒng)技術(shù)很難立刻分辨真實(shí)來源內(nèi)容和AIGC。近年來,基于AIGC的違法犯罪行為越來越多,AIGC技術(shù)在不斷降低傳統(tǒng)違法犯罪成本的同時(shí),也催生了新型違法犯罪活動(dòng)的快速涌現(xiàn),不斷撼動(dòng)現(xiàn)有社會(huì)信任體系,公共安全治理面臨更嚴(yán)峻的挑戰(zhàn):利用AIGC技術(shù)生成虛假信息、操作輿論,是世界各國(guó)面臨的國(guó)家安全難題;利用AIGC技術(shù)進(jìn)行身份偽造、學(xué)術(shù)造假、黑產(chǎn)牟利,是各行各業(yè)面臨的安全發(fā)展難題;利用AIGC技術(shù)進(jìn)行電信詐騙、隱私侵犯,是困惱每個(gè)公民的個(gè)人安全難題。
AIGC安全治理已進(jìn)入從高層共識(shí)到全民共識(shí)的“深水區(qū)”、從立法到執(zhí)法的“深水區(qū)”、從探討危害到實(shí)際部署能力的“深水區(qū)”?!吨袊?guó)科學(xué)院院刊》2025年第3期“人工智能與公共安全”專題,邀請(qǐng)科研和實(shí)戰(zhàn)一線的領(lǐng)軍人物論述智能時(shí)代公共安全面臨的各方面挑戰(zhàn)及其應(yīng)對(duì)策略,為智能時(shí)代公共安全體系的重塑提供深度思考和解決方案。受限于篇幅,專題文稿主要關(guān)注智能時(shí)代對(duì)公共安全的技術(shù)挑戰(zhàn)、業(yè)務(wù)挑戰(zhàn)、算法治理挑戰(zhàn)、重要應(yīng)用挑戰(zhàn)4個(gè)方面。
技術(shù)挑戰(zhàn)。隨著AIGC技術(shù)快速發(fā)展,生成內(nèi)容越來越逼真,肉眼很難分辨,需要依賴技術(shù)手段進(jìn)行檢測(cè)。面對(duì)層出不窮的AIGC新技術(shù)和應(yīng)用,如何構(gòu)建對(duì)新模型可擴(kuò)展、可溯源的檢測(cè)技術(shù)體系,支撐公共安全治理?本文將介紹生成技術(shù)和檢測(cè)技術(shù)的重要進(jìn)展,梳理當(dāng)前AIGC檢測(cè)面臨的挑戰(zhàn),提出面向?qū)崙?zhàn)場(chǎng)景的應(yīng)對(duì)建議。
業(yè)務(wù)挑戰(zhàn)。AIGC技術(shù)的顛覆性與快速迭代性,使未來技術(shù)發(fā)展可能導(dǎo)致的風(fēng)險(xiǎn)具有高度不確定性,極易引發(fā)各類新型犯罪。而現(xiàn)有的法律規(guī)制與監(jiān)管執(zhí)法手段仍存在漏洞,為犯罪打擊帶來嚴(yán)峻挑戰(zhàn)。北京市公安局高建新副局長(zhǎng)等將介紹人工智能犯罪的類型、態(tài)勢(shì)、特點(diǎn),并針對(duì)人工智能犯罪治理現(xiàn)狀與挑戰(zhàn)提出對(duì)策建議。
算法治理挑戰(zhàn)。在人工智能時(shí)代,算法作為一種新的生產(chǎn)工具,在各種系統(tǒng)服務(wù)中扮演著比以往更重要的角色,在推薦系統(tǒng)等場(chǎng)景甚至已經(jīng)成為人類決策的替代。由于生成式人工智能算法普遍不具有可解釋性,在應(yīng)用場(chǎng)景中會(huì)給公共安全帶來未知的風(fēng)險(xiǎn)和挑戰(zhàn)。中國(guó)科學(xué)院計(jì)算技術(shù)研究所程學(xué)旗研究員等將聚焦智能算法安全的內(nèi)涵與科學(xué)問題,促進(jìn)智能算法可信、可管、可控,形成智能算法治理的長(zhǎng)效機(jī)制。
重要應(yīng)用挑戰(zhàn)。人工智能作為新質(zhì)生產(chǎn)力,應(yīng)用場(chǎng)景豐富,發(fā)展?jié)摿薮?,各個(gè)領(lǐng)域已經(jīng)開始探索智能化系統(tǒng)的落地應(yīng)用,但其中的潛在風(fēng)險(xiǎn)特別是特定應(yīng)用場(chǎng)景獨(dú)有的安全風(fēng)險(xiǎn)仍不容忽視。浙江大學(xué)徐文淵教授等將從信息域、物理域、社會(huì)域視角出發(fā),探討具身智能的安全內(nèi)涵與安全體系,提出具身智能的安全防護(hù)體系和綜合治理措施。
人工智能內(nèi)容生成技術(shù)發(fā)展迅速,但安全性問題突出
人工智能內(nèi)容生成技術(shù)概述
AIGC的質(zhì)量迅速提升,曾經(jīng)困擾研究者多年的語句不通順、視頻不連貫、語音不自然等生成瑕疵基本已不存在。經(jīng)過預(yù)訓(xùn)練的大語言模型依賴少量的提示語即可完成各類文字任務(wù);視覺模型僅需要1張照片即可完成換臉任務(wù),5—10張不同角度的照片即可微調(diào)實(shí)現(xiàn)實(shí)時(shí)人臉替換;若獲取10—20秒的含人臉、聲音的視頻,即可基于音視頻生成技術(shù)得到該人物的“數(shù)字人”。然而,與生成能力不匹配的是人類仍然缺乏自主辨識(shí)AIGC的能力。一項(xiàng)4 600人參與的實(shí)驗(yàn)顯示,人類還無法憑借自身總結(jié)的經(jīng)驗(yàn)分辨人類和人工智能生成文本;類似的結(jié)論也在基于視覺[3]和人聲[4]內(nèi)容的獨(dú)立實(shí)驗(yàn)上分別得到驗(yàn)證。這意味著人工智能生成技術(shù)一旦被惡意利用,多數(shù)人將無法借助自身知識(shí)避免受騙。以下將從AIGC技術(shù)主要包含的文本生成、視覺生成和音頻生成技術(shù)3個(gè)方面說明。
文本生成。以GPT系列為代表的通用對(duì)話式文本生成大模型主要依賴于關(guān)鍵結(jié)構(gòu)(Transformer網(wǎng)絡(luò))、大數(shù)據(jù)(互聯(lián)網(wǎng)級(jí)語料)和大算力(萬級(jí)圖形處理器訓(xùn)練)3個(gè)要素。Transformer是一類基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其根據(jù)各個(gè)字詞的相關(guān)性分配不同權(quán)重,能夠更好地處理長(zhǎng)期依賴關(guān)系,具有高度可并行性,非常適合大規(guī)模訓(xùn)練。在過去的5年內(nèi),語言模型的參數(shù)量從億級(jí)(GPT-1)猛漲到了千億甚至萬億級(jí)(GPT-3及后續(xù)版本),參數(shù)量的增長(zhǎng)也帶來了驚艷的效果。目前,文本生成模型的總體建模思路暫時(shí)趨于穩(wěn)定,研究者已將更多精力放在對(duì)當(dāng)前模型訓(xùn)練與應(yīng)用模式的改進(jìn)和擴(kuò)展上,具體可分為4個(gè)方面:交互體驗(yàn)方面,北京月之暗面科技有限公司的Kimi等模型注重長(zhǎng)上下文擴(kuò)展,輸入輸出窗口最長(zhǎng)可達(dá)百萬級(jí)詞元(token),可以在短時(shí)間內(nèi)從大量資料中定位所需信息;智能提升方面,美國(guó)人工智能公司OpenAI提出“超級(jí)對(duì)齊”(Super Alignment),顛覆現(xiàn)有的“強(qiáng)對(duì)弱”對(duì)齊模式(如人類對(duì)語言模型),期望實(shí)現(xiàn)“弱對(duì)強(qiáng)”的監(jiān)督,最終目標(biāo)是實(shí)現(xiàn)“超人智能”;安全輸出方面,美國(guó)人工智能初創(chuàng)公司Anthropic提出基于人工智能反饋的強(qiáng)化學(xué)習(xí)框架(RLAIF),通過少量的自然語言準(zhǔn)則或指令降低模型輸出的有害性;高效訓(xùn)練部署方面,杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司的DeepSeek系列模型關(guān)注模型架構(gòu)效率提升,其V3模型(6 710億參數(shù))訓(xùn)練所需機(jī)時(shí)僅為美國(guó)Meta公司Llama 3模型(4 050億參數(shù))的9.1%;北京面壁智能科技有限責(zé)任公司的MiniCPM和美國(guó)微軟公司的Phi等模型關(guān)注邊緣側(cè)應(yīng)用,推出的十億級(jí)參數(shù)模型可在智能終端本地運(yùn)行。
視覺生成。早期的圖像和視頻生成主要依賴生成對(duì)抗網(wǎng)絡(luò)(GAN),通過生成器和判別器的對(duì)抗訓(xùn)練來提高視覺內(nèi)容質(zhì)量,但其穩(wěn)定性一直不高。近年來,基于概率的無監(jiān)督式生成模型(擴(kuò)散模型)越來越引人關(guān)注,其設(shè)計(jì)靈感來自于非平衡熱力學(xué),模仿擴(kuò)散過程對(duì)圖像不斷加噪以將其轉(zhuǎn)變?yōu)榻圃肼暤碾[編碼,然后模型學(xué)習(xí)逆轉(zhuǎn)加噪的過程,從圖像相同尺寸的噪聲中不斷去噪以還原原始圖像。擴(kuò)散模型的訓(xùn)練相對(duì)簡(jiǎn)單且穩(wěn)定,比傳統(tǒng)的GAN更容易實(shí)現(xiàn)。同時(shí),擴(kuò)散生成模型的表示能力非常強(qiáng),其加噪去噪過程的設(shè)計(jì)適合完成圖像到圖像的轉(zhuǎn)換任務(wù)(如圖像修復(fù)、圖像超分辨率、圖像風(fēng)格轉(zhuǎn)換),也適用于表情修改、風(fēng)格化等編輯任務(wù)。更重要的是,擴(kuò)散模型不容易出現(xiàn)GAN訓(xùn)練中常見的梯度消失和梯度爆炸問題,更適用于作為視覺生成大模型的基礎(chǔ)結(jié)構(gòu),因此成為了近期推出的Flux、Sora等視覺大模型的主要選擇。
音頻生成。音頻生成主要包括人聲生成、環(huán)境音合成、音樂生成等任務(wù)。與文本生成類似,音頻生成大模型也采用了序列建模的框架,音頻信號(hào)首先通過編碼器離散化為音頻“字符”,之后輸入基于Transformer的模型進(jìn)行訓(xùn)練。例如:在音樂生成方面,美國(guó)互聯(lián)網(wǎng)公司Meta推出的AudioCraft工具可以實(shí)現(xiàn)輸入文本指令,生成指定風(fēng)格的音樂和音效;英國(guó)人工智能初創(chuàng)公司Suno AI推出的Suno V3可以一次性制作帶有人聲和背景旋律的“廣播級(jí)”音頻;在人聲生成方面,美國(guó)人工智能公司OpenAI發(fā)布的Voice Engine、阿里巴巴通義實(shí)驗(yàn)室發(fā)布的CosyVoice等模型僅基于十幾秒內(nèi)的原始音頻,即可生成模擬音色、韻律、情感色彩的音頻,甚至實(shí)現(xiàn)跨語種生成,互聯(lián)網(wǎng)上廣為流傳的“AI郭德綱”等視頻中的聲音合成多采用這類技術(shù)。
人工智能生成技術(shù)濫用情況
盡管在生成質(zhì)量取得了突破,催生了一大批基于AIGC的應(yīng)用產(chǎn)品,但現(xiàn)有AIGC技術(shù)的安全問題仍然十分突出,并且在模型本身安全圍欄不牢固與不法分子惡意利用的雙重作用下,已開始造成諸多現(xiàn)實(shí)危害。
基于AIGC技術(shù)批量生成虛假信息,危害國(guó)家安全和社會(huì)穩(wěn)定。借助AIGC技術(shù),造假者可以基于熱點(diǎn)新聞素材大批量偽造低質(zhì)假消息,成本進(jìn)一步降低,傳播隱蔽性更強(qiáng),隨時(shí)可能引發(fā)輿論爭(zhēng)議,在政治選舉等關(guān)鍵事件中誤導(dǎo)民眾。2023年9月,一段關(guān)于候選人操縱選舉的人工智能偽造錄音流出,對(duì)斯洛伐克議會(huì)選舉產(chǎn)生了顛覆性的影響;2024年1月,美國(guó)新罕布什爾州部分選民接到了“AI拜登”的語音電話,試圖阻止他們參與民主黨初選。根據(jù)調(diào)研機(jī)構(gòu)NewsGuard報(bào)告,截至2025年2月,全球已出現(xiàn)依賴人工智能生成新聞資訊的低質(zhì)網(wǎng)站1 254家,涵蓋漢語、英語、法語等16種語言;大語言模型仍存在幻覺問題,報(bào)告顯示DeepSeek-R1的幻覺率高達(dá)14.3%,在開源模式下其被私有部署用于生成虛假信息的風(fēng)險(xiǎn)可能進(jìn)一步擴(kuò)大;世界經(jīng)濟(jì)論壇發(fā)布的《2025全球風(fēng)險(xiǎn)報(bào)告》指出,利用人工智能生成的錯(cuò)誤和虛假信息是近2年最大的全球性風(fēng)險(xiǎn)。
基于AIGC技術(shù)換臉變聲的新型詐騙,危害個(gè)人安全。隨著人工智能換臉、擬聲技術(shù)的發(fā)展,詐騙者只需要獲取一張照片、一小段語音,就可以實(shí)現(xiàn)低成本的實(shí)時(shí)換臉變聲,實(shí)現(xiàn)在線會(huì)議、視頻通話場(chǎng)景下的長(zhǎng)時(shí)間穩(wěn)定身份替換,令普通民眾防不勝防。據(jù)奇安信監(jiān)測(cè),基于人工智能的偽造欺詐在2023年暴增3 000%;邁克菲一項(xiàng)全球7 000余人參與的調(diào)研顯示,10%受訪者曾經(jīng)歷人工智能語音詐騙。不僅如此,基于AIGC的新型詐騙單筆涉案金額越來越大,2024年2月,香港警方披露了一起冒充跨國(guó)公司首席財(cái)務(wù)官的AIGC詐騙案件,涉案金額高達(dá)2億港元。
基于AIGC技術(shù)生成私人性內(nèi)容圖像,侵犯?jìng)€(gè)人隱私和名譽(yù)。隨著人工智能算力基礎(chǔ)設(shè)施日益完善和人工智能應(yīng)用服務(wù)模式不斷創(chuàng)新,AIGC能力的獲取門檻已顯著降低,非專業(yè)人士也可以通過個(gè)人終端設(shè)備輕松生成指定內(nèi)容,易被抱有不良目的的人利用。2024年8月,韓國(guó)爆出AIGC版的“N號(hào)房”事件,通信軟件Telegram上出現(xiàn)大量聊天群分享和傳播人工智能偽造的性內(nèi)容圖像,對(duì)象涉及學(xué)生、教師、醫(yī)護(hù)等特定職業(yè)群體,嚴(yán)重侵害受害者隱私和名譽(yù);受害者遍布500多所學(xué)校,規(guī)模之大令人震驚。這些內(nèi)容并非出自少數(shù)職業(yè)團(tuán)伙之手,而是由普通民眾惡意利用公開AIGC工具制作,已知的加害者中甚至有相當(dāng)一部分還是在校未成年人。
AIGC檢測(cè)技術(shù)是應(yīng)對(duì)AIGC濫用的關(guān)鍵
AIGC檢測(cè)技術(shù)概述
AIGC檢測(cè)技術(shù)是用于分辨各類AIGC與人類書寫、攝錄內(nèi)容的技術(shù)的總稱,在實(shí)際應(yīng)用中已經(jīng)取得了一定的成效:在互聯(lián)網(wǎng)流量監(jiān)管中,檢測(cè)技術(shù)被用于違規(guī)內(nèi)容篩查,支撐公安機(jī)關(guān)破獲多起人工智能偽造相關(guān)案件,服務(wù)重大任務(wù)安保;在重大事件輿情監(jiān)測(cè)中,檢測(cè)技術(shù)被用于識(shí)別虛假信息,支撐快速形成重大事件虛假內(nèi)容專題報(bào)告;在金融服務(wù)中,檢測(cè)技術(shù)被用于防范基于人工智能技術(shù)的身份冒充,已成為銀行等金融機(jī)構(gòu)交易鑒權(quán)環(huán)節(jié)的必備模塊。以下將從AIGC檢測(cè)技術(shù)主要包括的生成文本檢測(cè)技術(shù)、生成圖像視頻檢測(cè)技術(shù)、生成音頻檢測(cè)技術(shù)和生成模型溯源技術(shù)4個(gè)方面說明。
生成文本檢測(cè)技術(shù)。生成文本檢測(cè)模型用于區(qū)分人工撰寫和人工智能模型生成的文本,主要包括基于生成概率和基于風(fēng)格特征的檢測(cè)方法。基于生成概率的檢測(cè)方法。此類方法認(rèn)為大語言模型的預(yù)訓(xùn)練和生成采樣過程塑造了獨(dú)特的用詞偏好和用詞穩(wěn)定性。例如,人工智能生成的論文審稿意見中“commendable”一詞出現(xiàn)的頻次明顯高于人類審稿意見;人工智能生成文本的寫作結(jié)構(gòu)相對(duì)于人類而言更加穩(wěn)定。在ChatGPT問世不久后引發(fā)關(guān)注的產(chǎn)品GPTZero就利用了這些性質(zhì),構(gòu)建了基于語言模型困惑度(perplexity)和突發(fā)性(burstiness)的檢測(cè)模型。斯坦福大學(xué)學(xué)者提出的DetectGPT延伸了這一思路,通過擾動(dòng)生成采樣過程,觀察當(dāng)前用詞是否遵循了“選擇概率最高”的人工智能采樣規(guī)則作為區(qū)分人類和人工智能生成文本的信號(hào)。不過由于模型特性仍存在差異,上述模型一般只適用于已知特定模型生成的文本?;陲L(fēng)格特征的檢測(cè)方法。此類方法主要依賴語言學(xué)分析和神經(jīng)網(wǎng)絡(luò)特征學(xué)習(xí),從詞匯多樣性、連貫性、重復(fù)性等文體學(xué)特征以及事實(shí)要素篇章一致性等文字結(jié)構(gòu)的相關(guān)特征區(qū)分人類和人工智能生成文本,但這類方法的檢測(cè)靈敏度正因生成質(zhì)量的提高和檢索增強(qiáng)生成等輔助技術(shù)的應(yīng)用而逐漸降低,其全面性和靈活性明顯受限于先驗(yàn)知識(shí)。
生成圖像視頻檢測(cè)技術(shù)。生成圖像視頻檢測(cè)的設(shè)定與文本類似,一部分檢測(cè)方法利用自然攝錄內(nèi)容概念的先驗(yàn)性質(zhì),另一部分注重挖掘生成與編輯過程的特性?;谙闰?yàn)性質(zhì)的檢測(cè)方法。此類方法認(rèn)為生成的視覺內(nèi)容無法完美復(fù)現(xiàn)真實(shí)世界中視覺語義概念特性,因此觀察概念呈現(xiàn)的合理性更容易發(fā)現(xiàn)AIGC的細(xì)微瑕疵。例如,早年人工智能換臉視頻經(jīng)常出現(xiàn)眨眼頻次不合理、不生成說話人牙齒、膚色過渡不自然等生理信號(hào)瑕疵;還有一些方法利用Xception等預(yù)訓(xùn)練視覺模型中蘊(yùn)含的自然圖像先驗(yàn),通過微調(diào)的方法將通用視覺理解模型轉(zhuǎn)化為生成內(nèi)容檢測(cè)模型,但生成內(nèi)容逼真度的大幅提高正在不斷縮小先驗(yàn)上的差異。從生成和編輯過程提取特征的檢測(cè)方法。此類方法關(guān)注頻域統(tǒng)計(jì)特性、壓縮特性方面的差異。例如,有研究發(fā)現(xiàn)生成模型的上采樣模塊可能在生成圖像中留下穩(wěn)定的隱藏痕跡及紋理信息,因此可以通過提取隱藏痕跡用于檢測(cè);對(duì)于利用人工智能修圖產(chǎn)生的區(qū)域編輯圖像[8],還可以通過比較生成區(qū)域和原圖區(qū)域在像素排列邏輯、光學(xué)噪聲、重壓縮痕跡實(shí)現(xiàn)更精細(xì)的區(qū)域定位。
生成音頻檢測(cè)技術(shù)。生成音頻檢測(cè)可進(jìn)一步分為全局生成檢測(cè)和生成片段定位2個(gè)任務(wù)。其核心是通過考慮語音信號(hào)、聲紋特征和頻譜分布等特征進(jìn)行鑒別。全局生成檢測(cè)。此任務(wù)的基礎(chǔ)特征包括原始波形和功率譜、幅度譜、相位等頻譜特征。對(duì)于特定人的生成語音檢測(cè),還會(huì)提取與說話人身份有關(guān)的特征。近年來,大規(guī)模自監(jiān)督預(yù)訓(xùn)練模型HuBERT的輸出也成為檢測(cè)模型采用的特征,其泛化性高于傳統(tǒng)特征。生成片段定位。此任務(wù)用于應(yīng)對(duì)語音篡改行為,更加注重建模幀級(jí)別特征,通過偵測(cè)真假語音的波形邊界識(shí)別被替換為生成語音的片段。
生成模型溯源技術(shù)。生成模型溯源的目的是從內(nèi)容識(shí)別其來源模型,其基本假設(shè)與生成內(nèi)容檢測(cè)類似,都是認(rèn)為生成內(nèi)容中蘊(yùn)含著某種具有模型特異性的特征。不同的是,溯源技術(shù)關(guān)注如何區(qū)分不同的AIGC模型。溯源方法根據(jù)是否可以獲得模型內(nèi)部信息,分為白盒方法、黑盒方法和灰盒方法。白盒方法。采用白盒設(shè)置的溯源方法通過獲取給定內(nèi)容在候選模型上推理的統(tǒng)計(jì)指標(biāo)(如文本詞頻分布)作為特征,衡量模型對(duì)內(nèi)容的“熟悉度”以判斷來源。黑盒方法。采用黑盒設(shè)置的方法主要以數(shù)據(jù)驅(qū)動(dòng)的思路構(gòu)建溯源模型,通過挖掘同源生成內(nèi)容的共性獲得其中只與來源模型有關(guān)的特征實(shí)現(xiàn)溯源,提取出的特征也被稱為“模型指紋”?;液蟹椒?。針對(duì)白盒方法無法用于閉源AIGC大模型的問題,近期學(xué)者開始研究灰盒溯源方法,即使用內(nèi)部信息更方便獲取的開源大模型作為代理估計(jì)閉源大模型特性,再利用白盒方法的思路做出判斷,在生成文本溯源任務(wù)上取得了介于黑盒和白盒方法之間的溯源效果;由于多數(shù)現(xiàn)有方法只能追溯到訓(xùn)練階段已知生成模型,無法識(shí)別未知生成模型,近期一些學(xué)者也開始探索將未知模型歸入“其他”類的開集模型溯源[10]和支持新生成模型發(fā)現(xiàn)的零樣本模型溯源技術(shù)。
實(shí)戰(zhàn)場(chǎng)景AIGC檢測(cè)技術(shù)面臨的挑戰(zhàn)
盡管目前AIGC檢測(cè)技術(shù)和工具都已具備,但面對(duì)大模型應(yīng)用的快速大規(guī)模普及,生成與檢測(cè)的持續(xù)對(duì)抗仍在升級(jí)。未來的AIGC監(jiān)管實(shí)戰(zhàn)將面臨3項(xiàng)關(guān)鍵挑戰(zhàn)。
如何提升檢測(cè)模型針對(duì)新出現(xiàn)AIGC模型的泛化能力。AIGC技術(shù)迭代更新很快,生成質(zhì)量的提升、模態(tài)的擴(kuò)展、技術(shù)方案的升級(jí)、從閉源到開源生態(tài)的構(gòu)建,往往是在幾個(gè)月內(nèi)完成的。例如,美國(guó)人工智能公司OpenAI在2024年5月展示了可語音交互的多模態(tài)大模型GPT-4o,9月就出現(xiàn)了Llama-omni等跟進(jìn)工作。隨著新的生成模型不斷出現(xiàn),原有檢測(cè)模型可能性能降低甚至失效,需要構(gòu)建具有更強(qiáng)泛化能力的基座檢測(cè)模型。
如何在強(qiáng)對(duì)抗的犯罪場(chǎng)景下進(jìn)行高精準(zhǔn)的鑒偽。對(duì)于詐騙等強(qiáng)對(duì)抗、高風(fēng)險(xiǎn)犯罪,造假者會(huì)采取各種手段逃避檢測(cè)。例如,造假者可能利用私有模型重述生成文本,抹除文本中來源模型的痕跡,使溯源手段失效;對(duì)于圖像視頻可能采取壓縮手段,在仍保留語義信息的前提下減少檢測(cè)模型依賴的其它信息,導(dǎo)致模型漏檢。
如何兼顧新技術(shù)的安全與發(fā)展,在大量無害生成中精準(zhǔn)識(shí)別出有害偽造,降低對(duì)正向生成應(yīng)用的影響。生成式人工智能作為新質(zhì)生產(chǎn)力的代表,未來會(huì)催生大量正向生成應(yīng)用。但從技術(shù)層面來說,正向應(yīng)用和違法犯罪應(yīng)用依賴的算法、模型在本質(zhì)上沒有區(qū)別。影視創(chuàng)作、智能客服等合理應(yīng)用生成的內(nèi)容依然會(huì)被檢測(cè)模型識(shí)別,既影響這些內(nèi)容正常傳播的權(quán)利,也為監(jiān)管系統(tǒng)造成了更大的負(fù)擔(dān)。
構(gòu)建AIGC全流程檢測(cè)體系
按照公共安全事件“事前—事中—事后”的分階段管理機(jī)制,圍繞AIGC生成內(nèi)容的制作和傳播過程,有必要構(gòu)建“生成時(shí)可賦標(biāo)、傳播中可鑒別、案發(fā)后可溯源”的AIGC內(nèi)容檢測(cè)技術(shù)體系。其具體內(nèi)涵可總結(jié)為3個(gè)部分。
事前治理:生成時(shí)可賦標(biāo)。針對(duì)文本、圖像、音頻、視頻等不同模態(tài)生成內(nèi)容,在模型輸出時(shí),通過算法主動(dòng)植入帶有信息的數(shù)字水印,水印中包含模型型號(hào)、用戶身份標(biāo)識(shí)號(hào)(ID)等隱式的身份指示信息,在內(nèi)容可視區(qū)域添加用戶可明顯感知的標(biāo)識(shí),方便用戶識(shí)別。
事中治理:傳播中可鑒別。針對(duì)網(wǎng)絡(luò)空間中傳播的大量未標(biāo)識(shí)內(nèi)容,使用AIGC檢測(cè)技術(shù)自動(dòng)識(shí)別疑似AIGC,進(jìn)行標(biāo)識(shí)提醒,對(duì)惡意偽造內(nèi)容進(jìn)行及時(shí)預(yù)警。
事后治理:案發(fā)后可溯源。針對(duì)已經(jīng)識(shí)別到有害的AIGC,開展追查溯源工作。對(duì)于帶有數(shù)字水印的內(nèi)容,通過顯式標(biāo)識(shí)識(shí)別、元數(shù)據(jù)抽取或隱式水印提取等方式,得到生成內(nèi)容的來源模型名稱;對(duì)于不帶有數(shù)字水印的內(nèi)容,使用生成模型溯源技術(shù),根據(jù)內(nèi)容從候選模型尋找疑似的生成模型;針對(duì)未收錄的模型生成內(nèi)容,支持歸入“其他”類的開集設(shè)置。
AIGC檢測(cè)發(fā)展展望與建議
AIGC安全風(fēng)險(xiǎn)治理是一項(xiàng)世界各國(guó)共同關(guān)心的課題。作為生成式人工智能應(yīng)用大國(guó),探索和構(gòu)建AIGC檢測(cè)技術(shù)體系既是維護(hù)我國(guó)公共安全、引導(dǎo)推動(dòng)我國(guó)人工智能技術(shù)健康發(fā)展的必要舉措,也是為全球人工智能治理積累中國(guó)經(jīng)驗(yàn)、貢獻(xiàn)中國(guó)智慧的重要契機(jī)。中國(guó)有望成為世界范圍內(nèi)“人工智能與公共安全”方向的引領(lǐng)者,而率先構(gòu)建AIGC檢測(cè)技術(shù)體系將成為其中的關(guān)鍵一步。
AIGC檢測(cè)能力決定著AIGC應(yīng)用的安全邊界,AIGC全流程檢測(cè)體系的有效建立是AIGC應(yīng)用蓬勃發(fā)展的前提。建立涵蓋事前、事中、事后的檢測(cè)體系不是單純的技術(shù)問題,需要監(jiān)管部門、科研機(jī)構(gòu)、AIGC服務(wù)者緊密合作。面向公共安全實(shí)戰(zhàn)需求,從技術(shù)層、機(jī)理層和應(yīng)用層同步發(fā)力,在檢測(cè)技術(shù)與能力不斷提升的同時(shí)優(yōu)化制度要求、技術(shù)水平和應(yīng)用場(chǎng)景的適配程度。開展檢測(cè)能力驗(yàn)證計(jì)劃,大力推動(dòng)實(shí)戰(zhàn)演練,從真實(shí)場(chǎng)景中發(fā)現(xiàn)痛點(diǎn)問題,達(dá)到用技術(shù)解決技術(shù)問題的效果。
技術(shù)層面
推動(dòng)AIGC檢測(cè)能力基座化,實(shí)現(xiàn)AIGC檢測(cè)高效可泛化。面對(duì)AIGC技術(shù)快速迭代導(dǎo)致的廣譜檢測(cè)和快速響應(yīng)難題,需要摒棄“來一個(gè)打一槍”的事后思維,重視檢測(cè)能力的基座化。構(gòu)建AIGC檢測(cè)的基座大模型,提升針對(duì)不同來源生成內(nèi)容的檢測(cè)泛化能力,突破面向檢測(cè)大模型的持續(xù)學(xué)習(xí),實(shí)現(xiàn)有限樣本下的可擴(kuò)展模型訓(xùn)練,使模型快速具備新出現(xiàn)AIGC的檢測(cè)能力;提高檢測(cè)基座的推理效率,通過軟硬協(xié)同設(shè)計(jì),使模型推理與算力基礎(chǔ)設(shè)施特性相適應(yīng),更好地應(yīng)對(duì)大批量AIGC檢測(cè)需求。
機(jī)理層面
探索生成過程的逆推溯源,促使AIGC檢測(cè)結(jié)果可解釋。隨著AIGC應(yīng)用場(chǎng)景日趨復(fù)雜,其制作過程往往由多重偽造操作疊加,對(duì)鑒偽取證和責(zé)任界定構(gòu)成了嚴(yán)峻挑戰(zhàn)。因此,需要探索偽造操作疊加條件下的生成過程逆向解離和原始內(nèi)容復(fù)原。全面分析偽造操作類型,構(gòu)建覆蓋常見偽造工具的特征庫(kù),深入解析偽造過程對(duì)最終內(nèi)容施加的影響;構(gòu)建偽造失真分級(jí)量化體系,挖掘偽造手段本質(zhì)模式,增強(qiáng)偽造痕跡的消除和原始特征的還原效果。
應(yīng)用層面
面向受眾提供多種形式的偽造檢測(cè)工具,實(shí)現(xiàn)“人人可鑒偽”。隨著大模型輕量化部署能力的快速發(fā)展,生成內(nèi)容安全風(fēng)險(xiǎn)逐漸轉(zhuǎn)移到終端,每一個(gè)普通民眾都是“認(rèn)知戰(zhàn)”的受眾主體。為應(yīng)對(duì)安全風(fēng)險(xiǎn)終端化的趨勢(shì),應(yīng)從2個(gè)方面入手:提升大眾人工智能技術(shù)素養(yǎng)是抵御認(rèn)知干擾最好的方法,要加大科普力度,提高民眾對(duì)生成式人工智能技術(shù)的認(rèn)識(shí);要給民眾提供簡(jiǎn)單易用的鑒偽服務(wù)和鑒偽工具,讓普通用戶在身份驗(yàn)證、內(nèi)容鑒定等日常場(chǎng)景中有工具可用。例如,杭州中科睿鑒科技有限公司發(fā)布的“終端AI鑒偽大師”將鑒偽服務(wù)深度融入終端系統(tǒng),已在手機(jī)、平板電腦、筆記本電腦等消費(fèi)級(jí)終端設(shè)備上部署,實(shí)現(xiàn)對(duì)視頻通話、會(huì)議、直播等場(chǎng)景下偽造內(nèi)容及時(shí)告警,及時(shí)保護(hù)終端用戶安全。
(作者:曹娟,中國(guó)科學(xué)院計(jì)算技術(shù)研究所 中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院;盛強(qiáng)、李國(guó)杰,中國(guó)科學(xué)院計(jì)算技術(shù)研究所?!吨袊?guó)科學(xué)院院刊》供稿)







