智能算法安全:內(nèi)涵、科學(xué)問(wèn)題與展望
中國(guó)網(wǎng)/中國(guó)發(fā)展門(mén)戶(hù)網(wǎng)訊 人工智能(AI)技術(shù)經(jīng)過(guò)幾十年的發(fā)展,正在進(jìn)入一個(gè)技術(shù)創(chuàng)新與顛覆式應(yīng)用模式頻現(xiàn)的爆發(fā)期,人工智能倫理與安全問(wèn)題受到廣泛關(guān)注。美國(guó)達(dá)特茅斯會(huì)議之前,科幻作家阿西莫夫提出了“機(jī)器人三大定律”,關(guān)于人工智能的倫理與安全問(wèn)題在這之后的很長(zhǎng)一段時(shí)間主要集中在哲學(xué)和科幻領(lǐng)域。21世紀(jì),以大數(shù)據(jù)融合深度學(xué)習(xí)為代表的統(tǒng)計(jì)學(xué)派占據(jù)了人工智能技術(shù)主流,人工智能的倫理與安全問(wèn)題開(kāi)始凸顯。近年來(lái),生成式大模型在文本、圖像、視頻、自然語(yǔ)言處理等領(lǐng)域產(chǎn)生系列現(xiàn)象級(jí)應(yīng)用,人工智能的倫理與安全問(wèn)題快速出現(xiàn),受到社會(huì)廣泛關(guān)注。例如,2019—2021年,美國(guó)國(guó)家公路交通安全管理局統(tǒng)計(jì)共發(fā)生807起自動(dòng)駕駛車(chē)禍案件,其中超過(guò)90%的案件涉及啟用Autopilot功能的特斯拉車(chē)輛撞擊帶有明顯標(biāo)識(shí)的靜止車(chē)輛、公路隔離墩甚至行人;2018年9月,廣州市共查處外賣(mài)騎手交通違法近2 000起,主要原因是外賣(mài)騎手為趕在平臺(tái)AI算法設(shè)定的限制時(shí)間內(nèi)送達(dá)外賣(mài)而采取超速、逆行等危險(xiǎn)駕駛行為;2016年,社交媒體平臺(tái)Facebook在美國(guó)大選期間被俄羅斯機(jī)構(gòu)利用AI算法投放約8萬(wàn)條政治輿論相關(guān)的帖子,劍橋分析公司非法使用8 700萬(wàn)臉書(shū)用戶(hù)的數(shù)據(jù)并利用AI算法針對(duì)性地發(fā)送政治宣傳廣告。
針對(duì)日益嚴(yán)峻的人工智能安全問(wèn)題,各國(guó)政府在積極探索有效治理模式。我國(guó)2021年以來(lái)先后發(fā)布了《新一代人工智能倫理規(guī)范》《可信人工智能白皮書(shū)》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規(guī)定》與全球首部針對(duì)生成式人工智能的法規(guī)《生成式人工智能服務(wù)管理暫行辦法》;并于2023年10月發(fā)布《全球人工智能治理倡議》,圍繞人工智能發(fā)展、安全、治理3個(gè)方面系統(tǒng)闡述了人工智能治理的中國(guó)方案,提出11項(xiàng)倡議。美國(guó)白宮2023年10月首次針對(duì)AI發(fā)布行政令,涵蓋建立AI安保、隱私保護(hù)、人權(quán)保護(hù)、促進(jìn)創(chuàng)新等多方面內(nèi)容。歐洲2023年11月召開(kāi)首屆全球AI安全峰會(huì)并簽署《布萊特利宣言》,確認(rèn)解決人工智能對(duì)人權(quán)保護(hù)、透明度和可解釋性、公平性、問(wèn)責(zé)與監(jiān)管機(jī)制、道德偏見(jiàn)、隱私和數(shù)據(jù)保護(hù)等問(wèn)題的必要性和緊迫性;歐盟理事會(huì)于2024年7月公布《人工智能法案》,該立法遵循“基于風(fēng)險(xiǎn)”的方法,風(fēng)險(xiǎn)等級(jí)越高,管控越嚴(yán)格。
人工智能領(lǐng)域的學(xué)者們呼吁重視人工智能存在的安全風(fēng)險(xiǎn)。2022年6月,第24屆中國(guó)科協(xié)年會(huì)發(fā)布十大前沿科學(xué)問(wèn)題,信息領(lǐng)域唯一一個(gè)問(wèn)題是“如何實(shí)現(xiàn)可信可靠可解釋人工智能技術(shù)路線(xiàn)和方案”。2023年3月,1 000余位人工智能領(lǐng)域?qū)W者簽署公開(kāi)信,呼吁立即暫停訓(xùn)練比GPT-4更強(qiáng)大的AI模型,為期至少6個(gè)月。2023年5月,圖靈獎(jiǎng)獲得者Geoffrey Hinton教授從谷歌離職,原因是“為了自由地討論人工智能的風(fēng)險(xiǎn)”,該事件引發(fā)社會(huì)各界對(duì)強(qiáng)人工智能何時(shí)實(shí)現(xiàn)、其是否會(huì)取代人類(lèi)等人工智能倫理安全問(wèn)題的大討論。
本文認(rèn)為社會(huì)上對(duì)人工智能安全性的恐懼主要來(lái)自科幻電影和媒體的夸張宣傳,認(rèn)為智能機(jī)器將會(huì)有自主意識(shí),完全脫離人的控制,甚至成為新的物種征服人類(lèi),這只是一些人的猜測(cè),目前還沒(méi)有科學(xué)依據(jù),在可預(yù)見(jiàn)的未來(lái),還不構(gòu)成真正的安全威脅。對(duì)于長(zhǎng)遠(yuǎn)未來(lái)可能存在的安全問(wèn)題,各國(guó)政府和前沿研究的學(xué)者們已經(jīng)開(kāi)始探討在人工智能研究和開(kāi)發(fā)過(guò)程中加強(qiáng)倫理道德的規(guī)范和引導(dǎo),確保自主智能的發(fā)展符合人類(lèi)的價(jià)值觀(guān)和利益。本文更加關(guān)注當(dāng)前AI應(yīng)用過(guò)程中已經(jīng)存在且愈演愈烈的問(wèn)題。
盡管各國(guó)政府和國(guó)內(nèi)外學(xué)者高度重視人工智能安全,但對(duì)處于人工智能核心的智能算法安全內(nèi)涵理解尚未深入,實(shí)現(xiàn)算法安全治理的技術(shù)路徑尚不明晰。本文旨在以計(jì)算的視角,梳理智能算法安全的需求,明確智能算法安全的內(nèi)涵,并針對(duì)智能算法安全的目標(biāo),探討關(guān)鍵科學(xué)問(wèn)題,提出潛在關(guān)鍵技術(shù)及其應(yīng)用。這對(duì)在智能化時(shí)代確保人類(lèi)自身安全、保障用戶(hù)權(quán)益、維護(hù)社會(huì)穩(wěn)定,最終實(shí)現(xiàn)人機(jī)共治,具有重要意義。
智能算法安全的內(nèi)涵
智能算法
算法是指將信息進(jìn)行變換的計(jì)算過(guò)程所體現(xiàn)的方法。高納德(Donald E. Knuth)教授定義算法為求解特定類(lèi)型問(wèn)題的運(yùn)算序列的一組有窮規(guī)則,并具備有窮性、確定性、輸入、輸出、能行性5個(gè)特征。
智能算法在本文中定義為實(shí)現(xiàn)智能的計(jì)算過(guò)程所體現(xiàn)的方法。智能算法大多具有數(shù)據(jù)驅(qū)動(dòng)、不確定性計(jì)算、模型推斷難解釋等典型特征。智能算法的設(shè)計(jì)者基于少量知識(shí)設(shè)計(jì)參數(shù)化模型,依賴(lài)數(shù)據(jù)訓(xùn)練模型參數(shù)。計(jì)算機(jī)在訓(xùn)練階段基于隨機(jī)迭代計(jì)算更新模型,在推斷階段使用訓(xùn)練所得模型面向具體任務(wù)產(chǎn)生輸出(圖1)?;诙喾N任務(wù)來(lái)源的數(shù)據(jù),智能算法所訓(xùn)練的模型具有執(zhí)行多種任務(wù)的能力。由于智能算法利用了大量數(shù)據(jù)中蘊(yùn)含的知識(shí),設(shè)計(jì)者所需的知識(shí)明顯減少,在此意義上稱(chēng)其具備“智能”。

智能算法目前以深度學(xué)習(xí)為典型代表,其不確定性與智能的關(guān)系值得深入思考。基于隨機(jī)數(shù)據(jù)學(xué)習(xí)的計(jì)算每一步迭代的機(jī)理是確定的,但經(jīng)過(guò)多步迭代后的計(jì)算規(guī)則人類(lèi)難以理解,規(guī)則意義上的確定性大大降低。與智能算法相比,傳統(tǒng)算法的設(shè)計(jì)者依據(jù)特定知識(shí)設(shè)計(jì)確定性的計(jì)算規(guī)則,并由計(jì)算機(jī)執(zhí)行產(chǎn)生輸出。故基于規(guī)則的計(jì)算如果能自發(fā)生成新的規(guī)則即可以減少對(duì)知識(shí)的依賴(lài),在這種情況下,傳統(tǒng)算法可以進(jìn)階為智能算法。
智能算法的計(jì)算不確定性、結(jié)果復(fù)雜難解釋等特性使得對(duì)其安全風(fēng)險(xiǎn)進(jìn)行管控極具挑戰(zhàn)。近年來(lái),基于多模態(tài)大模型的智能算法顯著提升了多任務(wù)執(zhí)行能力,與人類(lèi)交互的障礙大大減小,應(yīng)用場(chǎng)景急速擴(kuò)大。與此同時(shí),智能算法中模型判定與生成的不確定性結(jié)果對(duì)人類(lèi)產(chǎn)生的不良影響也日益凸顯。以大語(yǔ)言模型為例,基于數(shù)據(jù)驅(qū)動(dòng)的概率生成模式,可能生成與現(xiàn)實(shí)世界事實(shí)不一致的幻覺(jué)內(nèi)容,產(chǎn)生錯(cuò)誤;大模型的訓(xùn)練、推斷機(jī)理復(fù)雜難解釋?zhuān)P偷穆┒措[性難發(fā)現(xiàn),在惡意者對(duì)抗攻擊下,可能出現(xiàn)推斷錯(cuò)誤、導(dǎo)致歧視或泄漏用戶(hù)隱私等現(xiàn)象。
智能算法安全的內(nèi)涵
智能算法安全研究致力于降低智能算法對(duì)人類(lèi)產(chǎn)生的風(fēng)險(xiǎn),研究如何度量、評(píng)估、增強(qiáng)智能算法的安全程度。智能算法應(yīng)用領(lǐng)域廣泛,正在與人類(lèi)自身活動(dòng)交互融合。人機(jī)融合的程度越深,風(fēng)險(xiǎn)形成的過(guò)程越復(fù)雜,科學(xué)問(wèn)題的挑戰(zhàn)越大,安全治理技術(shù)的要求越高。因此,本文將算法安全需求場(chǎng)景中人機(jī)智能交互的程度劃分為算法內(nèi)生一元、人機(jī)交互二元與人機(jī)共生多元3個(gè)安全層級(jí)。算法內(nèi)生一元安全層級(jí)。算法作為生產(chǎn)工具幫助人類(lèi)在物理空間的已有任務(wù)上提升執(zhí)行效率、減小人類(lèi)投入或降低對(duì)生態(tài)環(huán)境的不良影響。例如,智慧農(nóng)耕算法提升糧食產(chǎn)量,智能調(diào)度算法減少能源消耗,自動(dòng)駕駛算法降低人類(lèi)駕駛負(fù)荷,科學(xué)智能算法加快科學(xué)發(fā)現(xiàn)的進(jìn)程等。此類(lèi)任務(wù)中,算法往往具備內(nèi)在的適用邊界,當(dāng)任務(wù)執(zhí)行不當(dāng)時(shí)會(huì)觸發(fā)物理世界中的事故。例如,自動(dòng)駕駛車(chē)禍導(dǎo)致人民生命財(cái)產(chǎn)安全事故,自動(dòng)交易算法異常導(dǎo)致經(jīng)濟(jì)損失,大模型幻覺(jué)導(dǎo)致錯(cuò)誤決策等。 人機(jī)交互二元安全層級(jí)。在網(wǎng)絡(luò)化應(yīng)用中,大量算法依托平臺(tái)為用戶(hù)提供交互式智能服務(wù)。例如,搜索推薦算法為用戶(hù)提供快速準(zhǔn)確的信息獲取服務(wù),外賣(mài)平臺(tái)算法為消費(fèi)者、商家、快遞員提供實(shí)時(shí)、高效的配置方案,視頻游戲類(lèi)算法為用戶(hù)提供電子類(lèi)休閑娛樂(lè)服務(wù)等。在這些應(yīng)用中,算法作為智能服務(wù)提供方,可能由于損害用戶(hù)權(quán)益而觸發(fā)服務(wù)產(chǎn)品的風(fēng)險(xiǎn)。例如,搜索算法泄露用戶(hù)隱私,外賣(mài)平臺(tái)導(dǎo)致快遞員疲于奔命,信息推薦算法導(dǎo)致用戶(hù)陷入信息繭房等。人機(jī)共生多元安全層級(jí)。算法通過(guò)物理空間和網(wǎng)絡(luò)空間與人類(lèi)共同參與社會(huì)活動(dòng),形成人類(lèi)智能和機(jī)器智能交織的人機(jī)共生系統(tǒng)。例如,帶有智能體的社交平臺(tái),智能算法參與的金融交易系統(tǒng),有人—無(wú)人系統(tǒng)共同參與的軍事演習(xí)等。此系統(tǒng)中,算法可能由于通過(guò)行為傳導(dǎo)而觸發(fā)系統(tǒng)性安全風(fēng)險(xiǎn)。例如,基于社交平臺(tái)的選舉操控③,基于網(wǎng)絡(luò)空間的社會(huì)認(rèn)知博弈等。
智能算法3個(gè)安全層級(jí)依次嵌套,算法內(nèi)生一元安全層級(jí)是人機(jī)交互二元安全層級(jí)中機(jī)器在物理域?qū)θ颂峁┑木植糠?wù),人機(jī)交互二元安全層級(jí)是人機(jī)共生多元系統(tǒng)的人機(jī)二元局部交互系統(tǒng),故單個(gè)智能算法會(huì)面臨跨層次的安全風(fēng)險(xiǎn)。例如,智能駕駛的主要風(fēng)險(xiǎn)中,自動(dòng)駕駛算法不穩(wěn)定導(dǎo)致的交通事故屬于算法內(nèi)生一元安全層級(jí),算法泄露用戶(hù)隱私數(shù)據(jù)的風(fēng)險(xiǎn)屬于人機(jī)交互二元安全層級(jí);互聯(lián)網(wǎng)服務(wù)平臺(tái)中,調(diào)度決策算法導(dǎo)致司機(jī)、騎手權(quán)益受損屬于人機(jī)交互二元安全層級(jí),在突發(fā)極端情況下交通擁塞導(dǎo)致算法可用性下降屬于算法內(nèi)生一元安全層級(jí);社交平臺(tái)被用于政治干預(yù)產(chǎn)生社會(huì)認(rèn)知風(fēng)險(xiǎn)屬于人機(jī)共生多元安全層級(jí),平臺(tái)用戶(hù)面臨隱私泄漏和信息繭房等風(fēng)險(xiǎn)屬于人機(jī)交互二元安全層級(jí)。
智能算法安全層級(jí)(TRC)范式
智能算法3個(gè)層級(jí)關(guān)注的安全風(fēng)險(xiǎn)類(lèi)型和產(chǎn)生原因不同:一元場(chǎng)景中關(guān)注由算法內(nèi)生缺陷導(dǎo)致算法性能不可信,二元場(chǎng)景中關(guān)注由算法應(yīng)用中的濫用誤用導(dǎo)致算法服務(wù)不可管,多元場(chǎng)景中關(guān)注由人機(jī)算法博弈對(duì)抗導(dǎo)致系統(tǒng)演變不可控。智能算法安全的目標(biāo)是實(shí)現(xiàn)智能算法一元內(nèi)生決策可信(trustworthiness)、二元服務(wù)應(yīng)用可管(regulatability)、多元系統(tǒng)風(fēng)險(xiǎn)可控(controllability),即智能算法安全層級(jí)范式(以下簡(jiǎn)稱(chēng)“TRC范式”)(圖2)。

一元內(nèi)生性安全限定于機(jī)器自身,聚焦于智能算法內(nèi)生缺陷導(dǎo)致的算法決策失信。人類(lèi)設(shè)計(jì)智能算法的最初目的是順利實(shí)現(xiàn)其預(yù)期功能,其達(dá)成任務(wù)目標(biāo)的能力僅由算法自身決定,而與其如何被使用無(wú)關(guān)。在一元安全的范疇內(nèi),算法的風(fēng)險(xiǎn)來(lái)自算法自身缺陷所導(dǎo)致的失能或失效,體現(xiàn)為在遇到數(shù)據(jù)環(huán)境被動(dòng)性變化或主動(dòng)性對(duì)抗攻擊時(shí)功能失效或性能下降。因此,內(nèi)生性安全著眼于智能算法在可變及對(duì)抗環(huán)境下的決策性能,其目標(biāo)是構(gòu)建性能穩(wěn)健可靠的智能算法,實(shí)現(xiàn)智能算法內(nèi)生機(jī)理可信。
二元應(yīng)用性安全關(guān)注智能算法濫用誤用導(dǎo)致的算法行為與用戶(hù)權(quán)益的失配。隨著算法的智能水平逐漸接近人類(lèi)智能,其與人類(lèi)的互動(dòng)也日益緊密,影響日益顯著。算法的風(fēng)險(xiǎn)主要源于其行為與人類(lèi)社會(huì)的普遍價(jià)值觀(guān)(如公平、公正、隱私等)不一致,例如互聯(lián)網(wǎng)服務(wù)可能導(dǎo)致的歧視、隱私泄漏、觀(guān)點(diǎn)極化等道德或倫理失范和混亂問(wèn)題。算法應(yīng)用性安全的目標(biāo)是技術(shù)向善,在智能算法服務(wù)用戶(hù)的同時(shí),避免損害個(gè)體和公眾的權(quán)益,確保技術(shù)創(chuàng)新與社會(huì)價(jià)值觀(guān)的和諧共融,實(shí)現(xiàn)智能算法的應(yīng)用服務(wù)可管。
多元系統(tǒng)性安全著眼于人機(jī)共生系統(tǒng)中因算法博弈對(duì)抗導(dǎo)致復(fù)雜社會(huì)系統(tǒng)的演化不可控。智能算法的快速發(fā)展,促使復(fù)雜社會(huì)系統(tǒng)人機(jī)智能融合,模糊了人機(jī)邊界,重構(gòu)了社會(huì)結(jié)構(gòu)與組織關(guān)系。與此同時(shí),智能算法的自主決策演變可能會(huì)導(dǎo)致復(fù)雜社會(huì)系統(tǒng)呈現(xiàn)組織結(jié)構(gòu)坍塌、傳播鏈?zhǔn)椒磻?yīng)、系統(tǒng)臨界態(tài)不確定等失序、失控現(xiàn)象。算法在某些任務(wù)上,如內(nèi)容生成和傳播等,具有超越人類(lèi)智能的能力,這使得社會(huì)系統(tǒng)存在被算法干預(yù)的風(fēng)險(xiǎn)。隨著社會(huì)系統(tǒng)中的系統(tǒng)博弈強(qiáng)度升級(jí),系統(tǒng)性風(fēng)險(xiǎn)開(kāi)始顯現(xiàn),例如偽造政治謠言、惡意宣傳、社會(huì)認(rèn)知操控、有人—無(wú)人系統(tǒng)失控等。實(shí)現(xiàn)人機(jī)共生系統(tǒng)安全的可能路徑包括通過(guò)復(fù)雜社會(huì)系統(tǒng)的可計(jì)算建模,識(shí)別與調(diào)控復(fù)雜社會(huì)系統(tǒng)風(fēng)險(xiǎn)的相變點(diǎn),實(shí)現(xiàn)智能算法的社會(huì)風(fēng)險(xiǎn)可控。
智能算法安全層級(jí)范式與其他領(lǐng)域的聯(lián)系
TRC范式可以涵蓋已有的相關(guān)概念(表1)??尚潘惴ㄅcTRC范式的關(guān)系:智能算法的可信性一般指算法能被用戶(hù)或社會(huì)認(rèn)為是可信賴(lài)的、可依賴(lài)的,包括算法的魯棒性、公平性、可解釋性、隱私性、可審計(jì)性等,其定義包含于TRC范式之中。 負(fù)責(zé)任算法與TRC范式的關(guān)系:智能算法的負(fù)責(zé)任性一般指算法的行為符合道德、法律要求,避免對(duì)人類(lèi)、環(huán)境或社會(huì)造成危害或不良影響,其定義包含于TRC范式之中。TRC范式中的系統(tǒng)性:現(xiàn)有相關(guān)概念僅適用于描述算法本身,故不適用于系統(tǒng)性安全層面。

智能算法安全是涉及社會(huì)域安全的一門(mén)新興學(xué)科,與其他安全類(lèi)學(xué)科有一定的聯(lián)系(圖3)。在數(shù)字化早期階段,物理世界數(shù)字化是主體任務(wù),物理電磁空間安全是關(guān)鍵,著重解決通信安全、電磁安全與頻譜控制等難題;隨著互聯(lián)網(wǎng)的發(fā)展,人機(jī)互聯(lián)推動(dòng)信息域與物理域融合,網(wǎng)絡(luò)與信息安全問(wèn)題凸顯,網(wǎng)絡(luò)安全與信息系統(tǒng)安全成為重點(diǎn)。當(dāng)前社會(huì)已經(jīng)進(jìn)入智能化時(shí)代,萬(wàn)物互聯(lián),“物理—信息—社會(huì)”三元空間融合,算法成為影響智能社會(huì)運(yùn)行的核心引擎之一,智能算法安全成為新的安全挑戰(zhàn)。這種挑戰(zhàn)的出現(xiàn)是信息社會(huì)發(fā)展演進(jìn)的必然結(jié)果,不同于以往主要關(guān)注物理域和信息域的物理安全以及網(wǎng)絡(luò)信息安全,智能算法安全的關(guān)注點(diǎn)更加聚焦于由智能算法帶來(lái)的社會(huì)域問(wèn)題,需要重新審視和構(gòu)建安全保障的策略和措施。

智能算法安全的科學(xué)問(wèn)題
基于對(duì)智能算法及其內(nèi)涵的理解,本文認(rèn)為智能算法安全的核心挑戰(zhàn)是確定性的安全要求與不確定性計(jì)算的智能算法及其難以度量的社會(huì)域風(fēng)險(xiǎn)三者之間的矛盾?;谥悄芩惴ò踩珒?nèi)涵,結(jié)合目前的技術(shù)難點(diǎn)與核心挑戰(zhàn),面向TRC范式的不同層次,提出智能算法在安全“度量—評(píng)估—增強(qiáng)”技術(shù)鏈條的相應(yīng)挑戰(zhàn)。針對(duì)內(nèi)生性安全,度量是任務(wù)執(zhí)行的功能指標(biāo),評(píng)估目前主要是試驗(yàn)性方法,增強(qiáng)方面也主要是啟發(fā)式增強(qiáng)方法;針對(duì)應(yīng)用性安全,度量的部分權(quán)益維度可計(jì)算,例如隱私性、公平性,但缺乏統(tǒng)一的價(jià)值觀(guān)度量與計(jì)算方法,靜態(tài)、平均情形評(píng)估技術(shù)居多,實(shí)時(shí)、最壞情形監(jiān)測(cè)技術(shù)欠缺;針對(duì)系統(tǒng)性安全,由于系統(tǒng)演化規(guī)律未知,可計(jì)算的社會(huì)安全度量尚未建立。因此,TRC范式的技術(shù)難點(diǎn)依次為,內(nèi)生性安全評(píng)估的理論判定,應(yīng)用性安全評(píng)估的監(jiān)測(cè)技術(shù),系統(tǒng)性安全度量中的可計(jì)算方法??紤]到TRC的層級(jí)嵌套關(guān)系,每個(gè)技術(shù)難點(diǎn)的解決以其前一個(gè)難點(diǎn)的解決為必要條件。綜上,總結(jié)如下智能算法安全的3個(gè)關(guān)鍵科學(xué)問(wèn)題。
不確定性算法的可信域判定問(wèn)題。智能算法包含不確定性計(jì)算,具有數(shù)據(jù)驅(qū)動(dòng)、模型復(fù)雜、機(jī)理不清晰等特點(diǎn)。模型的不穩(wěn)定性使得算法決策的精準(zhǔn)性和穩(wěn)定性難以兼得;數(shù)據(jù)的不完備性使得關(guān)聯(lián)統(tǒng)計(jì)失效,導(dǎo)致算法決策偏差;應(yīng)用場(chǎng)景的突變性使得算法場(chǎng)景先驗(yàn)假設(shè)失效,導(dǎo)致算法行為失控。如何實(shí)現(xiàn)對(duì)高復(fù)雜、強(qiáng)不確定性智能算法的可信域判定和增強(qiáng),是保障智能算法內(nèi)生性安全的關(guān)鍵科學(xué)挑戰(zhàn)。
黑箱模型的透明化監(jiān)測(cè)問(wèn)題。智能算法具有模型黑箱和結(jié)果難解釋等特性,算法風(fēng)險(xiǎn)評(píng)估僅能通過(guò)算法的外顯行為進(jìn)行。智能算法黑箱體現(xiàn)為數(shù)據(jù)黑箱(使用數(shù)據(jù)不透明)、模型黑箱(決策機(jī)制不透明)和目標(biāo)黑箱(設(shè)計(jì)意圖不透明),從而導(dǎo)致監(jiān)管方和算法運(yùn)營(yíng)方存在信息不對(duì)稱(chēng)。如何僅通過(guò)算法運(yùn)行過(guò)程中的外顯行為反向推斷算法的內(nèi)在機(jī)理,實(shí)現(xiàn)算法透明監(jiān)測(cè),是保障智能算法應(yīng)用性安全的關(guān)鍵科學(xué)挑戰(zhàn)。
人機(jī)共生智能系統(tǒng)的臨界點(diǎn)感知問(wèn)題。智能算法促使復(fù)雜社會(huì)系統(tǒng)人機(jī)智能融合,模糊了二者的邊界。傳統(tǒng)復(fù)雜系統(tǒng)理論缺乏對(duì)社會(huì)系統(tǒng)的可計(jì)算建模,不能滿(mǎn)足社會(huì)系統(tǒng)風(fēng)險(xiǎn)演化相變的臨界態(tài)分析需求。如何建模感知測(cè)繪、信息生成、信息傳播,識(shí)別與調(diào)控復(fù)雜社會(huì)系統(tǒng)安全風(fēng)險(xiǎn)的相變點(diǎn),是保障智能算法系統(tǒng)性安全的關(guān)鍵科學(xué)問(wèn)題。
研究方向建議
圍繞智能算法安全相關(guān)基礎(chǔ)理論、關(guān)鍵技術(shù)及應(yīng)用需求,中國(guó)科學(xué)院計(jì)算技術(shù)研究所部署設(shè)立了智能算法安全重點(diǎn)實(shí)驗(yàn)室,旨在重點(diǎn)突破TRC范式面臨的重大科學(xué)問(wèn)題,服務(wù)國(guó)家在智能算法安全治理和網(wǎng)絡(luò)空間社會(huì)治理兩大需求。開(kāi)展上述方向研究,不僅需要學(xué)術(shù)界綜合利用多學(xué)科交叉理論技術(shù),更需要產(chǎn)業(yè)、政府部門(mén)提供實(shí)際應(yīng)用和業(yè)務(wù)需求,各方共同構(gòu)建新一代人工智能安全治理框架。本部分依據(jù)智能算法安全的TRC內(nèi)涵,針對(duì)前述3個(gè)科學(xué)問(wèn)題,建議體系性地加強(qiáng)7項(xiàng)關(guān)鍵理論與技術(shù)研究,以期得到相關(guān)領(lǐng)域研究者與社會(huì)各界的關(guān)注,共同推動(dòng)智能算法安全的持續(xù)發(fā)展。7個(gè)研究布局建議依據(jù)TRC范式體系性的提出,不僅為已出現(xiàn)的研究領(lǐng)域提供了新的研究思路并將它們聯(lián)系起來(lái),同時(shí)指出了學(xué)術(shù)界仍未關(guān)注到的研究領(lǐng)域。
可信判定理論為智能算法安全的基礎(chǔ)理論支撐6項(xiàng)關(guān)鍵技術(shù)。針對(duì)智能算法面臨的模型不穩(wěn)定、數(shù)據(jù)不完備、場(chǎng)景突變等挑戰(zhàn),研究建立深度學(xué)習(xí)的數(shù)學(xué)原理,形成對(duì)模型在優(yōu)化過(guò)程中收斂性的判定;研究建立因果學(xué)習(xí)理論,形成模型對(duì)不完備數(shù)據(jù)適應(yīng)性的判定;研究建立可信學(xué)習(xí)理論,形成對(duì)模型在可變及對(duì)抗環(huán)境中泛化性的判定。
可信機(jī)制嵌入技術(shù)為安全增強(qiáng)提供基礎(chǔ)性方法。針對(duì)環(huán)境被動(dòng)性變化導(dǎo)致的安全問(wèn)題,研究先驗(yàn)知識(shí)嵌入技術(shù),實(shí)現(xiàn)對(duì)智能算法內(nèi)生機(jī)理的安全增強(qiáng);針對(duì)環(huán)境中主動(dòng)性對(duì)抗攻擊導(dǎo)致的安全問(wèn)題,研究防御機(jī)制嵌入技術(shù),實(shí)現(xiàn)對(duì)智能算法防御能力的加固增強(qiáng);基于價(jià)值觀(guān)可計(jì)算度量技術(shù),建立可信價(jià)值觀(guān)嵌入方法,實(shí)現(xiàn)應(yīng)用性安全增強(qiáng)。
社會(huì)域風(fēng)險(xiǎn)可計(jì)算度量技術(shù)為應(yīng)用性安全建立度量標(biāo)準(zhǔn)。旨在衡量算法與每一個(gè)用戶(hù)交互的過(guò)程中,是否符合倫理道德和法律的合規(guī)性。針對(duì)應(yīng)用場(chǎng)景多變和人類(lèi)價(jià)值觀(guān)(例如法律法規(guī)、道德標(biāo)準(zhǔn)等)難以量化所造成的度量困難,通過(guò)建立度量大模型,對(duì)算法應(yīng)用中出現(xiàn)的風(fēng)險(xiǎn)案例進(jìn)行基于語(yǔ)義的評(píng)價(jià)。
智能算法黑箱監(jiān)測(cè)技術(shù)可向內(nèi)支撐內(nèi)生性安全評(píng)估、向外延展到系統(tǒng)性安全評(píng)估。基于模型碰撞的意圖識(shí)別,推斷模型內(nèi)在機(jī)理,為應(yīng)用風(fēng)險(xiǎn)判定奠定重要基礎(chǔ);基于用戶(hù)模擬的風(fēng)險(xiǎn)發(fā)現(xiàn),從宏觀(guān)層面發(fā)現(xiàn)算法導(dǎo)致的隱私泄露、“信息繭房”、公平性等應(yīng)用風(fēng)險(xiǎn);基于紅隊(duì)測(cè)試的案例生成,面向特定的度量指標(biāo),構(gòu)造或挖掘違反度量指標(biāo)的樣例,作為判定的取證樣例。
價(jià)值觀(guān)對(duì)齊技術(shù)依據(jù)可計(jì)算度量技術(shù)和可信嵌入技術(shù),實(shí)現(xiàn)智能算法應(yīng)用性安全增強(qiáng)。包括事前的全局對(duì)齊訓(xùn)練與事后的局部對(duì)齊編輯相結(jié)合的范式。在模型發(fā)布前,根據(jù)度量模型,通過(guò)監(jiān)督微調(diào)、人類(lèi)反饋強(qiáng)化學(xué)習(xí)、AI反饋強(qiáng)化學(xué)習(xí)、基于規(guī)則的獎(jiǎng)勵(lì)模型等方式進(jìn)行智能算法和價(jià)值觀(guān)的對(duì)齊訓(xùn)練;在風(fēng)險(xiǎn)發(fā)生后,根據(jù)找到的違反度量指標(biāo)樣例,通過(guò)對(duì)齊編輯、神經(jīng)元定位及修復(fù)等方式,修復(fù)特定性錯(cuò)誤。
人機(jī)共生智能系統(tǒng)演化模擬技術(shù)為開(kāi)展系統(tǒng)性安全研究建立前提。建立復(fù)雜社會(huì)認(rèn)知模擬系統(tǒng),并設(shè)計(jì)博弈效用度量及其動(dòng)態(tài)評(píng)估方法。建立微觀(guān)個(gè)性化與宏觀(guān)群體化相結(jié)合的社會(huì)域安全度量可計(jì)算方法,探索觀(guān)點(diǎn)、立場(chǎng)、情感、價(jià)值觀(guān)等因素的量化體系,形成體系化的復(fù)雜系統(tǒng)博弈效用評(píng)估標(biāo)準(zhǔn)與評(píng)估模型。提出對(duì)真實(shí)系統(tǒng)進(jìn)行模擬對(duì)齊的方式,評(píng)估智能算法系統(tǒng)性安全。
人機(jī)共生智能系統(tǒng)臨界點(diǎn)感知與調(diào)控技術(shù)是系統(tǒng)性安全評(píng)估與增強(qiáng)的核心技術(shù)。通過(guò)脆弱點(diǎn)發(fā)現(xiàn)與多模態(tài)可控內(nèi)容生成相結(jié)合,增強(qiáng)算法博弈下的系統(tǒng)性安全。探索智能算法對(duì)復(fù)雜社會(huì)系統(tǒng)相變點(diǎn)的干預(yù)機(jī)制,構(gòu)建社會(huì)系統(tǒng)脆弱點(diǎn)感知發(fā)現(xiàn)和系統(tǒng)風(fēng)險(xiǎn)調(diào)控的關(guān)鍵技術(shù)鏈,形成具備對(duì)算法惡意介入社會(huì)系統(tǒng)的防御手段,以及算法介入的社會(huì)系統(tǒng)調(diào)控手段,實(shí)現(xiàn)復(fù)雜社會(huì)系統(tǒng)風(fēng)險(xiǎn)相變點(diǎn)的識(shí)別與調(diào)控。
智能算法安全建議與未來(lái)展望
隨著人工智能技術(shù)的快速發(fā)展并在不同行業(yè)領(lǐng)域廣泛產(chǎn)生顛覆性的應(yīng)用,智能算法的安全問(wèn)題也愈發(fā)成為人工智能發(fā)展中的關(guān)鍵瓶頸。既需要結(jié)合實(shí)際需求場(chǎng)景解決智能算法所引發(fā)的數(shù)據(jù)、模型、應(yīng)用等實(shí)際問(wèn)題,也需要重視智能算法安全的基礎(chǔ)理論研究以及學(xué)科建設(shè)工作。雖然科技發(fā)展伴隨安全風(fēng)險(xiǎn),但相信憑借各方的高度關(guān)注、全球協(xié)作、持續(xù)不懈,這把人工智能倫理與安全的達(dá)摩克利斯之劍,將最終被人類(lèi)所駕馭。在我國(guó)加速推動(dòng)新一代人工智能發(fā)展的戰(zhàn)略布局中,要重視與智能算法安全相關(guān)的4個(gè)方面工作。
夯實(shí)基礎(chǔ)理論。智能算法安全的核心矛盾及3個(gè)科學(xué)問(wèn)題對(duì)經(jīng)典的計(jì)算復(fù)雜性理論、復(fù)雜系統(tǒng)理論、人工智能安全與倫理研究提出了全新挑戰(zhàn),如何在計(jì)算視角下推動(dòng)這些理論的發(fā)展,并最終匯聚夯實(shí)智能算法安全的理論基礎(chǔ)是關(guān)鍵。相關(guān)理論研究不僅是建立智能算法安全的基石,也將促進(jìn)傳統(tǒng)計(jì)算理論在智能化時(shí)代變革發(fā)展。
促進(jìn)學(xué)科交叉。智能算法安全將傳統(tǒng)的信息安全拓寬到更廣泛的社會(huì)域人機(jī)共生智能系統(tǒng)安全。相關(guān)研究涉及計(jì)算、智能、安全、倫理、法律及社會(huì)科學(xué)相關(guān)的多個(gè)學(xué)科領(lǐng)域,需要跨學(xué)科交叉共同研究,建立基于多學(xué)科基礎(chǔ)的技術(shù)解決方案。與此同時(shí),要推動(dòng)國(guó)內(nèi)外同行交流合作,共同形成全球人工智能的治理框架并理性發(fā)聲,從而在新一輪科技革命中掌握一定話(huà)語(yǔ)權(quán)。
推進(jìn)算法安全產(chǎn)業(yè)閉環(huán)。借助商業(yè)模式創(chuàng)新,提升算法安全技術(shù)突破在算法服務(wù)中的應(yīng)用速度與質(zhì)量。鼓勵(lì)提供算法安全服務(wù)的企業(yè),通過(guò)算法可信增強(qiáng)技術(shù)與算法合規(guī)輔導(dǎo)服務(wù),為企業(yè)節(jié)省安全維護(hù)成本、提升業(yè)務(wù)質(zhì)量、實(shí)現(xiàn)商業(yè)價(jià)值,進(jìn)而獲取相應(yīng)的商業(yè)回報(bào)。依托于核心技術(shù)突破,借助商業(yè)模式的推動(dòng),靈活快速地推動(dòng)科技成果的落地應(yīng)用。
加快人才培養(yǎng)。智能算法安全是一個(gè)全新的、快速發(fā)展的學(xué)科領(lǐng)域,應(yīng)加快培養(yǎng)該領(lǐng)域的科研團(tuán)隊(duì)力量,為優(yōu)秀青年學(xué)者提供穩(wěn)定的科研資源支持。同時(shí),應(yīng)盡快制定本領(lǐng)域研究生培養(yǎng)方案,探討在計(jì)算機(jī)、人工智能和大數(shù)據(jù)相關(guān)學(xué)科領(lǐng)域設(shè)立智能算法安全本科專(zhuān)業(yè)的培養(yǎng)方案。
(作者:程學(xué)旗、陳薇、沈華偉、山世光、陳熙霖、李國(guó)杰,中國(guó)科學(xué)院計(jì)算技術(shù)研究所智能算法安全重點(diǎn)實(shí)驗(yàn)室 中國(guó)科學(xué)院大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院?!吨袊?guó)科學(xué)院院刊》供稿)







