大型數(shù)據(jù)集可糾正AI在視覺(jué)任務(wù)中的偏見(jiàn)
據(jù)最新一期《自然》發(fā)表的研究,科學(xué)家建立了超過(guò)一萬(wàn)張人類圖像的數(shù)據(jù)庫(kù),以評(píng)估并糾正人工智能(AI)模型在視覺(jué)領(lǐng)域存在的偏見(jiàn)。這一“公平的以人類為中心的圖像基準(zhǔn)”(FHIBE)由索尼AI開發(fā),采用符合倫理手段獲取、基于用戶同意的數(shù)據(jù)集,可精確評(píng)估以人為中心的計(jì)算機(jī)視覺(jué)任務(wù),從而識(shí)別、糾正偏見(jiàn)和刻板印象。團(tuán)隊(duì)認(rèn)為,這是邁向更可信AI的重要一步。
計(jì)算機(jī)視覺(jué)廣泛應(yīng)用于自動(dòng)駕駛車輛、面部識(shí)別等技術(shù)領(lǐng)域。許多計(jì)算機(jī)視覺(jué)使用的AI模型,其訓(xùn)練數(shù)據(jù)存在缺陷,可能未經(jīng)同意收集,經(jīng)常來(lái)自網(wǎng)絡(luò)大規(guī)模圖像抓取。人們也發(fā)現(xiàn),AI模型可能會(huì)反映出延續(xù)性別歧視、種族歧視或其他刻板印象的偏見(jiàn)。
此次,研究團(tuán)隊(duì)構(gòu)建了一個(gè)圖像數(shù)據(jù)集,在同意機(jī)制、多樣性和隱私等多方面采取了最佳實(shí)踐。FHIBE包含81個(gè)國(guó)家和地區(qū)中1981名個(gè)體的10318張圖像。該數(shù)據(jù)庫(kù)包括了人口統(tǒng)計(jì)和生理特征的全面標(biāo)注,包括年齡、代詞類別、祖先血統(tǒng)、發(fā)色與膚色等。參與者獲得了關(guān)于項(xiàng)目和潛在風(fēng)險(xiǎn)的詳細(xì)信息,幫助他們做出知情同意,過(guò)程符合全面數(shù)據(jù)保護(hù)法規(guī)。這些特征使該數(shù)據(jù)庫(kù)成為評(píng)估AI偏見(jiàn)的可靠資源。
團(tuán)隊(duì)將FHIBE和27個(gè)現(xiàn)有以人類為中心的計(jì)算機(jī)視覺(jué)應(yīng)用數(shù)據(jù)集做了比較,發(fā)現(xiàn)FHIBE數(shù)據(jù)集在多樣性與AI評(píng)估的可靠同意方面標(biāo)準(zhǔn)更高。它還有效減少了偏見(jiàn),包含的參與者自我申報(bào)標(biāo)注信息超過(guò)其他數(shù)據(jù)集,還包括了相當(dāng)比例通常代表性不足的人群。該數(shù)據(jù)集可用于評(píng)估現(xiàn)有的AI模型在計(jì)算機(jī)視覺(jué)任務(wù)中的表現(xiàn),能揭示更多此前無(wú)法了解的偏見(jiàn)。
不過(guò),團(tuán)隊(duì)也承認(rèn),目前創(chuàng)建數(shù)據(jù)集的過(guò)程充滿挑戰(zhàn)且成本十分高昂。
【總編輯圈點(diǎn)】
本報(bào)近期推出了多篇關(guān)于AI易出現(xiàn)偏差與其尚不可靠的相關(guān)報(bào)道。本文的這項(xiàng)研究,則是一次對(duì)AI倫理建設(shè)具有標(biāo)桿意義的實(shí)踐。它最核心的價(jià)值在于,將“公平”這一抽象原則,轉(zhuǎn)化為一套可操作、可驗(yàn)證的技術(shù)標(biāo)準(zhǔn)與工作流程。AI的偏見(jiàn)已經(jīng)是行業(yè)頑疾,但現(xiàn)在可能有了一把標(biāo)準(zhǔn)量尺,使得量化評(píng)估與比較不同模型的公平性成為可能,這將直接推動(dòng)算法的研發(fā)與優(yōu)化。盡管其高昂成本提示了推廣的難度,但這一探索本身,正是推動(dòng)AI從單純追求性能強(qiáng)大,轉(zhuǎn)向值得人類托付之伙伴的關(guān)鍵點(diǎn)。(記者張夢(mèng)然)







