色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

分享到:
鏈接已復(fù)制

LANGUAGES

新聞

新聞直播 要聞 國(guó)際 軍事 政協(xié) 政務(wù) 圖片 視頻

財(cái)經(jīng)

財(cái)經(jīng) 金融 證券 汽車(chē) 科技 消費(fèi) 能源 地產(chǎn) 農(nóng)業(yè)

觀點(diǎn)

觀點(diǎn) 理論 智庫(kù) 中國(guó)3分鐘 中國(guó)訪(fǎng)談 中國(guó)網(wǎng)評(píng) 外媒觀察 中國(guó)關(guān)鍵詞

文化

文化 文創(chuàng) 藝術(shù) 時(shí)尚 旅游 鐵路 悅讀 民藏 中醫(yī) 中國(guó)瓷

國(guó)情

國(guó)情 助殘 一帶一路 海洋 草原 灣區(qū) 聯(lián)盟 心理 老年

首頁(yè)> 中國(guó)發(fā)展門(mén)戶(hù)網(wǎng)> 發(fā)展報(bào)告> 調(diào)查報(bào)告>

人工智能驅(qū)動(dòng)的生命科學(xué)研究新范式

2024-02-07 14:25

來(lái)源:中國(guó)網(wǎng)·中國(guó)發(fā)展門(mén)戶(hù)網(wǎng)

分享到:
鏈接已復(fù)制
字體:

中國(guó)網(wǎng)/中國(guó)發(fā)展門(mén)戶(hù)網(wǎng)訊 2007年,圖靈獎(jiǎng)得主吉姆·格雷(Jim Gray)提出了科學(xué)研究的四類(lèi)范式,這些范式基本上被科學(xué)界廣泛認(rèn)可。第一范式是實(shí)驗(yàn)(經(jīng)驗(yàn))科學(xué),主要通過(guò)實(shí)驗(yàn)或經(jīng)驗(yàn)來(lái)描述自然現(xiàn)象并總結(jié)規(guī)律;第二范式是理論科學(xué),科學(xué)家通過(guò)數(shù)學(xué)模型進(jìn)行歸納總結(jié)形成科學(xué)理論;第三范式是計(jì)算科學(xué),利用計(jì)算機(jī)對(duì)科學(xué)實(shí)驗(yàn)進(jìn)行模擬仿真;第四范式是數(shù)據(jù)科學(xué),利用儀器收集或仿真計(jì)算產(chǎn)生的大量數(shù)據(jù)進(jìn)行分析與知識(shí)提取??茖W(xué)研究的范式變革體現(xiàn)了人類(lèi)對(duì)宇宙探索的深度、廣度、方式和效率的演進(jìn)。

生命科學(xué)的發(fā)展經(jīng)歷了多個(gè)階段,其研究范式的演進(jìn)也有其獨(dú)特的學(xué)科屬性。在生命科學(xué)早期發(fā)展階段,生物學(xué)家主要通過(guò)觀察不同生物體的形態(tài)和行為模式來(lái)探索生物存在的一般形式和演化的共同規(guī)律,這一階段的代表是達(dá)爾文,通過(guò)全球考察積累了大量物種的表象描述資料,并以此提出了進(jìn)化論。從20世紀(jì)中葉開(kāi)始,以DNA雙螺旋結(jié)構(gòu)的揭示為標(biāo)志,生命科學(xué)研究進(jìn)入了分子生物學(xué)時(shí)代,生物學(xué)家開(kāi)始在更深層次水平研究生命的基本組成和運(yùn)作規(guī)律。在這一階段,生物學(xué)家仍主要通過(guò)對(duì)生物現(xiàn)象的觀察和實(shí)驗(yàn)來(lái)總結(jié)規(guī)律與知識(shí)。隨著生命科學(xué)的進(jìn)一步發(fā)展和新型生物技術(shù)的快速涌現(xiàn),科學(xué)家可以對(duì)生命科學(xué)在不同層級(jí)和不同分辨率下進(jìn)行更為廣泛的探索,這也使得生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆發(fā)性增長(zhǎng)。通過(guò)高通量、多維度組學(xué)數(shù)據(jù)分析與實(shí)驗(yàn)科學(xué)結(jié)合的方式對(duì)生物過(guò)程進(jìn)行更加精細(xì)的描述和解析,成為現(xiàn)代生命科學(xué)研究的常態(tài)。

然而,生命系統(tǒng)具有多層面的復(fù)雜性,涵蓋了從分子、細(xì)胞到個(gè)體不同層次,以及個(gè)體間的種群關(guān)系、機(jī)體與環(huán)境的互作關(guān)系,展現(xiàn)出多層級(jí)、高維度、高度互聯(lián)、動(dòng)態(tài)調(diào)控的特點(diǎn)?,F(xiàn)有的實(shí)驗(yàn)科學(xué)研究范式在面對(duì)如此復(fù)雜的生命系統(tǒng)時(shí),往往只能從特定尺度對(duì)有限數(shù)量的樣本進(jìn)行觀察描述和研究,難以全面理解生物網(wǎng)絡(luò)的運(yùn)作機(jī)制;并且高度依賴(lài)人的經(jīng)驗(yàn)和先驗(yàn)知識(shí)對(duì)特定生物關(guān)系進(jìn)行探索,難以從大規(guī)模、多樣性、高維度數(shù)據(jù)中高效提取隱匿的關(guān)聯(lián)和機(jī)制。面對(duì)生命現(xiàn)象中復(fù)雜的非線(xiàn)性關(guān)系和難以預(yù)測(cè)的特征,人工智能(AI)技術(shù)展現(xiàn)出強(qiáng)大的能力,并且已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)、基因調(diào)控網(wǎng)絡(luò)模擬解析方面表現(xiàn)出顛覆性的應(yīng)用潛力,將生命科學(xué)研究由實(shí)驗(yàn)科學(xué)為主的第一范式推向以人工智能驅(qū)動(dòng)的生命科學(xué)研究新范式——第五范式(圖1)。


本文將從AI驅(qū)動(dòng)的生命科學(xué)研究典型范例、生命科學(xué)研究新范式的內(nèi)涵和關(guān)鍵要素、新范式賦能的生命科學(xué)研究前沿及我國(guó)面臨的挑戰(zhàn)3個(gè)方面進(jìn)行系統(tǒng)論述。

人工智能驅(qū)動(dòng)的生命科學(xué)研究典型范例

生命是一個(gè)多層次、多尺度、動(dòng)態(tài)互聯(lián)、相互影響的復(fù)雜系統(tǒng)。在面對(duì)生命現(xiàn)象的極端復(fù)雜性、多尺度跨越和時(shí)空動(dòng)態(tài)變化時(shí),傳統(tǒng)的生命科學(xué)研究范式往往只能從局部入手,通過(guò)實(shí)驗(yàn)驗(yàn)證或有限層次的組學(xué)數(shù)據(jù)分析建立有限生物分子和表型的關(guān)聯(lián)關(guān)系。然而,即使花費(fèi)巨大成本,也通常只能發(fā)現(xiàn)特定情境下的單一線(xiàn)性關(guān)聯(lián)機(jī)制,與生命活動(dòng)的非線(xiàn)性屬性在復(fù)雜度上存在顯著差異,難以全面理解整個(gè)網(wǎng)絡(luò)的運(yùn)作機(jī)制。

AI技術(shù),尤其是深度學(xué)習(xí)和預(yù)訓(xùn)練大模型等技術(shù),以其優(yōu)越的模式識(shí)別和特征提取能力,能夠在龐大的參數(shù)堆疊情況下超越人類(lèi)理性推理能力,從數(shù)據(jù)中更好地理解復(fù)雜生物系統(tǒng)中的規(guī)律?,F(xiàn)代生物技術(shù)的不斷發(fā)展,使生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)跨越式增長(zhǎng),在過(guò)去全球范圍生命科學(xué)研究中,人類(lèi)已經(jīng)積累了大量基于實(shí)驗(yàn)描述和驗(yàn)證的數(shù)據(jù),為AI破解生命科學(xué)底層規(guī)律創(chuàng)造了基礎(chǔ)]。當(dāng)擁有充足且高質(zhì)量的數(shù)據(jù)和適配于生命科學(xué)的算法時(shí),AI模型就能夠在多層次的海量數(shù)據(jù)中以“低維”數(shù)據(jù)預(yù)測(cè)“高維”信息及規(guī)律,實(shí)現(xiàn)從基因序列和表達(dá)等低維數(shù)據(jù)到細(xì)胞、機(jī)體等高維復(fù)雜生物過(guò)程規(guī)律揭示的跨越,解析復(fù)雜的非線(xiàn)性關(guān)系,如生物大分子結(jié)構(gòu)生成規(guī)律、基因表達(dá)調(diào)控機(jī)制,甚至個(gè)體發(fā)育、衰老等多因素交叉的復(fù)雜生物系統(tǒng)中的底層規(guī)律。在此發(fā)展趨勢(shì)下,近年來(lái)生命科學(xué)領(lǐng)域涌現(xiàn)出了蛋白質(zhì)結(jié)構(gòu)解析、基因調(diào)控規(guī)律解析等一批AI驅(qū)動(dòng)生命科學(xué)研究發(fā)展的典型范例。

蛋白質(zhì)結(jié)構(gòu)解析范例

蛋白質(zhì)作為生物體內(nèi)關(guān)鍵功能的執(zhí)行者,其結(jié)構(gòu)直接影響運(yùn)輸、催化、結(jié)合和免疫功能等重要的生物過(guò)程。雖然測(cè)序技術(shù)可以揭示蛋白質(zhì)所包含的氨基酸序列,但任何一個(gè)已知氨基酸序列的蛋白質(zhì)鏈有可能折疊成天文數(shù)字中的任何一種可能構(gòu)象,這使得準(zhǔn)確解析蛋白質(zhì)結(jié)構(gòu)成為長(zhǎng)期以來(lái)的挑戰(zhàn)。利用傳統(tǒng)技術(shù)如核磁共振、X射線(xiàn)晶體分析、冷凍電子顯微鏡等解析已知序列的蛋白質(zhì)結(jié)構(gòu)方法,需要數(shù)年時(shí)間才能描繪出單個(gè)蛋白質(zhì)的形狀,昂貴耗時(shí)且不能保證成功解析其結(jié)構(gòu)。因此,捕獲蛋白質(zhì)折疊的底層規(guī)律從而實(shí)現(xiàn)對(duì)蛋白質(zhì)結(jié)構(gòu)的精準(zhǔn)預(yù)測(cè),一直是結(jié)構(gòu)生物學(xué)領(lǐng)域最重要的挑戰(zhàn)之一。

AlphaFold 2利用基于注意力機(jī)制的深度學(xué)習(xí)算法,對(duì)大量蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)進(jìn)行訓(xùn)練,并結(jié)合物理學(xué)、化學(xué)和生物學(xué)的先驗(yàn)知識(shí),構(gòu)建了包含特征提取、編碼、解碼模塊的蛋白質(zhì)結(jié)構(gòu)解析模型。在2020年國(guó)際蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)競(jìng)賽(CASP14)中,AlphaFold 2取得了矚目的成績(jī),其蛋白質(zhì)三維結(jié)構(gòu)預(yù)測(cè)準(zhǔn)確性甚至可與實(shí)驗(yàn)解析的結(jié)果相媲美。這一突破為生命科學(xué)領(lǐng)域帶來(lái)了全新的視角和前所未有的機(jī)遇,主要體現(xiàn)在3點(diǎn)。

對(duì)藥物發(fā)現(xiàn)領(lǐng)域產(chǎn)生了直接影響。大多數(shù)藥物通過(guò)與體內(nèi)蛋白質(zhì)特殊結(jié)構(gòu)域的結(jié)合而引發(fā)蛋白質(zhì)功能的變化,AlphaFold 2能夠快速計(jì)算出海量目標(biāo)蛋白質(zhì)的結(jié)構(gòu),從而有針對(duì)性地設(shè)計(jì)藥物以有效地與這些蛋白質(zhì)結(jié)合。

對(duì)蛋白質(zhì)的理性設(shè)計(jì)提供了新的可能性。一旦AI對(duì)蛋白質(zhì)折疊的底層規(guī)律有了深刻理解,就可以利用這一知識(shí)設(shè)計(jì)出折疊成所需結(jié)構(gòu)的蛋白質(zhì)序列。這使得生物學(xué)家可以根據(jù)需求自由設(shè)計(jì)和改造蛋白質(zhì)或酶的結(jié)構(gòu),如設(shè)計(jì)更高活性的基因編輯酶,甚至是自然界中不存在的蛋白質(zhì)結(jié)構(gòu)。同時(shí)也推動(dòng)了人們對(duì)基因編碼信息在蛋白質(zhì)層面結(jié)構(gòu)投射規(guī)律的理解,并將大幅提高人類(lèi)對(duì)生命的改造能力。

AlphaFold 2徹底改變蛋白質(zhì)結(jié)構(gòu)解析領(lǐng)域的研究范式。從只能通過(guò)費(fèi)時(shí)費(fèi)力的傳統(tǒng)實(shí)驗(yàn)技術(shù)解析蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)變?yōu)榈烷T(mén)檻、高精度、高通量地預(yù)測(cè)蛋白質(zhì)三維結(jié)構(gòu)的新范式,證明通過(guò)將蛋白質(zhì)知識(shí)和AI技術(shù)相結(jié)合,可以提取和學(xué)習(xí)到高維、復(fù)雜的知識(shí),促進(jìn)對(duì)蛋白質(zhì)物理結(jié)構(gòu)和功能的更深入理解。

基因調(diào)控規(guī)律解析范例

人類(lèi)基因組計(jì)劃被譽(yù)為20世紀(jì)人類(lèi)三大科學(xué)計(jì)劃之一,揭開(kāi)了生命奧秘的序幕。盡管編碼生命個(gè)體的遺傳信息存儲(chǔ)在DNA序列中,但每個(gè)細(xì)胞的命運(yùn)和表型卻因其獨(dú)特的時(shí)空背景而千差萬(wàn)別。這種復(fù)雜的生命過(guò)程由精細(xì)的基因表達(dá)調(diào)控系統(tǒng)所控制,而探索生命普遍存在的基因調(diào)控機(jī)制是繼人類(lèi)基因組計(jì)劃之后最為重要的生命科學(xué)問(wèn)題之一。不同細(xì)胞的基因表達(dá)譜是理解生物系統(tǒng)內(nèi)基因調(diào)控活動(dòng)的理想窗口。然而,僅通過(guò)生物學(xué)實(shí)驗(yàn)全面解讀基因調(diào)控機(jī)制,需要捕獲不同生物個(gè)體的不同細(xì)胞類(lèi)型在不同環(huán)境背景下的對(duì)照試驗(yàn)來(lái)觀察。傳統(tǒng)生物信息分析方法只能處理少量數(shù)據(jù),對(duì)大規(guī)模、高維度且缺乏準(zhǔn)確標(biāo)注的生物組大數(shù)據(jù)難以捕捉數(shù)據(jù)中復(fù)雜的非線(xiàn)性關(guān)系。

近年來(lái),自然語(yǔ)言處理技術(shù)的不斷突破,特別是大語(yǔ)言模型的迅猛發(fā)展,能夠通過(guò)訓(xùn)練語(yǔ)料數(shù)據(jù)使模型具有理解人類(lèi)語(yǔ)言描述知識(shí)的能力,為解決這一領(lǐng)域問(wèn)題帶來(lái)了新思路。國(guó)際多個(gè)研究團(tuán)隊(duì)借鑒大語(yǔ)言模型的訓(xùn)練思路,相繼基于數(shù)以千萬(wàn)計(jì)的人類(lèi)單細(xì)胞轉(zhuǎn)錄組譜數(shù)據(jù)和龐大的算力資源,利用Transformer等先進(jìn)算法和多種生物學(xué)知識(shí),構(gòu)建了多個(gè)具有理解基因動(dòng)態(tài)關(guān)系能力的生命基礎(chǔ)大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。這些生命基礎(chǔ)大模型以基因表達(dá)等底層生命活動(dòng)信息為訓(xùn)練基礎(chǔ),利用機(jī)器來(lái)學(xué)習(xí)理解這些“低維”的生命科學(xué)數(shù)據(jù)與復(fù)雜“高維”的基因表達(dá)調(diào)控網(wǎng)絡(luò)、細(xì)胞命運(yùn)轉(zhuǎn)變等底層生命機(jī)制之間的關(guān)聯(lián)性和對(duì)應(yīng)規(guī)律,實(shí)現(xiàn)以低維數(shù)據(jù)對(duì)高維信息的有效模擬和預(yù)測(cè)。這種對(duì)基因表達(dá)調(diào)控網(wǎng)絡(luò)的模擬可以在廣泛的下游任務(wù)中表現(xiàn)出卓越性能,為深入理解基因調(diào)控規(guī)律提供了全新的途徑。

現(xiàn)有的AI驅(qū)動(dòng)生命科學(xué)研究的成功案例向我們證明,面對(duì)更深入、更系統(tǒng)的生命科學(xué)問(wèn)題,AI有望突破傳統(tǒng)研究方法難以解決的困境、構(gòu)建從基礎(chǔ)生物層次到整個(gè)生命系統(tǒng)的投射理論體系,并進(jìn)一步推動(dòng)生命科學(xué)向更高階段發(fā)展,開(kāi)啟生命科學(xué)研究的新范式。

生命科學(xué)研究新范式的內(nèi)涵和關(guān)鍵要素

隨著生物技術(shù)的不斷進(jìn)步、生命科學(xué)數(shù)據(jù)的快速增長(zhǎng)、AI技術(shù)的飛速發(fā)展及其與生命領(lǐng)域的深度交叉融合,AI展示出了對(duì)生命科學(xué)知識(shí)的深入理解和泛化能力,不僅提高了生命科學(xué)的研究高度和廣度,也促使生命科學(xué)研究由實(shí)驗(yàn)科學(xué)為主的第一范式,跨越進(jìn)入AI驅(qū)動(dòng)的生命科學(xué)研究新范式(第五范式,以下簡(jiǎn)稱(chēng)“新范式”)。

通過(guò)深入剖析AI驅(qū)動(dòng)生命科學(xué)研究的典型范例,筆者認(rèn)為,生命科學(xué)研究的新范式正如一臺(tái)智能化的新能源汽車(chē),對(duì)標(biāo)新能源汽車(chē)的電池系統(tǒng)、電控系統(tǒng)、電機(jī)系統(tǒng)、輔助駕駛系統(tǒng)、底盤(pán)系統(tǒng)等核心技術(shù),新范式應(yīng)具備生命科學(xué)大數(shù)據(jù)、智能算法模型、算力平臺(tái)、專(zhuān)家先驗(yàn)知識(shí)和交叉研究團(tuán)隊(duì)五大關(guān)鍵要素(圖2)。猶如電池系統(tǒng)為車(chē)輛提供能量,生命科學(xué)大數(shù)據(jù)為科學(xué)研究提供基礎(chǔ)資源;算法模型則像智能電控系統(tǒng),賦能深入理解生物系統(tǒng)的運(yùn)行機(jī)制;算力平臺(tái)可比喻為電機(jī)系統(tǒng),負(fù)責(zé)處理海量的科學(xué)數(shù)據(jù)和復(fù)雜的計(jì)算任務(wù);專(zhuān)家先驗(yàn)知識(shí)則像輔助駕駛系統(tǒng),為科學(xué)家提供方向引領(lǐng)和實(shí)施經(jīng)驗(yàn);交叉研究團(tuán)隊(duì)類(lèi)似于底盤(pán)系統(tǒng),負(fù)責(zé)整合不同領(lǐng)域的知識(shí)和技能,通過(guò)跨學(xué)科合作提高研究效率,推動(dòng)生命科學(xué)的發(fā)展。

關(guān)鍵要素一:生命科學(xué)大數(shù)據(jù)

生命科學(xué)大數(shù)據(jù)是新范式“汽車(chē)”的“電池”系統(tǒng)。隨著新型生物技術(shù)的發(fā)展,具有多模態(tài)、多維度、分布分散、關(guān)聯(lián)隱匿、多層次交匯等特點(diǎn)的生命科學(xué)大數(shù)據(jù)逐漸形成;只有對(duì)生命科學(xué)大數(shù)據(jù)進(jìn)行有效整合并利用創(chuàng)新AI技術(shù)充分挖掘數(shù)據(jù),才能夠打破人類(lèi)科學(xué)家的認(rèn)知局限、促進(jìn)新發(fā)現(xiàn)的產(chǎn)生并拓展生命科學(xué)的探索范圍。例如醫(yī)療視覺(jué)大模型,通過(guò)整合多來(lái)源、多模態(tài)、多任務(wù)的醫(yī)療圖像數(shù)據(jù),實(shí)現(xiàn)了在少樣本和零樣本條件下的多種應(yīng)用;跨物種生命基礎(chǔ)大模型GeneCompass,通過(guò)有效整合全球開(kāi)源的單細(xì)胞數(shù)據(jù),在超過(guò)1.2億個(gè)單細(xì)胞的訓(xùn)練數(shù)據(jù)集上實(shí)現(xiàn)了對(duì)基因表達(dá)調(diào)控規(guī)律的全景式學(xué)習(xí)理解等多個(gè)生命科學(xué)問(wèn)題的分析。

關(guān)鍵要素二:智能算法模型

智能算法模型是新范式“汽車(chē)”的“電控”系統(tǒng)。從浩如煙海的生命科學(xué)大數(shù)據(jù)中涌現(xiàn)生命的新規(guī)律和新知識(shí),需要?jiǎng)?chuàng)新AI算法和模型;如何研發(fā)利用生命科學(xué)適配的AI算法、提取有效的生物特征、構(gòu)建大規(guī)模生物過(guò)程動(dòng)態(tài)模型,是當(dāng)前新范式的中心問(wèn)題。例如,Gerstein團(tuán)隊(duì)使用貝葉斯網(wǎng)絡(luò)算法預(yù)測(cè)蛋白質(zhì)相互作用的成果發(fā)表于Science,為經(jīng)典機(jī)器學(xué)習(xí)在生物信息領(lǐng)域發(fā)展奠定了基礎(chǔ);圖卷積神經(jīng)網(wǎng)絡(luò)算法被用于分析蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò)和基因調(diào)控網(wǎng)絡(luò)等生物分子網(wǎng)絡(luò),拓展了生命科學(xué)領(lǐng)域的研究方向;AlphaFold 2使用Transformer模型,能夠在高準(zhǔn)確度的基礎(chǔ)上快速計(jì)算出大量蛋白質(zhì)的結(jié)構(gòu),都展示出了AI算法模型在生命科學(xué)研究新范式中的重要性。

關(guān)鍵要素三:算力平臺(tái)

算力平臺(tái)是新范式“汽車(chē)”的“電機(jī)”系統(tǒng)。算力是實(shí)現(xiàn)AI運(yùn)行的基礎(chǔ),深度學(xué)習(xí)、大模型技術(shù)等適用于生命科學(xué)研究新范式的AI算法模型的不斷發(fā)展,使AI模型訓(xùn)練需要更強(qiáng)大、更高效的算力平臺(tái)支持。面向新范式,未來(lái)應(yīng)構(gòu)建能夠支撐AI賦能生命科學(xué)研究的硬件能力平臺(tái),包括建設(shè)高速大容量存儲(chǔ)系統(tǒng)、構(gòu)建高性能高吞吐量超級(jí)計(jì)算機(jī)、研發(fā)專(zhuān)門(mén)用于處理生命科學(xué)數(shù)據(jù)的芯片、設(shè)計(jì)用于加速生物模型推理和訓(xùn)練的專(zhuān)用處理器等,為生命科學(xué)研究提供高效、可靠的計(jì)算和處理能力,以應(yīng)對(duì)生命科學(xué)領(lǐng)域產(chǎn)生的海量數(shù)據(jù)、滿(mǎn)足生命科學(xué)領(lǐng)域復(fù)雜模型構(gòu)建的計(jì)算需求,保障AI在生命科學(xué)領(lǐng)域的應(yīng)用和創(chuàng)新。

關(guān)鍵要素四:專(zhuān)家先驗(yàn)知識(shí)

專(zhuān)家先驗(yàn)知識(shí)是新范式“汽車(chē)”的“輔助駕駛”系統(tǒng)。新范式下,已有的生命科學(xué)知識(shí)將為AI算法模型提供寶貴的訓(xùn)練約束條件、重要的背景和特征關(guān)系,幫助解釋和理解生命科學(xué)數(shù)據(jù)的復(fù)雜性、驗(yàn)證和優(yōu)化AI在生命科學(xué)領(lǐng)域的應(yīng)用;能夠在AI算法設(shè)計(jì)和模型構(gòu)建時(shí)發(fā)揮重要的指導(dǎo)作用,促進(jìn)更加準(zhǔn)確、高效地解決生命科學(xué)問(wèn)題,推動(dòng)生命科學(xué)研究向更深入、全面的方向發(fā)展。例如,通過(guò)嵌入生命科學(xué)專(zhuān)家先驗(yàn)知識(shí)和人類(lèi)注釋信息編碼,新型基因表達(dá)預(yù)訓(xùn)練大模型提高了對(duì)生物數(shù)據(jù)間復(fù)雜特征關(guān)聯(lián)關(guān)系的解釋?zhuān)故境龈鼮閮?yōu)異的模型表現(xiàn)。

關(guān)鍵要素五:交叉研究團(tuán)隊(duì)

交叉研究團(tuán)隊(duì)是新范式“汽車(chē)”的“底盤(pán)”系統(tǒng)。新范式下,一支由AI專(zhuān)家、數(shù)據(jù)科學(xué)家、生物學(xué)家和醫(yī)學(xué)家等組成的多學(xué)科交叉研究團(tuán)隊(duì)對(duì)于實(shí)現(xiàn)跨越式的生命科學(xué)發(fā)現(xiàn)至關(guān)重要。多元背景緊密協(xié)作的交叉研究團(tuán)隊(duì)能夠整合AI、生物學(xué)、醫(yī)學(xué)等領(lǐng)域的專(zhuān)業(yè)知識(shí),提供多元化的視角和方法,為全面理解和解決生命科學(xué)中的復(fù)雜機(jī)制問(wèn)題提供牢固基礎(chǔ),為創(chuàng)新性解決方案提供更多可能性,從而推動(dòng)生命科學(xué)領(lǐng)域的突破性發(fā)現(xiàn)和進(jìn)展。

新范式賦能的生命科學(xué)研究前沿及我國(guó)面臨的挑戰(zhàn)

傳統(tǒng)的研究范式對(duì)生命的探索如同管中窺豹,生物學(xué)家在生命科學(xué)的不同細(xì)分領(lǐng)域各自?shī)^戰(zhàn)。隨著新范式的不斷發(fā)展,生命科學(xué)研究將迎來(lái)以AI預(yù)測(cè)、指導(dǎo)、提出假說(shuō)、驗(yàn)證假設(shè)為特點(diǎn)的新型研究模態(tài),迸發(fā)出一批快速發(fā)展的生命科學(xué)新范式前沿研究方向,并展現(xiàn)出新范式變革帶來(lái)的發(fā)展增益。然而,在當(dāng)前條件下加速推進(jìn)我國(guó)生命科學(xué)研究新范式的建立和推廣,仍面臨一系列巨大的挑戰(zhàn)。

新范式賦能的生命科學(xué)研究前沿

結(jié)構(gòu)生物學(xué)。目前在結(jié)構(gòu)生物學(xué)領(lǐng)域,以AlphaFold為代表的AI應(yīng)用技術(shù)仍停留在“從序列到結(jié)構(gòu)”的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)和設(shè)計(jì)階段,還無(wú)法實(shí)現(xiàn)復(fù)雜生理?xiàng)l件下蛋白質(zhì)結(jié)構(gòu)和功能的模擬與預(yù)測(cè)。更高質(zhì)量、更大規(guī)模的蛋白質(zhì)數(shù)據(jù)和新型算法的出現(xiàn),將有望對(duì)不同生理狀態(tài)和時(shí)空條件下的生物大分子結(jié)構(gòu)和功能進(jìn)行系統(tǒng)解析,并實(shí)現(xiàn)蛋白質(zhì)“從序列到功能”甚至“從序列到多尺度相互作用”的智能化結(jié)構(gòu)解析與精細(xì)設(shè)計(jì)。

系統(tǒng)生物學(xué)。當(dāng)前的組學(xué)數(shù)據(jù)分析仍局限于較低維度的生物組學(xué)觀測(cè)水平,還未形成從基因水平到細(xì)胞水平甚至生物個(gè)體乃至群體組學(xué)水平的全維度觀測(cè)。新范式將融通多維度、多模態(tài)的生物大數(shù)據(jù)和專(zhuān)家先驗(yàn)知識(shí),提取生物表型的關(guān)鍵特征,構(gòu)建多尺度生物過(guò)程解析模型,還原復(fù)雜生物系統(tǒng)運(yùn)行的底層規(guī)律,形成基礎(chǔ)而廣泛適用的系統(tǒng)生物學(xué)研究新體系。

遺傳學(xué)。隨著多組學(xué)數(shù)據(jù)的積累和新型基因大模型的出現(xiàn),遺傳學(xué)研究已進(jìn)入新范式推動(dòng)的快速發(fā)展階段,基于基因表達(dá)譜數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練大模型有望成為解析基因調(diào)控規(guī)律、預(yù)測(cè)疾病靶點(diǎn)的有力工具,拓展遺傳學(xué)研究的探索邊界。

藥物設(shè)計(jì)開(kāi)發(fā)。隨著AlphaFold的出現(xiàn)和一批分子動(dòng)力學(xué)模型的發(fā)展,AI模型已經(jīng)被用于預(yù)測(cè)和篩選藥物候選分子。未來(lái)新范式將進(jìn)一步推動(dòng)該領(lǐng)域的發(fā)展,有望出現(xiàn)AI輔助的全流程藥物設(shè)計(jì)開(kāi)發(fā)體系,能夠自主完成藥物結(jié)構(gòu)和性質(zhì)的優(yōu)化設(shè)計(jì)、實(shí)現(xiàn)候選藥物的有效性和安全性模擬預(yù)測(cè)、生成藥物的高效合成和生產(chǎn)工藝方案,極大加速藥物的開(kāi)發(fā)和生產(chǎn)過(guò)程。

精準(zhǔn)醫(yī)學(xué)。計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和機(jī)器學(xué)習(xí)等AI技術(shù)已廣泛滲透到生物影像、醫(yī)學(xué)影像、疾病智能分析及靶點(diǎn)預(yù)測(cè)等精準(zhǔn)醫(yī)學(xué)子領(lǐng)域。例如,基于AI的診斷系統(tǒng)在準(zhǔn)確度上已經(jīng)可以媲美甚至在某些方面超過(guò)資深的臨床醫(yī)生。然而,現(xiàn)有的模型大多受制于數(shù)據(jù)的偏好性,存在魯棒性差、通用性低等問(wèn)題,隨著新范式驅(qū)動(dòng)的通用精準(zhǔn)醫(yī)學(xué)模型的出現(xiàn),將有助于更加快速準(zhǔn)確地診斷疾病、解析疾病的分子機(jī)制、發(fā)現(xiàn)新的治療靶點(diǎn),提高人類(lèi)的健康水平。

我國(guó)生命科學(xué)研究新范式面臨的挑戰(zhàn)

面對(duì)生命科學(xué)研究新范式發(fā)展的新形勢(shì)、新要求,我國(guó)仍面臨高質(zhì)量生命科學(xué)數(shù)據(jù)資源體系缺乏、AI關(guān)鍵技術(shù)與基礎(chǔ)設(shè)施不足、新范式下的交叉創(chuàng)新科研新生態(tài)匱乏等方面的巨大挑戰(zhàn)。

高質(zhì)量生命科學(xué)數(shù)據(jù)資源體系缺乏

盡管我國(guó)在生命領(lǐng)域的科研投入持續(xù)增加,但在一些前沿領(lǐng)域,我國(guó)科學(xué)家仍依賴(lài)國(guó)外高質(zhì)量數(shù)據(jù),而國(guó)內(nèi)數(shù)據(jù)的建設(shè)和使用相對(duì)滯后,我國(guó)生命科學(xué)數(shù)據(jù)資源還存在分布不均衡問(wèn)題,需要更好地統(tǒng)籌協(xié)調(diào)和資源整合,實(shí)現(xiàn)高質(zhì)量生命科學(xué)數(shù)據(jù)資源的高效匯聚和系統(tǒng)化提升。此外,在生命科學(xué)數(shù)據(jù)的收集、傳輸和存儲(chǔ)過(guò)程中,數(shù)據(jù)安全問(wèn)題亟待加強(qiáng),特別是生物數(shù)據(jù)的隱私和安全問(wèn)題仍需要引起重視。

面對(duì)這些挑戰(zhàn),我國(guó)需要加強(qiáng)科學(xué)數(shù)據(jù)資源的整合與共享,推動(dòng)生命科學(xué)數(shù)據(jù)資源的可持續(xù)發(fā)展,提高數(shù)據(jù)的質(zhì)量和安全性,加強(qiáng)數(shù)據(jù)管理與供給模式的變革,推動(dòng)跨領(lǐng)域多模態(tài)科技資源融合服務(wù)能力的提升,以滿(mǎn)足新范式下科研需求的發(fā)展。

AI關(guān)鍵技術(shù)與基礎(chǔ)設(shè)施不足

我國(guó)AI驅(qū)動(dòng)新科研范式的核心技術(shù)相對(duì)匱乏,自主原創(chuàng)的算法、模型、工具仍待大力發(fā)展。針對(duì)生命科學(xué)大數(shù)據(jù)的海量、高維、稀疏分布等特征,亟需發(fā)展復(fù)雜數(shù)據(jù)的先進(jìn)計(jì)算與分析方法。未來(lái)應(yīng)開(kāi)發(fā)更加適合生命科學(xué)應(yīng)用的硬件、軟件和新計(jì)算介質(zhì),并在生命科學(xué)和計(jì)算科學(xué)的融合過(guò)程中,探索新的計(jì)算-生物交互模式。簡(jiǎn)而言之,新范式研究對(duì)數(shù)據(jù)、網(wǎng)絡(luò)、算力等資源的綜合能力提出了新的要求,需要加快推進(jìn)新一代信息基礎(chǔ)設(shè)施建設(shè),解決算力“卡脖子”問(wèn)題。

新范式下的交叉創(chuàng)新科研新生態(tài)匱乏

現(xiàn)有AI驅(qū)動(dòng)的生命科學(xué)研究方式大多為課題組自發(fā)組合的“小作坊”模式,缺乏新范式發(fā)展所需的交叉創(chuàng)新環(huán)境。美國(guó)在2023年發(fā)布的《國(guó)家人工智能研發(fā)戰(zhàn)略計(jì)劃》更新版本中也著重強(qiáng)調(diào)了人工智能研究的跨學(xué)科交叉發(fā)展的重要性。因此,新范式下的科研生態(tài)應(yīng)鼓勵(lì)更為廣泛的多學(xué)科“大交叉”“大融合”,建立干濕結(jié)合、理實(shí)交融的新型研究模式,持續(xù)培養(yǎng)高水平復(fù)合型交叉研究人才。

在新形勢(shì)下我國(guó)也已經(jīng)開(kāi)始廣泛布局和推進(jìn)交叉學(xué)科的發(fā)展。《中華人民共和國(guó)國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》中指出要推動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等同各產(chǎn)業(yè)的深度融合。結(jié)合我國(guó)生命科學(xué)領(lǐng)域的實(shí)際發(fā)展情況,我國(guó)生命科學(xué)領(lǐng)域發(fā)展更應(yīng)著眼于將AI賦能生命科學(xué)研究的范式變革融入我國(guó)新時(shí)代的國(guó)家發(fā)展遠(yuǎn)景布局中,實(shí)現(xiàn)以點(diǎn)帶面的整體效應(yīng)建立更加開(kāi)放的新型科研生態(tài)和發(fā)展環(huán)境。


近年來(lái),生命科學(xué)領(lǐng)域正經(jīng)歷著前所未有的巨變,這一領(lǐng)域的發(fā)展不僅受到生物技術(shù)和信息技術(shù)的雙重推動(dòng),更受到AI技術(shù)進(jìn)步的巨大影響。這一變革的核心在于從傳統(tǒng)的主要依賴(lài)于人經(jīng)驗(yàn)的假說(shuō)和實(shí)驗(yàn)驅(qū)動(dòng)的科研范式向大數(shù)據(jù)和AI驅(qū)動(dòng)的新研究范式的演變。這意味著我們不再僅僅依賴(lài)于實(shí)驗(yàn)和假說(shuō),而是通過(guò)大數(shù)據(jù)分析和AI技術(shù)主動(dòng)揭示生命的奧秘。更廣泛的,這個(gè)演變將廣泛改變或促進(jìn)不同層面的科學(xué)研究活動(dòng)的變革,涵蓋了認(rèn)識(shí)論、方法論、研究組織形式、經(jīng)濟(jì)社會(huì)及倫理法律等眾多層面。

綜合而言,我們正身臨著一個(gè)充滿(mǎn)變革和希望的時(shí)代,生命科學(xué)的革新與科技的進(jìn)步共同繪制出人類(lèi)對(duì)生命奧秘更深層次探索的未來(lái)藍(lán)圖??梢灶A(yù)見(jiàn),隨著通用AI的進(jìn)一步發(fā)展,生命科學(xué)研究將在不遠(yuǎn)的未來(lái)實(shí)現(xiàn)干濕融合、人機(jī)協(xié)同的新模式,迎來(lái)AI自驅(qū)抽象新知識(shí)、新規(guī)律的“預(yù)人所未見(jiàn),思人所未思”的科學(xué)新時(shí)代。

(作者:李鑫,中國(guó)科學(xué)院動(dòng)物研究所 北京干細(xì)胞與再生醫(yī)學(xué)研究院;于漢超,中國(guó)科學(xué)院前沿科學(xué)與教育局;編審:金婷;《中國(guó)科學(xué)院院刊》供稿)

【責(zé)任編輯:殷曉霞】
返回頂部