數(shù)智驅(qū)動(dòng)的空間科學(xué)實(shí)驗(yàn)研究:AI4S范式下的新探索
中國(guó)網(wǎng)/中國(guó)發(fā)展門(mén)戶(hù)網(wǎng)訊 人工智能(AI)技術(shù)的迅猛發(fā)展正催生出科學(xué)發(fā)現(xiàn)的全新范式,極大地促進(jìn)了對(duì)各種空間和時(shí)間尺度下自然現(xiàn)象的理解,從而推動(dòng)了科學(xué)的進(jìn)步與創(chuàng)新。
隨著AI的不斷演進(jìn),新的科學(xué)研究范式AI4S(AI for Science)的崛起為科學(xué)研究開(kāi)辟了新的道路。特別是在AI4S范式下的空間科學(xué)實(shí)驗(yàn)領(lǐng)域的研究,將有力促進(jìn)空間科學(xué)實(shí)驗(yàn)領(lǐng)域取得重大科學(xué)成果,推動(dòng)AI與空間科學(xué)交叉學(xué)科的繁榮發(fā)展。
本文聚焦中國(guó)空間站空間科學(xué)實(shí)驗(yàn)(以下簡(jiǎn)稱(chēng)“空間科學(xué)實(shí)驗(yàn)”)領(lǐng)域,在回顧AI4S在空間科學(xué)實(shí)驗(yàn)領(lǐng)域發(fā)展的基礎(chǔ)上,深入分析了AI4S在微重力條件下空間科學(xué)實(shí)驗(yàn)多模態(tài)數(shù)據(jù)智能表征、復(fù)雜空間現(xiàn)象的模式識(shí)別、領(lǐng)域知識(shí)的智能提取及多來(lái)源、跨學(xué)科數(shù)據(jù)融合分析等方面所面臨的問(wèn)題和挑戰(zhàn)。針對(duì)這些挑戰(zhàn),本文圍繞數(shù)智驅(qū)動(dòng)在空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)模式挖掘、領(lǐng)域知識(shí)發(fā)現(xiàn)與推理、跨學(xué)科認(rèn)知智能,以及大模型構(gòu)建與應(yīng)用等方面提出AI4S在空間科學(xué)實(shí)驗(yàn)領(lǐng)域的發(fā)展與思考。期望通過(guò)加強(qiáng)領(lǐng)域優(yōu)勢(shì)、建立開(kāi)放生態(tài)等舉措,共同推動(dòng)空間科學(xué)實(shí)驗(yàn)領(lǐng)域大數(shù)據(jù)挖掘與智能認(rèn)知的不斷發(fā)展。
我國(guó)空間站空間科學(xué)實(shí)驗(yàn)領(lǐng)域研究概況
中國(guó)空間科學(xué)與應(yīng)用技術(shù)蓬勃發(fā)展,已開(kāi)展并將持續(xù)開(kāi)展一系列空間科學(xué)與應(yīng)用任務(wù)和計(jì)劃,產(chǎn)生的空間科學(xué)數(shù)據(jù)與日俱增,并呈迅猛增長(zhǎng)態(tài)勢(shì)。在AI4S范式的背景下,結(jié)合微重力條件下空間科學(xué)實(shí)驗(yàn)的領(lǐng)域數(shù)據(jù)特點(diǎn),充分挖掘空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)蘊(yùn)含的高價(jià)值信息,將有力促進(jìn)科學(xué)發(fā)現(xiàn)與認(rèn)知發(fā)展。
多學(xué)科大規(guī)模的先進(jìn)空間科學(xué)實(shí)驗(yàn)項(xiàng)目
作為空間科學(xué)研究發(fā)展的重要陣地,中國(guó)空間站是我國(guó)未來(lái)10—15年規(guī)模最大的空間綜合研究實(shí)驗(yàn)平臺(tái),將建成國(guó)際先進(jìn)水平的國(guó)家太空實(shí)驗(yàn)室,高效開(kāi)展體系化的空間科學(xué)與應(yīng)用研究和新技術(shù)試驗(yàn),不斷產(chǎn)出重大科技成果,持續(xù)獲取綜合應(yīng)用效益。作為我國(guó)航天史上規(guī)模最大、長(zhǎng)期有人照料的空間實(shí)驗(yàn)平臺(tái)(圖1),中國(guó)空間站在空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒、空間材料科學(xué)、空間基礎(chǔ)物理等多個(gè)科學(xué)領(lǐng)域,支持開(kāi)展近千項(xiàng)先進(jìn)性和前瞻性研究項(xiàng)目,將獲取海量、多源、高價(jià)值的科學(xué)數(shù)據(jù),為開(kāi)展AI賦能的跨學(xué)科智能認(rèn)知提供基礎(chǔ)。

空間實(shí)驗(yàn)全周期多來(lái)源多模態(tài)大數(shù)據(jù)資源
中國(guó)空間站科學(xué)實(shí)驗(yàn)項(xiàng)目獲取的數(shù)據(jù)產(chǎn)品種類(lèi)超2 000種,數(shù)據(jù)體量預(yù)計(jì)將達(dá)近百PB級(jí)。數(shù)據(jù)資源具有全周期多來(lái)源、多學(xué)科跨領(lǐng)域、多模態(tài)多角度等特點(diǎn)。
全周期多來(lái)源海量空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)??臻g科學(xué)實(shí)驗(yàn)覆蓋地基培育實(shí)驗(yàn)、地面匹配實(shí)驗(yàn)、在軌微重力環(huán)境下空間實(shí)驗(yàn)、天地同步比對(duì)實(shí)驗(yàn)、地面返回實(shí)驗(yàn)等全周期的空間科學(xué)實(shí)驗(yàn)過(guò)程和階段,并采集、處理、分析、存檔和共享相應(yīng)階段和過(guò)程的實(shí)驗(yàn)數(shù)據(jù),以及來(lái)自地面鏡像平臺(tái)實(shí)驗(yàn)數(shù)據(jù)、數(shù)字孿生數(shù)據(jù)和微重力模擬實(shí)驗(yàn)數(shù)據(jù)等來(lái)源廣泛、長(zhǎng)時(shí)間獲取的海量、豐富數(shù)據(jù)(圖2)。
多學(xué)科跨領(lǐng)域數(shù)據(jù)。空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)涵蓋空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)、空間基礎(chǔ)物理等多學(xué)科領(lǐng)域的實(shí)驗(yàn)數(shù)據(jù),涉及覆蓋面廣且多樣(圖2)。

多模態(tài)多角度數(shù)據(jù)??臻g科學(xué)實(shí)驗(yàn)數(shù)據(jù)包含圖像、視頻、語(yǔ)音、文本、數(shù)值等。其中,圖像數(shù)據(jù)又包含可見(jiàn)光、熒光、紅外、X射線(xiàn)、顯微等涵蓋多種模態(tài)多樣形式。如燃燒科學(xué)實(shí)驗(yàn)柜、流體科學(xué)實(shí)驗(yàn)柜等實(shí)驗(yàn)柜,還設(shè)置了多角度的觀測(cè)設(shè)備對(duì)同一實(shí)驗(yàn)過(guò)程進(jìn)行多個(gè)角度的同步觀測(cè)。
數(shù)智驅(qū)動(dòng)的空間科學(xué)實(shí)驗(yàn)研究
基于中國(guó)空間站的空間科學(xué)實(shí)驗(yàn)大數(shù)據(jù)作為信息的重要載體,蘊(yùn)含了空間科學(xué)實(shí)驗(yàn)領(lǐng)域內(nèi)在規(guī)律、模式與知識(shí)。面向空間科學(xué)實(shí)驗(yàn)大數(shù)據(jù)開(kāi)展數(shù)據(jù)挖掘與智能認(rèn)知的研究,將推動(dòng)空間科學(xué)實(shí)驗(yàn)領(lǐng)域新理論、新方法與新知識(shí)的高效產(chǎn)出??臻g科學(xué)實(shí)驗(yàn)領(lǐng)域內(nèi)的跨學(xué)科合作,學(xué)科內(nèi)知識(shí)的交叉融合,將加速領(lǐng)域內(nèi)一般性規(guī)律的重大科學(xué)發(fā)現(xiàn),也將推動(dòng)整個(gè)空間科學(xué)實(shí)驗(yàn)領(lǐng)域朝著更加開(kāi)放、協(xié)同和智能化的方向邁進(jìn),對(duì)空間科學(xué)實(shí)驗(yàn)研究的新模式探索與高質(zhì)量發(fā)展具有重要意義。
空間科學(xué)實(shí)驗(yàn)領(lǐng)域AI4S研究的問(wèn)題與挑戰(zhàn)
空間科學(xué)實(shí)驗(yàn)領(lǐng)域AI4S的研究旨在聚焦探索AI與空間科學(xué)實(shí)驗(yàn)領(lǐng)域的深度融合,利用AI技術(shù)學(xué)習(xí)、模擬、預(yù)測(cè)和優(yōu)化空間科學(xué)實(shí)驗(yàn)領(lǐng)域各種現(xiàn)象和規(guī)律以解決各種科學(xué)問(wèn)題,構(gòu)建以AI支撐基礎(chǔ)和前沿的空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)研究的新模式,加速空間科學(xué)實(shí)驗(yàn)領(lǐng)域科研范式變革和能力提升,從而推動(dòng)領(lǐng)域科學(xué)新發(fā)現(xiàn)和創(chuàng)新??臻g科學(xué)實(shí)驗(yàn)領(lǐng)域AI4S研究面臨的問(wèn)題與挑戰(zhàn)如下。
空間科學(xué)實(shí)驗(yàn)多模態(tài)數(shù)據(jù)信息提取的復(fù)雜與困難,使得數(shù)據(jù)表征、特征融合更具挑戰(zhàn)。空間科學(xué)實(shí)驗(yàn)開(kāi)展過(guò)程中,針對(duì)特定研究領(lǐng)域的實(shí)驗(yàn)對(duì)象產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù),往往以不同的模態(tài)形式存在,如物理量參數(shù)、圖像、視頻等數(shù)據(jù),這些數(shù)據(jù)都隱含了研究對(duì)象在空間特殊環(huán)境和實(shí)驗(yàn)條件下的科學(xué)規(guī)律。多模態(tài)表征通過(guò)利用多模態(tài)數(shù)據(jù)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)并提取不同模態(tài)數(shù)據(jù)的特征表示。空間科學(xué)實(shí)驗(yàn)產(chǎn)生的多模態(tài)實(shí)驗(yàn)數(shù)據(jù)的復(fù)雜處理方式、天地差異、異質(zhì)性等因素,使得構(gòu)建全面準(zhǔn)確的表征極具挑戰(zhàn)性(圖3)。多模態(tài)語(yǔ)義對(duì)齊識(shí)別多模態(tài)信息之間的跨模態(tài)連接和相互作用。例如,分析空間科學(xué)實(shí)驗(yàn)的物理參量和圖像視頻數(shù)據(jù)時(shí),需要將特定的物理參量與圖像或視頻對(duì)齊。模態(tài)之間的對(duì)齊在技術(shù)上存在很多困難,因?yàn)椴煌B(tài)之間可能存在隱含關(guān)聯(lián)與長(zhǎng)距離的依賴(lài)關(guān)系,涉及模糊的分割,并且可能是一對(duì)多、多對(duì)多的關(guān)聯(lián)性,需要處理不同模態(tài)之間的歧義,以精準(zhǔn)匹配跨模態(tài)信息,并最大程度降低信息損耗。多模態(tài)信息融合抽取自空間科學(xué)實(shí)驗(yàn)不同模態(tài)的信息,整合成多模態(tài)特征信息,利用多個(gè)來(lái)源不同模態(tài)的互補(bǔ)信息執(zhí)行分析與預(yù)測(cè)。不同模態(tài)的信息可能具有不同的預(yù)測(cè)能力和噪聲拓?fù)?,一方面不同模態(tài)之間的關(guān)聯(lián)信息有互補(bǔ)作用,另一方面模態(tài)自身的特異性又有很強(qiáng)的標(biāo)識(shí)功能。同時(shí),根據(jù)待融合模態(tài)信息的特點(diǎn)可以分為異質(zhì)多模態(tài)融合(如文本與圖像)和同質(zhì)多模態(tài)融合(如深度圖與灰度圖)等多種情況,獲取不同模態(tài)實(shí)驗(yàn)數(shù)據(jù)間的共性和模態(tài)內(nèi)的特性信息,具有極大的計(jì)算復(fù)雜度。

多約束條件下的空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)多樣化與復(fù)雜關(guān)聯(lián),使得模式識(shí)別與分析變得更為困難。在空間科學(xué)實(shí)驗(yàn)領(lǐng)域,進(jìn)行科學(xué)實(shí)驗(yàn)時(shí)受到多種約束條件的影響,包括宇宙低溫、強(qiáng)輻射、微重力等多重因素。這些約束條件導(dǎo)致獲取的實(shí)驗(yàn)數(shù)據(jù)呈現(xiàn)出極大的多樣性和復(fù)雜性,使得數(shù)據(jù)的模式識(shí)別和分析變得困難。一方面,需要應(yīng)對(duì)數(shù)據(jù)中的噪聲、不確定性及多模態(tài)數(shù)據(jù)之間的復(fù)雜關(guān)聯(lián)。在處理這些多重約束下的數(shù)據(jù)時(shí),科學(xué)家們面臨著挑戰(zhàn),需要開(kāi)發(fā)出具有魯棒性的算法,以確保準(zhǔn)確性和全面性,推動(dòng)對(duì)復(fù)雜空間實(shí)驗(yàn)現(xiàn)象的深入理解和科學(xué)實(shí)驗(yàn)數(shù)據(jù)的有效分析。另外一方面,長(zhǎng)期微重力條件下科學(xué)實(shí)驗(yàn)數(shù)據(jù)的分析挖掘不僅需要從復(fù)雜數(shù)據(jù)中發(fā)現(xiàn)模式與關(guān)聯(lián),更需要結(jié)合不同的環(huán)境變量及實(shí)驗(yàn)變量、先驗(yàn)知識(shí)輔助支持有意義、有價(jià)值的模式挖掘與科學(xué)發(fā)現(xiàn)。因此,如何將這些控制變量、先驗(yàn)知識(shí)進(jìn)行有效編碼,融入深度神經(jīng)網(wǎng)絡(luò),支持多元數(shù)據(jù)的模式挖掘與關(guān)聯(lián)建模面臨挑戰(zhàn)。
多來(lái)源、跨學(xué)科知識(shí)關(guān)聯(lián)復(fù)雜,使得跨領(lǐng)域知識(shí)交叉融合分析極具挑戰(zhàn)。在空間科學(xué)實(shí)驗(yàn)研究領(lǐng)域,多學(xué)科交叉的背景使得AI4S有機(jī)會(huì)打破學(xué)科間的壁壘,推動(dòng)不同領(lǐng)域間的深度融合與協(xié)同創(chuàng)新。例如,流體力學(xué)中常用的粒子圖像測(cè)速方法??稍诳臻g生物實(shí)驗(yàn)中用于追蹤細(xì)胞的運(yùn)動(dòng),也可在微重力物理實(shí)驗(yàn)中用于追蹤流化床內(nèi)顆粒的運(yùn)動(dòng)。然而,不同學(xué)科及來(lái)源的數(shù)據(jù)和知識(shí)既具有各自獨(dú)特的結(jié)構(gòu)體系,又有錯(cuò)綜復(fù)雜的關(guān)系,這使得借助AI技術(shù)實(shí)現(xiàn)數(shù)據(jù)的有效關(guān)聯(lián)和知識(shí)的深度融合成為一項(xiàng)至關(guān)重要的挑戰(zhàn)。
具體而言,空間科學(xué)實(shí)驗(yàn)研究的跨領(lǐng)域信息融合面臨3個(gè)難點(diǎn):異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化。不同領(lǐng)域的空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)具有迥異的結(jié)構(gòu)和內(nèi)涵。為促進(jìn)數(shù)據(jù)共享,需要建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),并致力實(shí)現(xiàn)高效的異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化。多源數(shù)據(jù)關(guān)聯(lián)。空間科學(xué)實(shí)驗(yàn)分析涉及多來(lái)源的數(shù)據(jù):傳感器測(cè)量值、視頻圖像、文獻(xiàn)書(shū)籍等。多源數(shù)據(jù)之間的關(guān)系(如燃燒實(shí)驗(yàn)中視頻像素值與溫度值的對(duì)應(yīng)關(guān)系)復(fù)雜、隱晦而多變,難以被通用算法所預(yù)測(cè)。需要結(jié)合科學(xué)實(shí)驗(yàn)數(shù)據(jù)的物理模型與AI的學(xué)習(xí)能力,實(shí)現(xiàn)準(zhǔn)確高效的數(shù)據(jù)關(guān)聯(lián)分析。跨領(lǐng)域知識(shí)關(guān)聯(lián)。一方面,需要構(gòu)建領(lǐng)域知識(shí)圖譜,刻畫(huà)學(xué)科本身的知識(shí)體系;另一方面,需要消解多學(xué)科之間的專(zhuān)業(yè)隔閡,揭示跨領(lǐng)域知識(shí)的內(nèi)在聯(lián)系與相似性。例如,空間流化床實(shí)驗(yàn)的科學(xué)家希望實(shí)現(xiàn)對(duì)大量顆粒的群體追蹤,需要AI模型提供其他領(lǐng)域內(nèi)相關(guān)的知識(shí)和方法。而大語(yǔ)言模型通過(guò)將海量數(shù)據(jù)信息映射至共同的語(yǔ)義空間,有能力通過(guò)語(yǔ)義相似性、發(fā)掘不同學(xué)科知識(shí)之間的聯(lián)系。
空間科學(xué)實(shí)驗(yàn)領(lǐng)域發(fā)展與思考
空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)模式挖掘與分析
針對(duì)空間科學(xué)實(shí)驗(yàn)領(lǐng)域的數(shù)據(jù)模式挖掘與分析,重點(diǎn)包括時(shí)序數(shù)據(jù)模式挖掘和科學(xué)實(shí)驗(yàn)圖像/視頻智能分析兩方面。
在時(shí)序數(shù)據(jù)模式挖掘方面??臻g科學(xué)實(shí)驗(yàn)載荷產(chǎn)生海量結(jié)構(gòu)化遙測(cè)時(shí)序數(shù)據(jù),通過(guò)整合不同來(lái)源的數(shù)據(jù)進(jìn)行挖掘,利用基于深度學(xué)習(xí)的數(shù)據(jù)預(yù)測(cè)模型,結(jié)合在線(xiàn)學(xué)習(xí)方式實(shí)時(shí)調(diào)整模型,可以深入分析實(shí)驗(yàn)載荷系統(tǒng)的關(guān)鍵參數(shù)和重要的特征表征因子,揭示復(fù)雜模式、趨勢(shì)和關(guān)聯(lián),提高實(shí)驗(yàn)載荷故障風(fēng)險(xiǎn)預(yù)測(cè)的能力。同時(shí),融合領(lǐng)域知識(shí)圖譜進(jìn)行因果關(guān)系挖掘,提高模型結(jié)果的可信度和可解釋性,為故障根因定位和復(fù)雜現(xiàn)象理解提供重要技術(shù)支持。
在空間科學(xué)實(shí)驗(yàn)圖像/視頻智能分析方面。通過(guò)研究實(shí)驗(yàn)?zāi)繕?biāo)檢測(cè)、實(shí)例分割、實(shí)驗(yàn)?zāi)繕?biāo)追蹤、實(shí)驗(yàn)?zāi)繕?biāo)行為和模式分析及實(shí)驗(yàn)?zāi)繕?biāo)三維重建等眾多關(guān)鍵技術(shù),可以實(shí)現(xiàn)對(duì)空間生物、動(dòng)物、植物實(shí)驗(yàn)圖像的高效分析和理解。這些技術(shù)支持了定量分析和可視交互分析,為科學(xué)家提供了豐富的數(shù)據(jù)基礎(chǔ)和更立體的觀察視角。結(jié)合領(lǐng)域知識(shí)的增強(qiáng),可以實(shí)現(xiàn)更高層次的推理與實(shí)驗(yàn)?zāi)繕?biāo)行為、生長(zhǎng)等模式挖掘,進(jìn)而推動(dòng)空間科學(xué)實(shí)驗(yàn)領(lǐng)域的深入研究和創(chuàng)新發(fā)現(xiàn)。
通過(guò)整合時(shí)序數(shù)據(jù)模式挖掘和科學(xué)實(shí)驗(yàn)圖像/視頻智能分析,結(jié)合領(lǐng)域知識(shí)增強(qiáng)方法,可以實(shí)現(xiàn)對(duì)領(lǐng)域新知識(shí)的發(fā)掘,推動(dòng)空間科學(xué)實(shí)驗(yàn)研究和創(chuàng)新的發(fā)展。
空間科學(xué)實(shí)驗(yàn)領(lǐng)域知識(shí)的發(fā)現(xiàn)與推理
空間科學(xué)實(shí)驗(yàn)海量數(shù)據(jù)中蘊(yùn)含了豐富的、散亂的、待挖掘的領(lǐng)域知識(shí)??臻g科學(xué)實(shí)驗(yàn)領(lǐng)域知識(shí)的發(fā)現(xiàn)與推理旨在整合多源數(shù)據(jù),融合分析多源數(shù)據(jù)中的關(guān)鍵信息并智能提取領(lǐng)域知識(shí),建立領(lǐng)域知識(shí)體系,以促進(jìn)更全面的空間實(shí)驗(yàn)現(xiàn)象理解和揭示深層次規(guī)律。
針對(duì)領(lǐng)域數(shù)據(jù)多源異構(gòu)特性,基于統(tǒng)一表征學(xué)習(xí)方法,將在軌實(shí)驗(yàn)、地面培育與同步實(shí)驗(yàn)、地面鏡像等產(chǎn)生的多源數(shù)據(jù)進(jìn)行表征信息提取,將不同的特征映射到統(tǒng)一的知識(shí)表示空間中。結(jié)合實(shí)體識(shí)別、關(guān)系抽取等領(lǐng)域知識(shí)抽取方法,提取空間科學(xué)實(shí)驗(yàn)領(lǐng)域知識(shí),并基于知識(shí)表示、知識(shí)融合、知識(shí)推理方法,完成不同來(lái)源知識(shí)的消歧和對(duì)齊,將對(duì)齊的多源數(shù)據(jù)和獲取的領(lǐng)域知識(shí)從概念層和實(shí)例層對(duì)齊后再次融合到全局視圖的知識(shí)圖譜中,構(gòu)建空間實(shí)驗(yàn)領(lǐng)域知識(shí)圖譜,建立領(lǐng)域知識(shí)概念和體系。同時(shí),基于已有知識(shí)基礎(chǔ),利用知識(shí)推理技術(shù)方法推導(dǎo)出新的未知的知識(shí),揭示未知領(lǐng)域的潛在知識(shí)與關(guān)聯(lián)信息,促進(jìn)空間科學(xué)實(shí)驗(yàn)領(lǐng)域新的科學(xué)發(fā)現(xiàn)。
空間科學(xué)實(shí)驗(yàn)多來(lái)源、跨學(xué)科數(shù)據(jù)智能融合與協(xié)同創(chuàng)新
在空間科學(xué)實(shí)驗(yàn)研究中,信息的標(biāo)準(zhǔn)化共享、數(shù)據(jù)的關(guān)聯(lián)分析與知識(shí)的融合推理共同構(gòu)成了跨領(lǐng)域協(xié)同創(chuàng)新的基礎(chǔ)。多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化與治理。為確保數(shù)據(jù)的標(biāo)準(zhǔn)化共享,需要構(gòu)建空間科學(xué)實(shí)驗(yàn)領(lǐng)域統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)和規(guī)范,明確各類(lèi)數(shù)據(jù)的格式、結(jié)構(gòu)、存取方式等。在此基礎(chǔ)上,結(jié)合AI算法與模型,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的自動(dòng)標(biāo)準(zhǔn)化與高效治理。基于AI的多源數(shù)據(jù)分析。結(jié)合人類(lèi)認(rèn)知與AI技術(shù),通過(guò)圖像、可視化等手段展示數(shù)據(jù),并提供AI算法的演算結(jié)果,揭示多源數(shù)據(jù)中復(fù)雜的關(guān)系,引導(dǎo)科學(xué)家深入探索實(shí)驗(yàn)規(guī)律??鐚W(xué)科知識(shí)融合與推理。利用AI模型從科技文獻(xiàn)中提取知識(shí)實(shí)體與關(guān)系,構(gòu)建學(xué)科知識(shí)圖譜,通過(guò)算法匹配不同圖譜中的相似實(shí)體與關(guān)系,揭示各領(lǐng)域科學(xué)原理與思路方法的相似性,以促進(jìn)跨領(lǐng)域的成果共享與協(xié)同創(chuàng)新。
空間科學(xué)實(shí)驗(yàn)領(lǐng)域大模型的應(yīng)用
領(lǐng)域大模型能夠提升領(lǐng)域數(shù)據(jù)特征表示的能力。通過(guò)構(gòu)建統(tǒng)一的、跨場(chǎng)景、多任務(wù)的多模態(tài)空間科學(xué)實(shí)驗(yàn)領(lǐng)域基礎(chǔ)大模型,建立空間科學(xué)實(shí)驗(yàn)物理量、文本、圖像、視頻等多模態(tài)數(shù)據(jù)間的語(yǔ)義關(guān)聯(lián),挖掘潛在關(guān)聯(lián)關(guān)系,探索多模態(tài)科學(xué)實(shí)驗(yàn)數(shù)據(jù)分析與理解的技術(shù)前沿,為科學(xué)實(shí)驗(yàn)大數(shù)據(jù)挖掘、知識(shí)圖譜構(gòu)建、圖像/視頻智能分析與理解、智能輔助決策等提供可計(jì)算的關(guān)于多模態(tài)數(shù)據(jù)的結(jié)構(gòu)化表示,為面向空間科學(xué)實(shí)驗(yàn)領(lǐng)域多模態(tài)數(shù)據(jù)的智能化分析與應(yīng)用提供有效的技術(shù)支撐。構(gòu)建強(qiáng)大的空間科學(xué)實(shí)驗(yàn)分析大模型基座,圍繞空間科學(xué)實(shí)驗(yàn)領(lǐng)域大模型可以構(gòu)建“平臺(tái)協(xié)作式”的AI4S科研模式,適應(yīng)不斷變化的數(shù)據(jù)和實(shí)驗(yàn)場(chǎng)景,大幅提高科學(xué)研究效率,有效提升實(shí)驗(yàn)數(shù)據(jù)處理、知識(shí)庫(kù)構(gòu)建、復(fù)雜模式挖掘、可視化與可視分析等能力,促進(jìn)多學(xué)科知識(shí)深度交叉融合和重大科學(xué)發(fā)現(xiàn)。
基于大模型的圖像智能分析。中國(guó)空間站將在空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)、微重力基礎(chǔ)物理等領(lǐng)域展開(kāi)上千項(xiàng)研究項(xiàng)目。大模型在圖像智能分析應(yīng)用中具有重要作用,助力“作坊式”個(gè)性化的研發(fā)模式向“平臺(tái)協(xié)作式”轉(zhuǎn)型。大模型通過(guò)在海量圖像/視頻數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,實(shí)現(xiàn)通用特征提取網(wǎng)絡(luò),為特定實(shí)驗(yàn)專(zhuān)業(yè)需求的子任務(wù)提供智能輔助分析支持,實(shí)現(xiàn)下游多任務(wù)的靈活自適應(yīng),降低單一任務(wù)的數(shù)據(jù)標(biāo)注成本和算法研發(fā)周期。例如,基于大模型的空間生命實(shí)驗(yàn)對(duì)象實(shí)例分割算法,依賴(lài)海量領(lǐng)域數(shù)據(jù)的預(yù)訓(xùn)練,有望實(shí)現(xiàn)零樣本或少樣本的新實(shí)驗(yàn)數(shù)據(jù)分析的應(yīng)用。
基于大模型的領(lǐng)域知識(shí)圖譜。大模型可以增強(qiáng)空間科學(xué)實(shí)驗(yàn)領(lǐng)域知識(shí)圖譜的構(gòu)建與應(yīng)用能力。利用大模型的自監(jiān)督表征學(xué)習(xí)空間科學(xué)實(shí)驗(yàn)有關(guān)的多模態(tài)數(shù)據(jù),實(shí)現(xiàn)多源數(shù)據(jù)的整合、信息互補(bǔ)和語(yǔ)義全面表達(dá),并進(jìn)行實(shí)體、關(guān)系、事件等領(lǐng)域知識(shí)提取,構(gòu)建空間科學(xué)實(shí)驗(yàn)領(lǐng)域內(nèi)的知識(shí)圖譜;知識(shí)圖譜智能問(wèn)答、知識(shí)關(guān)聯(lián)分析等應(yīng)用將提高知識(shí)圖譜智能化應(yīng)用的性能和效果,為解決領(lǐng)域?qū)I(yè)性強(qiáng)、復(fù)雜度高的知識(shí)發(fā)現(xiàn)與應(yīng)用問(wèn)題奠定堅(jiān)實(shí)基礎(chǔ)。
基于大模型的信息關(guān)聯(lián)與跨模態(tài)檢索??臻g科學(xué)領(lǐng)域?qū)嶒?yàn)包含文本、圖像、視頻、語(yǔ)音等多模態(tài)數(shù)據(jù),使得科學(xué)家難以高效搜索感興趣的信息。大模型,尤其是基于對(duì)比學(xué)習(xí)的模型如CLIP(contrastive language-image pretraining)等,通過(guò)自監(jiān)督學(xué)習(xí)方式構(gòu)建,能夠統(tǒng)一表征空間科學(xué)領(lǐng)域?qū)嶒?yàn)多模態(tài)數(shù)據(jù)語(yǔ)義信息,提高數(shù)據(jù)跨模態(tài)檢索性能,這有助于科學(xué)家從海量數(shù)據(jù)中快速、準(zhǔn)確地找到有價(jià)值的信息,有效提高數(shù)據(jù)利用效率。
基于大模型的空間科學(xué)實(shí)驗(yàn)載荷在軌運(yùn)行故障預(yù)測(cè)?;诰哂锌臻g科學(xué)實(shí)驗(yàn)載荷故障風(fēng)險(xiǎn)預(yù)警與根因定位能力的基礎(chǔ)大模型,利用其強(qiáng)大的數(shù)據(jù)表征、整合和分析能力,深入挖掘?qū)嶒?yàn)載荷多源工程遙測(cè)數(shù)據(jù)之間的關(guān)系,識(shí)別異常模式和變化趨勢(shì)。通過(guò)大模型在語(yǔ)義理解、數(shù)據(jù)整合方面的技術(shù)優(yōu)勢(shì),提高科學(xué)實(shí)驗(yàn)載荷的運(yùn)行故障預(yù)測(cè)精度與效率,保障各空間科學(xué)實(shí)驗(yàn)載荷的安全、穩(wěn)定在軌運(yùn)行。
基于大模型的空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)可視化與可視分析應(yīng)用。大模型結(jié)合自然語(yǔ)言理解與生成能力,使科學(xué)家能夠通過(guò)對(duì)話(huà)方式驅(qū)動(dòng)高效的數(shù)據(jù)檢索與處理。結(jié)合可視分析,通過(guò)自然語(yǔ)言描述生成可視化結(jié)果,形成可視分析系統(tǒng)。利用“CUI+GUI”的模式發(fā)揮大模型在科學(xué)家意圖理解和數(shù)據(jù)智能分析方面的能力,充分利用可視分析在數(shù)據(jù)直觀展示和關(guān)聯(lián)分析方面的獨(dú)特優(yōu)勢(shì),是一種創(chuàng)新且高效的空間科學(xué)實(shí)驗(yàn)數(shù)據(jù)分析模式如在微重力空間科學(xué)實(shí)驗(yàn)領(lǐng)域?qū)l(fā)揮重要作用。
以上有關(guān)應(yīng)用示例展示了大模型在空間科學(xué)實(shí)驗(yàn)領(lǐng)域的多個(gè)方面的潛在作用,為科學(xué)研究、實(shí)驗(yàn)數(shù)據(jù)分析和實(shí)驗(yàn)載荷在軌運(yùn)行決策等提供了新的可能性和技術(shù)支持。
總結(jié)與展望
中國(guó)空間站是我國(guó)最大的空間綜合研究實(shí)驗(yàn)平臺(tái),將開(kāi)展近千項(xiàng)先進(jìn)性和前瞻性研究項(xiàng)目,并獲取海量、多源、高價(jià)值的科學(xué)數(shù)據(jù),為開(kāi)展AI賦能的跨學(xué)科智能認(rèn)知提供基礎(chǔ)。本文聚焦中國(guó)空間站空間科學(xué)實(shí)驗(yàn)領(lǐng)域,總結(jié)了領(lǐng)域的多學(xué)科優(yōu)勢(shì)以及大數(shù)據(jù)特點(diǎn),分析了領(lǐng)域所面臨的問(wèn)題和挑戰(zhàn),提出了發(fā)展與思考。最后,期望通過(guò)加強(qiáng)領(lǐng)域優(yōu)勢(shì)、建立開(kāi)放生態(tài)等舉措,共同推動(dòng)空間科學(xué)實(shí)驗(yàn)領(lǐng)域大數(shù)據(jù)挖掘與智能認(rèn)知的不斷發(fā)展。
空間科學(xué)實(shí)驗(yàn)領(lǐng)域研究已成為AI4S領(lǐng)域的重要前沿陣地??臻g科學(xué)實(shí)驗(yàn)作為AI4S科學(xué)的重要領(lǐng)域,擁有大規(guī)模實(shí)驗(yàn)數(shù)據(jù),尤其隨著中國(guó)空間站建成國(guó)家太空實(shí)驗(yàn)室,將長(zhǎng)期在軌開(kāi)展各個(gè)學(xué)科領(lǐng)域的空間科學(xué)實(shí)驗(yàn),蘊(yùn)含著眾多的機(jī)遇,在科技前沿方面具有顯著的優(yōu)勢(shì)??臻g科學(xué)實(shí)驗(yàn)領(lǐng)域是AI4S的重要試驗(yàn)陣地。空間科學(xué)實(shí)驗(yàn)領(lǐng)域橫跨多個(gè)學(xué)科,包括空間生命科學(xué)與生物技術(shù)、微重力流體物理與燃燒科學(xué)、空間材料科學(xué)、微重力基礎(chǔ)物理等,為AI4S范式的研究提供了豐富的試驗(yàn)場(chǎng);空間科學(xué)實(shí)驗(yàn)領(lǐng)域數(shù)據(jù)生態(tài)將為AI4S的研究提供重要支持。該領(lǐng)域的數(shù)據(jù)通過(guò)統(tǒng)一生態(tài)平臺(tái)下載和分發(fā),呈現(xiàn)較好的統(tǒng)一性、規(guī)范性。相對(duì)于地面各科學(xué)領(lǐng)域數(shù)據(jù)共享程度不足的問(wèn)題,空間科學(xué)更容易構(gòu)建統(tǒng)一的面向AI就緒(Ready4AI)的數(shù)據(jù)中心,為新型AI范式的探索提供有力支持;空間科學(xué)實(shí)驗(yàn)的跨學(xué)科協(xié)同將有力推動(dòng)AI4S的發(fā)展。空間科學(xué)實(shí)驗(yàn)領(lǐng)域?qū)儆谙到y(tǒng)工程,需要載荷專(zhuān)家、技術(shù)專(zhuān)家和科學(xué)家共同協(xié)作,團(tuán)隊(duì)具備跨學(xué)科的協(xié)同優(yōu)勢(shì),更有利于推動(dòng)新型科研范式的探索。因此,以AI驅(qū)動(dòng)的空間科學(xué)實(shí)驗(yàn)研究在AI4S中擔(dān)當(dāng)著先鋒角色,為推動(dòng)科學(xué)研究和應(yīng)用領(lǐng)域的創(chuàng)新發(fā)展貢獻(xiàn)著獨(dú)特的力量。
數(shù)據(jù)驅(qū)動(dòng)的空間科學(xué)實(shí)驗(yàn)研究需要空間科學(xué)實(shí)驗(yàn)和AI領(lǐng)域的交叉人才??臻g科學(xué)實(shí)驗(yàn)領(lǐng)域科學(xué)家與AI專(zhuān)家的專(zhuān)業(yè)背景、學(xué)科差異大,相互理解程度低,彼此互相促進(jìn)的障礙仍然較大。但是,AI4S屬于交叉學(xué)科,需要專(zhuān)業(yè)領(lǐng)域科學(xué)家提出科學(xué)問(wèn)題,AI專(zhuān)家發(fā)揮技術(shù)能力,同時(shí)還需要探索已有知識(shí)如何融入智能模型,抽象出AI擅長(zhǎng)的科學(xué)分析場(chǎng)景,相互協(xié)作,才有可能在科學(xué)領(lǐng)域促進(jìn)認(rèn)知智能的涌現(xiàn)。
構(gòu)建AI4S的空間科學(xué)實(shí)驗(yàn)領(lǐng)域開(kāi)放共享生態(tài)的必要性。近年來(lái),AI領(lǐng)域的技術(shù)發(fā)展之所以如此之快,很大程度得益于其開(kāi)放的大規(guī)模公開(kāi)數(shù)據(jù)集,以及開(kāi)源的算法研發(fā)模式。但是,AI在科學(xué)智能領(lǐng)域存在一定瓶頸,這與科學(xué)數(shù)據(jù)更加專(zhuān)業(yè)、準(zhǔn)入門(mén)檻更高、通用性更低有一定關(guān)系。為了促進(jìn)AI4S領(lǐng)域的發(fā)展,構(gòu)建開(kāi)放共享數(shù)據(jù)生態(tài)十分必要,這有助于領(lǐng)域科學(xué)家、AI專(zhuān)家更便捷獲取數(shù)據(jù),更多的團(tuán)隊(duì)參與進(jìn)來(lái),共同促進(jìn)、加快領(lǐng)域的發(fā)展十分有益。此外,AI算法的研發(fā)需要更多的數(shù)據(jù)、更大的算力支持,單一的科學(xué)實(shí)驗(yàn)室較難滿(mǎn)足數(shù)據(jù)與資源的需求。通過(guò)構(gòu)建基于云計(jì)算的大算力基座、海量豐富場(chǎng)景數(shù)據(jù)、開(kāi)源共享協(xié)同算法的空間科學(xué)實(shí)驗(yàn)研究生態(tài)和支持平臺(tái),促進(jìn)傳統(tǒng)“作坊式”的科研模式向新一代AI4S范式轉(zhuǎn)變。
(作者:李盛陽(yáng)、劉康、劉云飛,中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心 中國(guó)科學(xué)院太空應(yīng)用重點(diǎn)實(shí)驗(yàn)室 中國(guó)科學(xué)院大學(xué)航空宇航學(xué)院;賴(lài)楚凡,中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心 中國(guó)科學(xué)院太空應(yīng)用重點(diǎn)實(shí)驗(yàn)室。《中國(guó)科學(xué)院院刊》供稿)







