大模型驅(qū)動、人機協(xié)同的機器化學家云設施
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 當前,隨著大數(shù)據(jù)與人工智能(AI)技術(shù)的飛速發(fā)展,人類正迎來新一輪科技與產(chǎn)業(yè)革命。一些代表性智能工具,如AlphaFold2和ChatGPT展現(xiàn)出了超越人類解決復雜問題的能力。人工智能技術(shù)的引入不僅極大地提升了科研過程中通用工具的效率和準確性,更重要的是,它有助于構(gòu)建一個由產(chǎn)業(yè)需求驅(qū)動科學研究的有效體系。本文旨在通過探討大模型驅(qū)動、人機協(xié)同的機器化學家云設施建設,進一步探討“AI for Science”科研新范式的變革。
化學研究范式變革:挑戰(zhàn)、機遇與趨勢
化學作為一門基礎(chǔ)科學,致力于研究物質(zhì)的組成、結(jié)構(gòu)、性質(zhì),及其在不同條件下的行為和與其他物質(zhì)之間的相互作用等。實驗和理論兩種研究方法相互補充,共同推進化學科學研究的進步,在推動新材料研發(fā)、探索新能源、改進生物醫(yī)療技術(shù)等方面均有著重要意義和廣泛應用。
化學研究領(lǐng)域面臨的挑戰(zhàn)
當前,化學科學領(lǐng)域的研究對象日益復雜化和高維度化,這給科學研究帶來了巨大的挑戰(zhàn)。現(xiàn)行主流的研究方法依賴于窮舉試錯和降低變量復雜度等傳統(tǒng)手段,其低效和局限性問題日益凸顯。
從微觀的原子、分子尺度到宏觀的應用材料尺度,物質(zhì)性質(zhì)受不同反應條件及相互作用影響,難以進行準確預測和描述。人類對于解析從微觀到宏觀尺度復雜系統(tǒng)底層規(guī)律的渴望日益增長,這種解析將對合成自動優(yōu)化、按需逆向設計材料,以及精準控制生物醫(yī)學過程具有重要指導意義。然而,從物理常數(shù)、薛定諤方程和元素周期表等基本規(guī)則到復雜應用層面的自下而上演化,其中存在極大的復雜度和多樣性,這就導致現(xiàn)實世界問題與結(jié)構(gòu)-效能關(guān)系之間的脫節(jié)?;瘜W合成仍然依賴于專家經(jīng)驗,距離智能優(yōu)化目標相去甚遠;數(shù)據(jù)的不完整和構(gòu)效關(guān)系的不明確,依舊是材料逆向定制設計的“攔路虎”;生物學領(lǐng)域中心法則過程的演變信息缺乏,限制了人類對于疾病機理和生命本質(zhì)的認知。
化學研究范式變革的機遇
為了積極應對化學科學領(lǐng)域面臨的挑戰(zhàn),必須創(chuàng)新研究方法,革新研究范式。隨著大數(shù)據(jù)時代的來臨,數(shù)據(jù)驅(qū)動的科研范式開始嶄露頭角。人工智能擅長從高維度、高復雜度的數(shù)據(jù)中探索變量之間的關(guān)聯(lián),這一趨勢為迎接挑戰(zhàn)提供了全新的機遇。
以深度學習和大模型為代表的人工智能技術(shù),具備學習能力、自適應性、自主決策、模式識別與預測等特質(zhì),展現(xiàn)出超越人類、智能決策的優(yōu)勢(圖1)。2016年,DeepMind公司開發(fā)的人工智能程序AlphaGo采用深度強化學習技術(shù),結(jié)合深度神經(jīng)網(wǎng)絡和強化學習算法,對棋局策略進行高效搜索并做出精準判斷,超越了人類傳統(tǒng)的啟發(fā)式圍棋搜索方法。這一圍棋界的人機較量成為人工智能發(fā)展史上的里程碑事件,首次展現(xiàn)出人工智能在復雜決策領(lǐng)域的應用潛力;2021年,蛋白質(zhì)結(jié)構(gòu)預測程序AlphaFold2基于深度神經(jīng)網(wǎng)絡和自注意力機制,通過訓練大規(guī)模序列數(shù)據(jù),實現(xiàn)對蛋白質(zhì)三維結(jié)構(gòu)的高精度預測。這一突破性成果,對藥物設計和疾病診斷具有潛在重要意義;2023年火爆全球的對話生成模型ChatGPT,運用Transformer架構(gòu)中的自注意力機制和多層神經(jīng)網(wǎng)絡生成語言,并通過無監(jiān)督學習的方式不斷迭代語言生成能力,提升人機交互體驗。其代表了人工智能在自然語言處理領(lǐng)域的突破式進展,有望幫助人類獲取信息及智能決策,實現(xiàn)通用認知智能的涌現(xiàn)。

智能驅(qū)動的機器人化學研究近年來取得了一系列突破。2022年,英國格拉斯哥大學的Cronin團隊開發(fā)了自動化機器人系統(tǒng)Chemputer,其集成了文獻閱讀、實驗方案定制、化合物合成和表征功能,能夠?qū)⑽墨I中的合成步驟轉(zhuǎn)換成機器可讀的化學描述語言,并儲存于內(nèi)部數(shù)據(jù)庫中,以便機器人自動執(zhí)行。英國利物浦大學Cooper團隊開發(fā)了移動機器人化學家,其可以高效執(zhí)行實驗,并使用貝葉斯算法優(yōu)化驅(qū)動,根據(jù)已有實驗數(shù)據(jù)進一步分析優(yōu)化實驗計劃;不過,Cooper認為目前的機器人缺乏計算大腦,沒有利用已有的化學知識,不能引入理論或物理模型,以致貝葉斯優(yōu)化是盲目的。2022年,中國科學技術(shù)大學江俊團隊開發(fā)出數(shù)據(jù)智能驅(qū)動的全流程機器化學家,其由機器閱讀系統(tǒng)、機器計算系統(tǒng)和機器實驗系統(tǒng)三大模塊組成,能學習前人知識與智慧,思考產(chǎn)生物理模型及提供智能預測,并高效實驗產(chǎn)生全生命周期數(shù)據(jù)。該平臺充分發(fā)揮機器數(shù)據(jù)可重復、可信任、可溯源、可對齊的優(yōu)點,用精準實驗數(shù)據(jù)校準理論的預訓練模型,實現(xiàn)了理實交融的智能預測。
化學科學研究的發(fā)展趨勢
國際情況。自從ChatGPT在2023年初證明了通用認知智能的可行性,不到半年時間,美國、英國、加拿大、荷蘭、瑞士等國紛紛加速投入發(fā)展裝備智能科學大模型的智慧大腦。2023年,美國更新發(fā)布《國家人工智能研發(fā)戰(zhàn)略計劃》,每年投入大量經(jīng)費用于支持數(shù)據(jù)科學、人工智能、量子信息等研究;2023年起,英國也投入經(jīng)費開始用于融合大模型、機器人和智能聯(lián)盟的智能創(chuàng)新工場建設;2023年4月,加拿大向加速聯(lián)盟追加15億元人民幣投資用于建設大規(guī)模智能實驗室基礎(chǔ)設施;2023年7月,荷蘭開始打造機器人化學實驗室;2022年12月,瑞士投入資金用于打造公共服務設施,借助大模型來驅(qū)動機器人。具有化學智慧的機器科學家支撐產(chǎn)業(yè)數(shù)字化,也已經(jīng)成為現(xiàn)實。2022年,聯(lián)合利華60%的年度研發(fā)經(jīng)費都用于購買英國利物浦大學機器化學家材料創(chuàng)新工廠提供的智能合成與測試服務。
我國情況。目前,我國在覆蓋智能文獻調(diào)研與研究規(guī)劃、計算、實驗、優(yōu)化全流程的機器化學家系統(tǒng)方面局部領(lǐng)先,但在大規(guī)模智能實驗室與化學科學大模型方面亟須進行建制化的項目部署,避免“起個大早,趕個晚集”。
機器化學家云設施:未來化學研究新工具
人工智能技術(shù)的飛速發(fā)展正在為化學科學研究帶來前所未有的機遇和挑戰(zhàn)。在當前科技革命和產(chǎn)業(yè)變革的浪潮中,研發(fā)匯聚科學數(shù)據(jù)、人工智能算法、智能機器人和云平臺的化學研究新工具成為迫切而必要的任務。這一工具的研發(fā)有望解決長期困擾化學科學革新的維度災難和復雜巨系統(tǒng)黑盒問題,從而推動我國在高值化學品、功能材料、生物化學醫(yī)藥等領(lǐng)域取得顛覆性突破。
機器化學家云設施的內(nèi)涵
人類化學家傳統(tǒng)的研究工作路線通常由提出需求、查閱文獻、設計方案、理論模擬和實驗驗證、提煉理論及解決實際問題等流程組成。相較于人類的研究方法論,涵蓋數(shù)據(jù)庫、人機交互、機器實驗員、化學工作站和化學大腦的機器化學家云設施不僅能夠完全覆蓋以上流程,還可以通過人機交互系統(tǒng)進行人機協(xié)同定制化解決特定難題(圖2)。

數(shù)據(jù)是現(xiàn)代科學研究的重要組成部分,對于機器化學家云設施而言更是至關(guān)重要。通過數(shù)據(jù)庫中海量化學數(shù)據(jù)驅(qū)動,機器化學家可以學習前人知識與智慧,人機交互提出科學問題,再經(jīng)過融合科學大模型的化學大腦進行思考,建立物理模型并提供智能預測。隨后給出研究方案,驅(qū)動高效的機器實驗員、化學工作站及智算服務器產(chǎn)生高質(zhì)量的實驗數(shù)據(jù)和理論模擬數(shù)據(jù)。再通過數(shù)據(jù)反饋優(yōu)化科學大模型,形成垂直領(lǐng)域的應用模型,從而解決具體科學難題。其獨特之處在于,能夠高效地整合數(shù)據(jù)知識、不斷調(diào)整理論和實驗設計,實現(xiàn)全流程的智能化推演。目前,中國科學技術(shù)大學研制成功了全球首個數(shù)據(jù)智能驅(qū)動的全流程機器化學家,中國科學院自動化研究所與武漢人工智能研究院推出了“紫東太初”全模態(tài)大模型,科大訊飛研制了“訊飛星火”認知大模型,中國科學院在全國部署了20余個科學數(shù)據(jù)中心、智算中心,具備建設機器化學家云設施的良好基礎(chǔ)。
機器化學家云設施將帶來全新的科研組織形式,即機器實驗員實現(xiàn)科研人員體力的解放,數(shù)據(jù)庫和化學大腦實現(xiàn)科研人員腦力的解放,云平臺智能管理決策系統(tǒng)實現(xiàn)個體間的鏈接,并通過新生成數(shù)據(jù)與科學大模型間的相互對抗校準,逐步進行全局優(yōu)化,通力合作幫助科研用戶取得科學突破。整套設施將大力推動我國科研組織形式的變革,實現(xiàn)大數(shù)據(jù)、認知智能、機器學習、智能硬件等多領(lǐng)域的高度融合,推動科學研究向更深、更廣領(lǐng)域拓展。
建設機器化學家云設施的意義
機器化學家云設施在實驗機器人硬件中融合了深度學習和科學大模型等人工智能技術(shù),為聚合多學科方法論、融合多領(lǐng)域知識邏輯、耦合化學科學家群體智慧、減輕實驗人員工作強度提供了技術(shù)底座,將加速實驗設計和數(shù)據(jù)分析過程,提升化學科學研究的效率和準確性。當前,美英等多國紛紛加速投入發(fā)展裝備有科學大模型的機器科研工具。而智能領(lǐng)域是典型的“贏家通吃”,幾乎沒有后發(fā)優(yōu)勢,只有搶占先機,率先掌握先進科研工具才能使我國在新一輪科技革命中不受制于人。因此,把握我國自主研發(fā)機器化學家的領(lǐng)先優(yōu)勢,研制機器化學家云設施,能夠防范我國在智能化學研究新范式的基礎(chǔ)研究工具方面被“卡脖子”,爭搶智能化學領(lǐng)域優(yōu)勢地位。機器化學家云設施的建設也將對整個社會產(chǎn)生積極的溢出效應,推動產(chǎn)業(yè)數(shù)字化,提升生產(chǎn)效率,還有望催生新一輪的產(chǎn)業(yè)革命。
總體而言,機器化學家云設施對增強我國在科技創(chuàng)新領(lǐng)域的競爭力、確保在新興科技領(lǐng)域中的領(lǐng)先地位具有巨大而深遠的意義,將助力我國在全球新一輪科技革命中取得更大的發(fā)展和突破。
機器化學家云設施:分層架構(gòu)
通過科學大模型預測和智能機器人實證相互對抗、協(xié)同進化,打造具備化學科學智能的機器化學家云設施,將驅(qū)動研究范式變革,產(chǎn)生重大科學突破。
化學科學數(shù)據(jù)庫
數(shù)據(jù)驅(qū)動的研究范式中,科學數(shù)據(jù)的有效整合和利用是創(chuàng)新的核心驅(qū)動力。然而,當前科學數(shù)據(jù)普遍存在標準不統(tǒng)一、質(zhì)量良莠不齊、多來源數(shù)據(jù)相對獨立等問題,限制了基于數(shù)據(jù)的化學科學研究。因此,迫切需要打破數(shù)據(jù)孤島現(xiàn)象,融合不同來源的理論和實驗數(shù)據(jù)構(gòu)建多學科知識和多模態(tài)數(shù)據(jù)的人工智能化學科學數(shù)據(jù)庫。這將為化學科學領(lǐng)域的智能發(fā)展提供堅實的數(shù)據(jù)基礎(chǔ)。
化學科學數(shù)據(jù)庫將嵌入人工智能模型,并匯聚文獻數(shù)據(jù)、整合理論與實驗數(shù)據(jù),包括以下4個方面。
化學科學領(lǐng)域數(shù)據(jù)匯聚。整合各單位數(shù)據(jù)資源,利用科學文獻中的文本、表格、圖像等多模態(tài)數(shù)據(jù),以及第一性原理模擬所產(chǎn)生的大量化學分子和材料的基礎(chǔ)物理化學數(shù)據(jù)。同時,建立實驗數(shù)據(jù)采集渠道和國家標準,實現(xiàn)標準化數(shù)據(jù)的自動采集和快速分析。
科技文獻機器閱讀工具建設。通過對來源于科技期刊、教科書、題庫等語料數(shù)據(jù)的清理、篩選和標注,獲取高價值通用領(lǐng)域預訓練語料和化學科學領(lǐng)域預訓練語料。利用深度挖掘技術(shù)對科技文獻內(nèi)容進行深入挖掘,從文本、圖像、表格中提取計算和實驗數(shù)據(jù)。
數(shù)據(jù)精編與高質(zhì)量數(shù)據(jù)庫建設。標注預訓練語料,對文獻中的計算和實驗數(shù)據(jù)進行整編,并進行數(shù)據(jù)分類和質(zhì)量評估。開發(fā)基于可解釋模型的數(shù)據(jù)鑒別和質(zhì)量評分技術(shù),以智能方式清洗數(shù)據(jù)。
知識嵌入與知識圖譜構(gòu)建。運用映射關(guān)系分析構(gòu)建關(guān)聯(lián)模型,建立化學科學知識圖譜,包括結(jié)構(gòu)、性質(zhì)、演化關(guān)聯(lián)性。通過知識圖譜引導多模態(tài)數(shù)據(jù)融合,構(gòu)建統(tǒng)一、高效、可擴展、結(jié)構(gòu)清晰的數(shù)據(jù)存儲格式。利用預訓練模型等工具將知識圖譜嵌入到化學科學大模型中,提升知識的利用效率。
科學大模型
當前,基于神經(jīng)網(wǎng)絡的大模型在預測方面存在可靠性不高、邏輯推理和語義理解深度不足、可解釋性和可調(diào)試性不強等核心問題,因此在對準確度要求較高的化學科學的應用中表現(xiàn)不佳。針對這些問題,需要發(fā)展基于數(shù)理邏輯的科學大模型,將數(shù)據(jù)驅(qū)動的神經(jīng)網(wǎng)絡模型與知識驅(qū)動的符號邏輯推理引擎深度融合,并應用于數(shù)學、化學、物理等智能科學領(lǐng)域。
本研究提出的科學大模型框架在現(xiàn)有數(shù)據(jù)庫、潛在數(shù)據(jù)庫和終端應用基礎(chǔ)上,專注于研究知識驅(qū)動的推理引擎。該引擎構(gòu)建在領(lǐng)域本體和知識庫之上,并與數(shù)據(jù)庫和潛在數(shù)據(jù)庫連接,以模擬人類思考的認知推理和決策能力,從而彌補大型模型在可靠性、可解釋性和可調(diào)試性等方面的缺陷。
科學大模型通過綜合知識圖譜和基于化學認知的知識增強算法,融入專家的化學知識和理解,利用特色化學描述符,創(chuàng)建基于化學原理的清晰人工智能算法,以解決大規(guī)模篩選和策略優(yōu)化等復雜挑戰(zhàn),構(gòu)建出具備“化學智慧”的機器科學家大腦。根據(jù)用戶需求,設計實驗方案和運行流程,實時分析實驗數(shù)據(jù),調(diào)整智能模型,并持續(xù)反饋優(yōu)化實驗方案,實現(xiàn)實驗方案和流程的自動決策與優(yōu)化。
機器人平臺
機器人平臺將提供高效、精準的實驗和數(shù)據(jù)處理解決方案,具體包括以下4個方面。
基于微通道連續(xù)流的全自動高通量研究系統(tǒng)。系統(tǒng)旨在精確、自動、高通量地進行重要有機化學反應和關(guān)鍵功能材料合成,需要解決多領(lǐng)域技術(shù)問題,并集成多個關(guān)鍵功能子系統(tǒng),包括多通道反應物自動切換、微通道連續(xù)流反應、產(chǎn)物收集和后處理、在線檢測和自動采樣、色譜接口、反應溫度控制、總控和人機交互系統(tǒng)。
全自動高通量研究系統(tǒng)的功能擴展。為確保高通量實驗結(jié)果可靠性,各子系統(tǒng)配備冗余傳感器,并結(jié)合視覺識別技術(shù)進行實時反饋和異常數(shù)據(jù)自動篩選。研究人員只需準備反應物庫和輸入反應矩陣,系統(tǒng)即可完成實驗、后處理和檢測,并批量輸出數(shù)據(jù)。未來可通過增加子系統(tǒng)和功能模塊,拓展研究范圍,完成更復雜的后處理和檢測分析工作。
全自主實驗的移動操作機器人。設計六自由度機械臂與全向移動底盤的軟硬件集成;設計實驗室環(huán)境的視覺感知算法,以及高精度視覺引導、實時力反饋的靈巧控制方法;研究多模態(tài)數(shù)據(jù)的高精度定位和建圖方法,開發(fā)動態(tài)避障算法和任務管理系統(tǒng),實現(xiàn)移動操作機器人的全自主實驗。
全流程智能化學實驗室。研制自主知識產(chǎn)權(quán)的自動封裝機、液體自動分配工作站和電化學自動化測試工作站,同時設計全自主移動操作機器人、高通量實驗平臺、實驗儀器設備的協(xié)同控制系統(tǒng)和全流程任務調(diào)度系統(tǒng),以搭建集成化學合成、譜學表征和性能測試等功能的全流程智能化學實驗室(圖3),實現(xiàn)化學研究的全場景覆蓋。

智能管理決策系統(tǒng)
智能管理決策系統(tǒng)即智能化學云平臺,包括機器化學家指令集、操作系統(tǒng)、聯(lián)邦學習算法系統(tǒng)等,促使機器化學家能夠在不同實驗任務和實驗室之間進行遷移學習,最終構(gòu)建標準化的云平臺層面智能化學實驗室(圖4)。

指令集包括開發(fā)接口函數(shù)、通信協(xié)議、設備規(guī)范和數(shù)據(jù)標準4個部分的標準化,以支持不同來源的數(shù)據(jù)對齊,實現(xiàn)數(shù)據(jù)互聯(lián)互通。具有友好人機交互界面、明確業(yè)務流、直觀數(shù)據(jù)可視功能的操作系統(tǒng)幫助科研人員擺脫物理空間限制,遠程即可開展實驗、模擬和數(shù)據(jù)分析,同時也便于系統(tǒng)整體進行實驗任務調(diào)配、合理安排資源。聯(lián)邦學習算法系統(tǒng)的核心是數(shù)據(jù)不動、模型動,即可以在保障數(shù)據(jù)隱私安全的前提下,支持不同用戶不同實驗室之間的數(shù)據(jù)共享。
通過發(fā)布智能化學實驗室的標準規(guī)范,實現(xiàn)在云端共享使用數(shù)據(jù)庫和人工智能模型。這一系統(tǒng)旨在實現(xiàn)智能管理決策,促進不同實驗室間操作的高效性和一致性。
結(jié)語:依托機器化學家云設施變革化學研究范式
以蒸汽機和電機為代表的前兩次“碳基”工業(yè)革命幫助人類突破了“體力”的限制,以計算機為代表的第三次“硅基”信息技術(shù)革命幫助人類突破了“算力”的限制。智能時代已經(jīng)到來,突破人類“腦力”限制的第四次通用智能工業(yè)革命已呼之欲出。呼應時代浪潮,機器化學家云設施的化學科學數(shù)據(jù)庫、科學大模型、機器人平臺、智能管理決策系統(tǒng),將集成解放人類科研人員的“記憶力、體力、算力、腦力”限制,打破科研過程中的知識壁壘、空間限制、學科界限,智能連接科研個體并大幅度拔高其科研能力,全面變革我國化學科學乃至整個物質(zhì)科學研究范式。
(作者:崇媛媛、馮碩、王嵩、江俊,中國科學技術(shù)大學精準智能化學重點實驗室;編審:劉一霖;《中國科學院院刊》供稿)







