色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

 
 

大數(shù)據(jù)分析處理技術(shù)新體系的思考

發(fā)布時間:2022-03-01 09:45:38  |  來源:中國網(wǎng)·中國發(fā)展門戶網(wǎng)  |  作者:程學(xué)旗、 劉盛華、張儒清  |  責(zé)任編輯:楊霄霄
關(guān)鍵詞:大數(shù)據(jù),技術(shù)架構(gòu),系統(tǒng)棧,新模式,新范式,安全可信

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊信息社會進入大數(shù)據(jù)時代后,人們的日常工作和行為、各種在線系統(tǒng)(如信息系統(tǒng)、工業(yè)生產(chǎn)線)的工作狀態(tài)、各類傳感器的信號、導(dǎo)航定位系統(tǒng)(全球定位系統(tǒng)?GPS、北斗衛(wèi)星導(dǎo)航系統(tǒng)等)產(chǎn)生的記錄等作為“經(jīng)驗”被常規(guī)地記錄成為大規(guī)模數(shù)據(jù)。不同于以往為驗證科學(xué)理論和猜想而記錄和收集的科學(xué)大數(shù)據(jù),記錄這些大規(guī)模數(shù)據(jù)起初并沒有明確的科學(xué)目標。但是,它們卻制造了另外的機會。人們可以通過這些數(shù)據(jù)發(fā)現(xiàn)和總結(jié)出規(guī)律,并依據(jù)這些規(guī)律提升系統(tǒng)的效率,也可預(yù)測、判斷未來的趨勢,甚至輔助做出更加科學(xué)理性的決策。這個過程所依賴的就是大數(shù)據(jù)分析處理技術(shù)。因此,大數(shù)據(jù)分析處理技術(shù)旨在利用數(shù)據(jù)科學(xué)的方法和廣泛記錄下來的數(shù)據(jù),以實現(xiàn)從數(shù)據(jù)到信息、信息到知識、知識到?jīng)Q策的價值轉(zhuǎn)換。

當(dāng)前,數(shù)字經(jīng)濟成為社會經(jīng)濟的一個重要內(nèi)涵,數(shù)據(jù)成為關(guān)鍵生產(chǎn)要素,大數(shù)據(jù)處理技術(shù)越來越深刻地影響著世界的運行狀態(tài)。隨著越來越多的數(shù)據(jù)被記錄、收集和存儲,如何深刻洞察數(shù)據(jù)分布規(guī)律、高效挖掘數(shù)據(jù)價值,成為智能化時代需要解決的關(guān)鍵問題。據(jù)美國國際數(shù)據(jù)公司(IDC)的報告,2020?年全球數(shù)據(jù)量為?44?ZB?左右,2025?年全球數(shù)據(jù)量將達到?175?ZB。而這些數(shù)據(jù)只有?2%?得到了留存,且留存的僅?50%?被使用過。由此可見,線性提升的數(shù)據(jù)處理能力并無法匹配指數(shù)級增長的數(shù)據(jù)規(guī)模,使得兩者之間的“剪刀差”越來越大。與此同時,在龐大的數(shù)據(jù)空間中,對特定任務(wù)真正有價值的核心數(shù)據(jù)卻往往是極度稀疏或不完整的。以上現(xiàn)象即數(shù)據(jù)泛濫與高價值數(shù)據(jù)缺失并存的表現(xiàn)。

以互聯(lián)網(wǎng)平臺企業(yè)服務(wù)為代表的智能化應(yīng)用大都采用“大數(shù)據(jù)+大模型+大算力”支撐的大數(shù)據(jù)分析處理技術(shù),主要通過系統(tǒng)的優(yōu)化來增加數(shù)據(jù)處理規(guī)模并提升計算性能,從而有效解決了一些相對低階復(fù)雜度的預(yù)測判定問題,如圖像分類、語音識別、結(jié)構(gòu)預(yù)測,以及規(guī)則明確的人機對弈游戲等。而在開放復(fù)雜的系統(tǒng)環(huán)境下,數(shù)據(jù)動態(tài)生成演化,影響系統(tǒng)運行狀態(tài)的不確定因素和變量巨大,從而導(dǎo)致一些高階復(fù)雜的問題難以直接模型化,或近似求解的結(jié)果不可信,如金融風(fēng)險預(yù)測、個性智能診療、開放環(huán)境下的自動駕駛等。在這些高階復(fù)雜的真實系統(tǒng)中,數(shù)據(jù)采集分布往往是不穩(wěn)定和不完備的,這對要求精準判別的大數(shù)據(jù)分析處理模式提出了新的挑戰(zhàn)。

同時,解決數(shù)據(jù)與算法的安全可信問題也已迫在眉睫。數(shù)據(jù)流通共享的過程中面臨著數(shù)據(jù)濫用、隱私泄露的情況。數(shù)據(jù)本身可能也會引入真實世界存在的偏差,或者在對抗攻擊下數(shù)據(jù)被污染,使得大數(shù)據(jù)分析模型做出有偏的、錯誤的決策。在大數(shù)據(jù)分析處理技術(shù)逐漸應(yīng)用于關(guān)鍵領(lǐng)域的當(dāng)下,如何讓大數(shù)據(jù)技術(shù)以一種安全可信的方式服務(wù)于各個領(lǐng)域,是未來大數(shù)據(jù)發(fā)展必須面對的又一個難題。

本文首先回顧了近?10?年來大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀,并針對數(shù)據(jù)泛濫與數(shù)據(jù)缺失并存、大數(shù)據(jù)分析研判的復(fù)雜不確定性和數(shù)據(jù)安全缺失等挑戰(zhàn),提出大數(shù)據(jù)分析的新范式和安全可信的大數(shù)據(jù)處理新架構(gòu),探索大數(shù)據(jù)支撐智能應(yīng)用的新模式。在此基礎(chǔ)上,提出構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧,并展望新技術(shù)體系下的牽引性需求與重大應(yīng)用。 

大數(shù)據(jù)分析處理現(xiàn)狀

近?10?年來,在產(chǎn)學(xué)研各界及政府主導(dǎo)的大力推動下,大數(shù)據(jù)技術(shù)架構(gòu)、生態(tài)環(huán)境及各行各業(yè)的大數(shù)據(jù)應(yīng)用發(fā)展迅速。

大數(shù)據(jù)技術(shù)架構(gòu)

海量數(shù)據(jù)促進了大數(shù)據(jù)技術(shù)架構(gòu)的發(fā)展。大數(shù)據(jù)管理技術(shù)方面。傳統(tǒng)關(guān)系數(shù)據(jù)庫(SQL)主要處理較少數(shù)據(jù)和較小并發(fā)訪問規(guī)模,而且存在大量讀寫硬盤和日志記錄操作,難以橫向擴展,無法滿足互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)管理需求。為了實現(xiàn)更多的數(shù)據(jù)管理、更大規(guī)模的并發(fā)訪問及更多樣的數(shù)據(jù)模式,面向特定需求的各類非關(guān)系型數(shù)據(jù)庫(NoSQL)和從底層重構(gòu)的分布式關(guān)系數(shù)據(jù)庫(NewSQL)正在快速發(fā)展。其中,NewSQL?保持了傳統(tǒng)數(shù)據(jù)庫支持事務(wù)處理正確執(zhí)行四要素(ACID)和?SQL?標準查詢等特性,并具備與?NoSQL?同樣優(yōu)秀的可擴展性。大數(shù)據(jù)處理技術(shù)方面。根據(jù)處理需求的不同,存在多種不同的并行計算模型,包括以?Hadoop、Spark?為代表的批處理,以?Spark Streaming、Flink、STORM?為代表的高實時性的流處理,以?Apache Beam、Lambda?為代表的流批一體混合處理,以及以?GraphX、Apache Giraph?為代表的圖處理。同時,圖數(shù)據(jù)和實時數(shù)據(jù)處理的爆發(fā)性需求也推動了圖流處理模式的融合。除此之外,計算硬件逐漸發(fā)展為多種計算單元(如?CPU、GPU、NPU?等)組成的異構(gòu)計算系統(tǒng),新型硬件和軟件的多層次融合進一步提升了大數(shù)據(jù)處理效率。大數(shù)據(jù)分析技術(shù)方面。分析需求逐漸從小規(guī)模、單源、單一模態(tài)數(shù)據(jù)的統(tǒng)計挖掘分析轉(zhuǎn)變?yōu)楹A?、多源、多模態(tài)數(shù)據(jù)的復(fù)雜異質(zhì)關(guān)聯(lián)。深度學(xué)習(xí)技術(shù)的快速發(fā)展,推動了大數(shù)據(jù)分析模型能力的提升。神經(jīng)網(wǎng)絡(luò)模型在?2012?年的計算機視覺的目標識別項目?ImageNet?比賽奪冠后重回人們的視野,隨后誕生了一系列突破性的工作,包括知識圖譜提供知識服務(wù)、生成對抗網(wǎng)絡(luò)合成真實數(shù)據(jù)、AlphaGo?圍棋戰(zhàn)勝人類、GPT-3?預(yù)訓(xùn)練語言模型等。此外,日益成熟的深度學(xué)習(xí)框架(如?TensorFlow、PyTorch、飛槳等)也降低了使用深度學(xué)習(xí)分析大數(shù)據(jù)的門檻。

大數(shù)據(jù)應(yīng)用

近年來大數(shù)據(jù)分析處理技術(shù)飛速發(fā)展,催生了眾多大數(shù)據(jù)應(yīng)用,賦能了大量行業(yè)的智能化發(fā)展,一些標志性的應(yīng)用從模式和能力上顛覆了傳統(tǒng)的信息技術(shù)能力??茖W(xué)發(fā)現(xiàn)方面。DeepMind?公司的?Alpha-fold?可基于蛋白質(zhì)的基因序列數(shù)據(jù)預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),進而分析蛋白質(zhì)的屬性,幫助生物學(xué)取得了重大進展。數(shù)字經(jīng)濟方面。電商平臺的興起,連接遍布全球各個角落的消費者和供貨方,通過交易大數(shù)據(jù)的精準分析,提高了交易效率,推動了在線支付與數(shù)字貨幣的使用,顛覆了社會征信的模式;基于大數(shù)據(jù)進行的金融風(fēng)險研判、小微金融和普惠式金融等也促進了數(shù)字經(jīng)濟的繁榮。社會安全方面。我國使用大數(shù)據(jù)方法輔助公共衛(wèi)生、金融等領(lǐng)域的社會治理與決策;美國嘗試研究大數(shù)據(jù)技術(shù)在解決社會不平等、城市政策制定方面的作用。生命健康方面。英國基于海量學(xué)術(shù)論文和臨床試驗結(jié)果研發(fā)了治愈運動神經(jīng)衰退等多種藥物,以及近兩年各國大量使用的數(shù)字接觸追蹤技術(shù),輔助預(yù)測了疫情傳播速度和趨勢,分別被列入《麻省理工科技評論》2020?年和?2021?年的“全球十大突破性技術(shù)”。國內(nèi)外大數(shù)據(jù)技術(shù)的應(yīng)用改變了諸多傳統(tǒng)行業(yè)中耗時耗力的工作方式,取得了智能高效的豐碩成果。

大數(shù)據(jù)生態(tài)建設(shè)

大數(shù)據(jù)分析處理的繁榮離不開大規(guī)模數(shù)據(jù)資源共享、技術(shù)架構(gòu)開放和算法模型開源所形成的技術(shù)生態(tài)發(fā)展。開源數(shù)據(jù)方面。開源數(shù)據(jù)支撐各類大數(shù)據(jù)技術(shù)的構(gòu)建。例如,2009?年美國斯坦福大學(xué)發(fā)布的視覺數(shù)據(jù)集?ImageNet、2015?年美國麻省理工學(xué)院發(fā)布的大規(guī)模醫(yī)療信息數(shù)據(jù)庫?MIMIC-Ⅲ、2020?年斯坦福大學(xué)發(fā)布的圖數(shù)據(jù)集?Open Graph Benchmark,都極大地影響了大數(shù)據(jù)技術(shù)的發(fā)展。開源軟件方面。Apache?軟件基金會基于?Hadoop?生態(tài)先后發(fā)布了一整套完善的分布式存儲與處理框架?Map-Reduce、線性代數(shù)計算框架?Mahout、機器學(xué)習(xí)庫?MLlib?等,旨在讓開發(fā)者快速實現(xiàn)和應(yīng)用大數(shù)據(jù)分析處理算法。2014?年以來,深度神經(jīng)網(wǎng)絡(luò)的開源框架,如?Caffe、Tensorflow、PyTorch?等,更是為從大數(shù)據(jù)中學(xué)習(xí)面向不同任務(wù)的智能模型提供了重要支持。開源模型方面。基于大規(guī)模數(shù)據(jù)學(xué)習(xí)的?BERT、GPT3?等預(yù)訓(xùn)練語言模型,大幅降低了相關(guān)技術(shù)的應(yīng)用成本,拓寬了下游應(yīng)用場景。此外,如何保障數(shù)據(jù)安全和個人隱私,最近也得到了各國政府和組織的高度重視。因此,兼顧技術(shù)發(fā)展和數(shù)據(jù)安全,平衡效率和風(fēng)險,建立良好的大數(shù)據(jù)生態(tài)環(huán)境,仍需要進一步探索。 

新一代大數(shù)據(jù)分析處理需求

當(dāng)前針對大規(guī)模異質(zhì)化數(shù)據(jù)集合,主流的大數(shù)據(jù)分析處理方法是在通用模型框架下不斷嘗試超大規(guī)模的模型參數(shù),實現(xiàn)“端到端”的分析推斷。在這種模式下,大數(shù)據(jù)分析處理能力很大程度依賴于算力平臺和數(shù)據(jù)資源的支持。在實際應(yīng)用中,這些大數(shù)據(jù)分析處理技術(shù)面臨著真實場景和關(guān)鍵領(lǐng)域中數(shù)據(jù)泛濫與缺失并存、大數(shù)據(jù)分析研判的復(fù)雜不確定性、數(shù)據(jù)安全監(jiān)管缺失等挑戰(zhàn),最終使得分析處理存在過程可解釋性差、模型泛化能力弱、因果規(guī)律不清晰、研判結(jié)果不可信、數(shù)據(jù)價值利用率低等問題。為解決這些挑戰(zhàn)性問題,我們需要重新思考大數(shù)據(jù)處理架構(gòu)與分析模式,新一代的大數(shù)據(jù)分析處理技術(shù)體系應(yīng)該在各種實時場景下實現(xiàn)高價值知識生成、持續(xù)在線的瞬時決策、安全可信的推理研判,以及適用于未來各種有人-無人結(jié)合的在線系統(tǒng)行動優(yōu)化。本文認為,新一代大數(shù)據(jù)分析處理至少需要滿足如下?4?個方面的需求。

人在回路的計算范式。為解決現(xiàn)有大數(shù)據(jù)分析處理方法難以攻克的高階復(fù)雜問題,需要在其中引入人的智能與決策,強調(diào)人、機器及數(shù)據(jù)之間的有機交互。不同于原來的人機交互,即機器按照人的指令,或人聽機器的輸出結(jié)果,而是更關(guān)注人腦和機器思維的深度融合計算。

廣譜關(guān)聯(lián)的分析模式。為解決大數(shù)據(jù)價值密度低、極稀疏、不均勻、關(guān)鍵信息缺失的問題,一方面,融合各個對象在“人機物”融合的多域多維數(shù)據(jù)空間中留下的多元異構(gòu)信號,利用關(guān)聯(lián)增強信號;另一方面,融合數(shù)據(jù)與知識,構(gòu)建終生學(xué)習(xí)、可遷移擴展的知識體系,形成數(shù)據(jù)驅(qū)動與知識制導(dǎo)深度融合的新分析模式。

在線增強的處理架構(gòu)。隨著萬物互聯(lián)和智能泛在發(fā)展,大數(shù)據(jù)云邊端協(xié)同計算技術(shù)和解耦化的云邊端處理框架成為熱點?;谠朴嬎悱h(huán)境下的流批混合處理將進一步向邊緣端發(fā)展,訓(xùn)練學(xué)習(xí)與推理預(yù)測將在前端設(shè)備上融合一體。利用云邊端資源彈性調(diào)度能力,實現(xiàn)感知與認知能力前置,支持在線環(huán)境下基于動態(tài)活性數(shù)據(jù)的瞬時決策,從而形成去中心化、異構(gòu)分布、持續(xù)在線的新型計算框架。

安全可信的大數(shù)據(jù)分析。安全可信是滿足關(guān)鍵領(lǐng)域和場景下認知和決策安全的基本需求。一方面,著重關(guān)注大數(shù)據(jù)分析處理結(jié)果的可解釋、可信和公平性;另一方面,實現(xiàn)數(shù)據(jù)在收集、存儲、使用、流通中的安全保護和異常檢測,保證在強對抗攻擊下分析處理模型與方法的魯棒性和免疫性。 

新一代大數(shù)據(jù)分析處理軟件棧

在高效的大數(shù)據(jù)價值提取、安全可信的分析處理目標下,針對以上?4?個大數(shù)據(jù)分析處理的重要需求,未來急需建立自立自強的大數(shù)據(jù)分析處理技術(shù)新體系,發(fā)展新一代大數(shù)據(jù)分析處理軟件棧(圖?1),從底層數(shù)據(jù)操作系統(tǒng)、通用分析處理中間件、業(yè)務(wù)驅(qū)動的計算環(huán)境及框架?3?個方面進行研究。

全棧式的大數(shù)據(jù)系統(tǒng)軟件

發(fā)展并涵蓋數(shù)據(jù)接入、流式處理、圖計算、訓(xùn)推一體等多個方面的大數(shù)據(jù)系統(tǒng)軟件。

數(shù)據(jù)接入方面。針對當(dāng)前數(shù)據(jù)采集流程中數(shù)據(jù)來源繁多、數(shù)據(jù)類型混合及異質(zhì)數(shù)據(jù)存儲效率低下的難題,研究“人機物”融合的數(shù)據(jù)匯聚與融合方法,支持對多種數(shù)據(jù)源的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的采集與融合,探索高效的存儲算法,提高底層存儲空間利用效率,支持對數(shù)據(jù)的高效壓縮與還原,實現(xiàn)對“人機物”三元數(shù)據(jù)空間中的多源異構(gòu)數(shù)據(jù)進行高效感知、采集、融合與存儲,為系統(tǒng)提供高質(zhì)量的數(shù)據(jù)流接入。

流式處理方面?,F(xiàn)有大數(shù)據(jù)處理框架中存在計算模式單一的問題,即單獨追求大批量或強時效。針對這一問題,將研究多計算模式融合的流式處理框架,支持批處理、流處理、圖處理等多種計算模式,實現(xiàn)低延時、大流量、強時效的數(shù)據(jù)處理,以應(yīng)對不斷接入的高速數(shù)據(jù)流。

關(guān)聯(lián)數(shù)據(jù)的計算方面?,F(xiàn)有計算框架難以適應(yīng)圖結(jié)構(gòu)數(shù)據(jù)的強數(shù)據(jù)依賴性、高隨機訪存與非均勻冪律分布特性。針對這一問題,研究針對圖結(jié)構(gòu)和網(wǎng)絡(luò)大數(shù)據(jù)的計算引擎,提出大規(guī)模圖數(shù)據(jù)的新型分布式計算框架和并行計算機制,定制大規(guī)模圖數(shù)據(jù)的查詢語言標準與規(guī)范,實現(xiàn)圖查詢與圖分析語言的標準化。

訓(xùn)練推理方面。現(xiàn)有云端大數(shù)據(jù)處理架構(gòu)難以滿足大規(guī)模服務(wù)的實時性與計算資源需求。針對這一問題,研究云邊端協(xié)同的訓(xùn)推一體框架,將大數(shù)據(jù)分析處理中的訓(xùn)練與推斷流程從云端推向邊緣,支持訓(xùn)推一體,在數(shù)據(jù)生成的邊端提供服務(wù)和執(zhí)行計算,實現(xiàn)“認知前置”和終生學(xué)習(xí),以提供分布式、低延遲、持續(xù)在線的智能服務(wù)和瞬時決策。

重構(gòu)大數(shù)據(jù)分析處理流程

從預(yù)處理、數(shù)據(jù)表征、語義分析與知識推理、決策研判到可視化的全技術(shù)鏈上升級創(chuàng)新。

數(shù)據(jù)質(zhì)量處理與簡約計算方面。針對數(shù)據(jù)質(zhì)量處理,可發(fā)展利用群智技術(shù)挖掘高質(zhì)量數(shù)據(jù),以低成本、高效率的方式實現(xiàn)大規(guī)模數(shù)據(jù)的采集處理;針對簡約計算方面,可研究基于數(shù)據(jù)復(fù)雜度的近似計算理論和優(yōu)化算法框架,以此指導(dǎo)人們尋找面向計算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法,構(gòu)建具有高效計算能力的模型。

大數(shù)據(jù)高階表征與建模方面。探索基于無監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)表征學(xué)習(xí)的理論與方法,從大規(guī)模未標注的語料數(shù)據(jù)中抽取高層次語義抽象的數(shù)據(jù)表征,提高語義表征的泛化能力;研究基于小樣本數(shù)據(jù)的預(yù)訓(xùn)練—微調(diào)模型,在大規(guī)模無監(jiān)督語料訓(xùn)練得到的數(shù)據(jù)表征基礎(chǔ)上,構(gòu)建輔助上層任務(wù)的通用高質(zhì)量數(shù)據(jù)表征;探索基于領(lǐng)域知識的預(yù)訓(xùn)練數(shù)據(jù)建模理論與方法,將人類知識融合到預(yù)訓(xùn)練模型中,提升預(yù)訓(xùn)練模型的學(xué)習(xí)效率等。同時,為應(yīng)對數(shù)據(jù)多源異構(gòu)造成的知識隔閡,有必要進一步發(fā)展跨模態(tài)數(shù)據(jù)表征和建模、多源知識融合技術(shù),以實現(xiàn)全域知識聯(lián)合和利用。

大數(shù)據(jù)驅(qū)動的語義分析與知識推理方面。研究面向細粒度語義單元的大數(shù)據(jù)語義融合方法,顯著提高多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)融合的效果;研究樣本稀疏環(huán)境下的領(lǐng)域知識獲取、大規(guī)模常識獲取與理解、知識獲取中的人機協(xié)作機制與方法,提升知識獲取的能力,大幅提高知識庫的規(guī)模;研究基于知識圖譜的可解釋分析方法、數(shù)據(jù)驅(qū)動與知識引導(dǎo)深度融合的新型語義分析方法,顯著提升知識驅(qū)動下各類模型的效果和可解釋性。

人機結(jié)合的增量決策研判方面。未來大量物理設(shè)備、無人設(shè)備、人腦,通過泛在網(wǎng)絡(luò)實現(xiàn)“上線”和“互聯(lián)”,為人的參與提供了基本的物質(zhì)條件。人作為具備智能的自然系統(tǒng),如何參與到機器智能的系統(tǒng)回路中是一個關(guān)鍵問題。未來應(yīng)重點解決思維融合或決策融合的問題,探索人腦數(shù)據(jù)及機器智能系統(tǒng)信息可相互轉(zhuǎn)換的新型數(shù)據(jù)科學(xué)理論,并設(shè)計高效能的計算方法。當(dāng)下的算法模型不會隨著數(shù)據(jù)的生成而持續(xù)學(xué)習(xí),即無法應(yīng)對連續(xù)和意外變化的環(huán)境,特別是在任務(wù)關(guān)鍵型應(yīng)用程序中更需謹慎。因此,研究持續(xù)學(xué)習(xí)、在線學(xué)習(xí)等技術(shù),實現(xiàn)算法模型持續(xù)在線瞬時決策十分必要。

探索式可視化分析方面。研究新型的跨主體(人、機、物)可視交互理論,構(gòu)建多人協(xié)同的混合主動式可視分析范式,支持多人同時對相同或不同的可視化視圖進行多角度的探索,設(shè)計相應(yīng)的可視表達與交互形式;研究圍繞大數(shù)據(jù)可視化的認知計算與聚合理解模型、方法與核心技術(shù),構(gòu)建人機協(xié)同智能及其驅(qū)動的大數(shù)據(jù)可視內(nèi)容與屬性的自動理解關(guān)鍵技術(shù);提升圍繞大數(shù)據(jù)可視化的計算機自動理解、表示與生成能力等,構(gòu)建大數(shù)據(jù)可視計算與交互技術(shù)體系。

建立任務(wù)驅(qū)動的大數(shù)據(jù)計算環(huán)境

從可組合的模塊化編程框架、可伸縮的大數(shù)據(jù)分析處理框架、任務(wù)感知的知識重構(gòu)模型裁剪這?3?個方面發(fā)力,為各行各業(yè)提供場景感知、共識感知的更優(yōu)質(zhì)和更靈活的分析處理環(huán)境。

可組合的模塊化編程框架方面。未來可發(fā)展面向多業(yè)務(wù)可擴展、可重構(gòu)的敏捷開發(fā)框架,構(gòu)建多形態(tài)分析模式庫和智能業(yè)務(wù)編程框架,突破多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)分析和全息展示,實現(xiàn)對數(shù)據(jù)、算法、模型的高層次抽象,形成支撐面向任務(wù)場景的智能組合分析算子庫,實現(xiàn)智能算法的內(nèi)生性支持,賦能人機混合的交互式協(xié)同分析。

可伸縮的大數(shù)據(jù)分析處理框架方面。未來可發(fā)展支持彈性計算、可伸縮模型、可彈性配置的處理框架,即根據(jù)實際應(yīng)用的任務(wù)場景與計算資源的需求等方面劃分各種任務(wù),滿足特定需求、精度需求、延時需求、實時性需求等;同時,構(gòu)建可伸縮的大數(shù)據(jù)分析處理框架,能夠靈活配置計算資源和數(shù)據(jù)規(guī)模,以實現(xiàn)彈性適配。

任務(wù)感知的知識重構(gòu)和模型裁剪方面。未來可發(fā)展面向任務(wù)的高級知識計算語言和模型裁剪技術(shù),基于通用知識圖譜實現(xiàn)面向特定領(lǐng)域任務(wù)的知識重構(gòu),建立起常識與領(lǐng)域知識融合的知識計算引擎,顯著提升知識管理和利用的能力與效率。

推動新一代大數(shù)據(jù)分析處理技術(shù)發(fā)展建議

建立理論基礎(chǔ)。大數(shù)據(jù)分析處理技術(shù)新體系的建立,離不開基礎(chǔ)理論的突破。建立數(shù)據(jù)復(fù)雜性和大數(shù)據(jù)可計算性理論?;貧w數(shù)據(jù)本原,探索數(shù)據(jù)在分布規(guī)律、結(jié)構(gòu)規(guī)則和時空尺度方面的規(guī)律性,以此設(shè)計高效能的計算方法。探索異質(zhì)廣譜關(guān)聯(lián)的大數(shù)據(jù)分析理論。將各類目標在“人機物”融合的多維數(shù)據(jù)空間留下的微弱信號進行關(guān)聯(lián)放大,研究廣域開環(huán)、非統(tǒng)一量綱環(huán)境下瞬時決策推斷方法的收斂性理論。研究大數(shù)據(jù)分析處理的安全可信理論。一方面,研究數(shù)據(jù)的安全共享和隱私計算理論,保障數(shù)據(jù)流通共享過程中的安全性;另一方面,研究數(shù)據(jù)的固有偏差性和數(shù)據(jù)遭受攻擊時的分析處理的魯棒性極限和可驗證理論,建立可防范、可審計、可追責(zé)的機制,保證強對抗環(huán)境下分析處理結(jié)果的可信。

加大應(yīng)用牽引。新大數(shù)據(jù)分析處理技術(shù)體系應(yīng)能全面高效賦能行業(yè)、產(chǎn)業(yè)、安全領(lǐng)域。同時,還需要利用科學(xué)發(fā)現(xiàn)、生命健康、社會治理等牽引性應(yīng)用場景來推動大數(shù)據(jù)分析處理新體系的健康、良性發(fā)展。科學(xué)發(fā)現(xiàn)方面。研究借助大數(shù)據(jù)分析技術(shù)從大量實驗數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律,形成基于大數(shù)據(jù)分析的新型科學(xué)研究方法論。生命健康方面。研究大數(shù)據(jù)方法用于輔助復(fù)雜化合物分子的發(fā)現(xiàn),降低新型藥物的研發(fā)成本,加快提升綜合醫(yī)療水平,利用大數(shù)據(jù)手段應(yīng)對重大疫情和事件的高效用、持續(xù)在線決策。   社會治理方面。充分發(fā)揮大數(shù)據(jù)技術(shù)在多方復(fù)雜關(guān)聯(lián)問題、社會群體認知建模分析中的優(yōu)勢,構(gòu)建人工輔助智能決策系統(tǒng),實現(xiàn)政府決策科學(xué)化、社會治理精準化、公共服務(wù)高效化。

數(shù)據(jù)治理生態(tài)環(huán)境。大數(shù)據(jù)技術(shù)的應(yīng)用與發(fā)展離不開良性的數(shù)據(jù)治理和技術(shù)生態(tài)建設(shè)。個人隱私保護。需要相應(yīng)的法律法規(guī)加以規(guī)范。例如,歐盟2016年出臺了《通用數(shù)據(jù)保護條例》,幫助公民控制個人隱私數(shù)據(jù);我國于?2021?年發(fā)布了《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個人信息保護法》,對大數(shù)據(jù)的采集與使用給予合理的管控和監(jiān)督。保證數(shù)據(jù)的安全流通共享。需要建立數(shù)據(jù)流通交易規(guī)則規(guī)范,優(yōu)化數(shù)據(jù)共享、交易、流通相關(guān)的制度,明確數(shù)據(jù)權(quán)屬分配,探索數(shù)據(jù)交易市場,構(gòu)建有序的數(shù)據(jù)流通環(huán)境。 


綜上所述,未來應(yīng)發(fā)展突破通用模型架構(gòu)、分析模式和計算范式,建立新架構(gòu)、新模式、新范式,以及安全可信的大數(shù)據(jù)分析處理技術(shù)新體系;構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧;研究和發(fā)展相應(yīng)的理論,踐行牽引性應(yīng)用;建立良性的數(shù)據(jù)治理生態(tài),推動大數(shù)據(jù)分析處理技術(shù)的持續(xù)進步和跨越式發(fā)展。


(作者:程學(xué)旗、 劉盛華、張儒清,中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院大學(xué) 計算機科學(xué)與技術(shù)學(xué)院;《中國科學(xué)院院刊》供稿)


返回頂部