大數(shù)據(jù)分析處理技術(shù)新體系的思考

發(fā)布時間：2022-03-01 09:45:38 | 來源：中國網(wǎng)·中國發(fā)展門戶網(wǎng) | 作者：程學(xué)旗、劉盛華、張儒清 | 責(zé)任編輯：楊霄霄

關(guān)鍵詞：大數(shù)據(jù),技術(shù)架構(gòu),系統(tǒng)棧,新模式,新范式,安全可信

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊信息社會進入大數(shù)據(jù)時代后，人們的日常工作和行為、各種在線系統(tǒng)（如信息系統(tǒng)、工業(yè)生產(chǎn)線）的工作狀態(tài)、各類傳感器的信號、導(dǎo)航定位系統(tǒng)（全球定位系統(tǒng)?GPS、北斗衛(wèi)星導(dǎo)航系統(tǒng)等）產(chǎn)生的記錄等作為“經(jīng)驗”被常規(guī)地記錄成為大規(guī)模數(shù)據(jù)。不同于以往為驗證科學(xué)理論和猜想而記錄和收集的科學(xué)大數(shù)據(jù)，記錄這些大規(guī)模數(shù)據(jù)起初并沒有明確的科學(xué)目標。但是，它們卻制造了另外的機會。人們可以通過這些數(shù)據(jù)發(fā)現(xiàn)和總結(jié)出規(guī)律，并依據(jù)這些規(guī)律提升系統(tǒng)的效率，也可預(yù)測、判斷未來的趨勢，甚至輔助做出更加科學(xué)理性的決策。這個過程所依賴的就是大數(shù)據(jù)分析處理技術(shù)。因此，大數(shù)據(jù)分析處理技術(shù)旨在利用數(shù)據(jù)科學(xué)的方法和廣泛記錄下來的數(shù)據(jù)，以實現(xiàn)從數(shù)據(jù)到信息、信息到知識、知識到?jīng)Q策的價值轉(zhuǎn)換。

當(dāng)前，數(shù)字經(jīng)濟成為社會經(jīng)濟的一個重要內(nèi)涵，數(shù)據(jù)成為關(guān)鍵生產(chǎn)要素，大數(shù)據(jù)處理技術(shù)越來越深刻地影響著世界的運行狀態(tài)。隨著越來越多的數(shù)據(jù)被記錄、收集和存儲，如何深刻洞察數(shù)據(jù)分布規(guī)律、高效挖掘數(shù)據(jù)價值，成為智能化時代需要解決的關(guān)鍵問題。據(jù)美國國際數(shù)據(jù)公司（IDC）的報告，2020?年全球數(shù)據(jù)量為?44?ZB?左右，2025?年全球數(shù)據(jù)量將達到?175?ZB。而這些數(shù)據(jù)只有?2%?得到了留存，且留存的僅?50%?被使用過。由此可見，線性提升的數(shù)據(jù)處理能力并無法匹配指數(shù)級增長的數(shù)據(jù)規(guī)模，使得兩者之間的“剪刀差”越來越大。與此同時，在龐大的數(shù)據(jù)空間中，對特定任務(wù)真正有價值的核心數(shù)據(jù)卻往往是極度稀疏或不完整的。以上現(xiàn)象即數(shù)據(jù)泛濫與高價值數(shù)據(jù)缺失并存的表現(xiàn)。

以互聯(lián)網(wǎng)平臺企業(yè)服務(wù)為代表的智能化應(yīng)用大都采用“大數(shù)據(jù)＋大模型＋大算力”支撐的大數(shù)據(jù)分析處理技術(shù)，主要通過系統(tǒng)的優(yōu)化來增加數(shù)據(jù)處理規(guī)模并提升計算性能，從而有效解決了一些相對低階復(fù)雜度的預(yù)測判定問題，如圖像分類、語音識別、結(jié)構(gòu)預(yù)測，以及規(guī)則明確的人機對弈游戲等。而在開放復(fù)雜的系統(tǒng)環(huán)境下，數(shù)據(jù)動態(tài)生成演化，影響系統(tǒng)運行狀態(tài)的不確定因素和變量巨大，從而導(dǎo)致一些高階復(fù)雜的問題難以直接模型化，或近似求解的結(jié)果不可信，如金融風(fēng)險預(yù)測、個性智能診療、開放環(huán)境下的自動駕駛等。在這些高階復(fù)雜的真實系統(tǒng)中，數(shù)據(jù)采集分布往往是不穩(wěn)定和不完備的，這對要求精準判別的大數(shù)據(jù)分析處理模式提出了新的挑戰(zhàn)。

同時，解決數(shù)據(jù)與算法的安全可信問題也已迫在眉睫。數(shù)據(jù)流通共享的過程中面臨著數(shù)據(jù)濫用、隱私泄露的情況。數(shù)據(jù)本身可能也會引入真實世界存在的偏差，或者在對抗攻擊下數(shù)據(jù)被污染，使得大數(shù)據(jù)分析模型做出有偏的、錯誤的決策。在大數(shù)據(jù)分析處理技術(shù)逐漸應(yīng)用于關(guān)鍵領(lǐng)域的當(dāng)下，如何讓大數(shù)據(jù)技術(shù)以一種安全可信的方式服務(wù)于各個領(lǐng)域，是未來大數(shù)據(jù)發(fā)展必須面對的又一個難題。

本文首先回顧了近?10?年來大數(shù)據(jù)技術(shù)的發(fā)展現(xiàn)狀，并針對數(shù)據(jù)泛濫與數(shù)據(jù)缺失并存、大數(shù)據(jù)分析研判的復(fù)雜不確定性和數(shù)據(jù)安全缺失等挑戰(zhàn)，提出大數(shù)據(jù)分析的新范式和安全可信的大數(shù)據(jù)處理新架構(gòu)，探索大數(shù)據(jù)支撐智能應(yīng)用的新模式。在此基礎(chǔ)上，提出構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧，并展望新技術(shù)體系下的牽引性需求與重大應(yīng)用。

大數(shù)據(jù)分析處理現(xiàn)狀

近?10?年來，在產(chǎn)學(xué)研各界及政府主導(dǎo)的大力推動下，大數(shù)據(jù)技術(shù)架構(gòu)、生態(tài)環(huán)境及各行各業(yè)的大數(shù)據(jù)應(yīng)用發(fā)展迅速。

大數(shù)據(jù)技術(shù)架構(gòu)

海量數(shù)據(jù)促進了大數(shù)據(jù)技術(shù)架構(gòu)的發(fā)展。大數(shù)據(jù)管理技術(shù)方面。傳統(tǒng)關(guān)系數(shù)據(jù)庫（SQL）主要處理較少數(shù)據(jù)和較小并發(fā)訪問規(guī)模，而且存在大量讀寫硬盤和日志記錄操作，難以橫向擴展，無法滿足互聯(lián)網(wǎng)應(yīng)用的數(shù)據(jù)管理需求。為了實現(xiàn)更多的數(shù)據(jù)管理、更大規(guī)模的并發(fā)訪問及更多樣的數(shù)據(jù)模式，面向特定需求的各類非關(guān)系型數(shù)據(jù)庫（NoSQL）和從底層重構(gòu)的分布式關(guān)系數(shù)據(jù)庫（NewSQL）正在快速發(fā)展。其中，NewSQL?保持了傳統(tǒng)數(shù)據(jù)庫支持事務(wù)處理正確執(zhí)行四要素（ACID）和?SQL?標準查詢等特性，并具備與?NoSQL?同樣優(yōu)秀的可擴展性。大數(shù)據(jù)處理技術(shù)方面。根據(jù)處理需求的不同，存在多種不同的并行計算模型，包括以?Hadoop、Spark?為代表的批處理，以?Spark Streaming、Flink、STORM?為代表的高實時性的流處理，以?Apache Beam、Lambda?為代表的流批一體混合處理，以及以?GraphX、Apache Giraph?為代表的圖處理。同時，圖數(shù)據(jù)和實時數(shù)據(jù)處理的爆發(fā)性需求也推動了圖流處理模式的融合。除此之外，計算硬件逐漸發(fā)展為多種計算單元（如?CPU、GPU、NPU?等）組成的異構(gòu)計算系統(tǒng)，新型硬件和軟件的多層次融合進一步提升了大數(shù)據(jù)處理效率。大數(shù)據(jù)分析技術(shù)方面。分析需求逐漸從小規(guī)模、單源、單一模態(tài)數(shù)據(jù)的統(tǒng)計挖掘分析轉(zhuǎn)變?yōu)楹Ａ?、多源、多模態(tài)數(shù)據(jù)的復(fù)雜異質(zhì)關(guān)聯(lián)。深度學(xué)習(xí)技術(shù)的快速發(fā)展，推動了大數(shù)據(jù)分析模型能力的提升。神經(jīng)網(wǎng)絡(luò)模型在?2012?年的計算機視覺的目標識別項目?ImageNet?比賽奪冠后重回人們的視野，隨后誕生了一系列突破性的工作，包括知識圖譜提供知識服務(wù)、生成對抗網(wǎng)絡(luò)合成真實數(shù)據(jù)、AlphaGo?圍棋戰(zhàn)勝人類、GPT-3?預(yù)訓(xùn)練語言模型等。此外，日益成熟的深度學(xué)習(xí)框架（如?TensorFlow、PyTorch、飛槳等）也降低了使用深度學(xué)習(xí)分析大數(shù)據(jù)的門檻。

大數(shù)據(jù)應(yīng)用

近年來大數(shù)據(jù)分析處理技術(shù)飛速發(fā)展，催生了眾多大數(shù)據(jù)應(yīng)用，賦能了大量行業(yè)的智能化發(fā)展，一些標志性的應(yīng)用從模式和能力上顛覆了傳統(tǒng)的信息技術(shù)能力?？茖W(xué)發(fā)現(xiàn)方面。DeepMind?公司的?Alpha-fold?可基于蛋白質(zhì)的基因序列數(shù)據(jù)預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)，進而分析蛋白質(zhì)的屬性，幫助生物學(xué)取得了重大進展。數(shù)字經(jīng)濟方面。電商平臺的興起，連接遍布全球各個角落的消費者和供貨方，通過交易大數(shù)據(jù)的精準分析，提高了交易效率，推動了在線支付與數(shù)字貨幣的使用，顛覆了社會征信的模式；基于大數(shù)據(jù)進行的金融風(fēng)險研判、小微金融和普惠式金融等也促進了數(shù)字經(jīng)濟的繁榮。社會安全方面。我國使用大數(shù)據(jù)方法輔助公共衛(wèi)生、金融等領(lǐng)域的社會治理與決策；美國嘗試研究大數(shù)據(jù)技術(shù)在解決社會不平等、城市政策制定方面的作用。生命健康方面。英國基于海量學(xué)術(shù)論文和臨床試驗結(jié)果研發(fā)了治愈運動神經(jīng)衰退等多種藥物，以及近兩年各國大量使用的數(shù)字接觸追蹤技術(shù)，輔助預(yù)測了疫情傳播速度和趨勢，分別被列入《麻省理工科技評論》2020?年和?2021?年的“全球十大突破性技術(shù)”。國內(nèi)外大數(shù)據(jù)技術(shù)的應(yīng)用改變了諸多傳統(tǒng)行業(yè)中耗時耗力的工作方式，取得了智能高效的豐碩成果。

大數(shù)據(jù)生態(tài)建設(shè)

大數(shù)據(jù)分析處理的繁榮離不開大規(guī)模數(shù)據(jù)資源共享、技術(shù)架構(gòu)開放和算法模型開源所形成的技術(shù)生態(tài)發(fā)展。開源數(shù)據(jù)方面。開源數(shù)據(jù)支撐各類大數(shù)據(jù)技術(shù)的構(gòu)建。例如，2009?年美國斯坦福大學(xué)發(fā)布的視覺數(shù)據(jù)集?ImageNet、2015?年美國麻省理工學(xué)院發(fā)布的大規(guī)模醫(yī)療信息數(shù)據(jù)庫?MIMIC-Ⅲ、2020?年斯坦福大學(xué)發(fā)布的圖數(shù)據(jù)集?Open Graph Benchmark，都極大地影響了大數(shù)據(jù)技術(shù)的發(fā)展。開源軟件方面。Apache?軟件基金會基于?Hadoop?生態(tài)先后發(fā)布了一整套完善的分布式存儲與處理框架?Map-Reduce、線性代數(shù)計算框架?Mahout、機器學(xué)習(xí)庫?MLlib?等，旨在讓開發(fā)者快速實現(xiàn)和應(yīng)用大數(shù)據(jù)分析處理算法。2014?年以來，深度神經(jīng)網(wǎng)絡(luò)的開源框架，如?Caffe、Tensorflow、PyTorch?等，更是為從大數(shù)據(jù)中學(xué)習(xí)面向不同任務(wù)的智能模型提供了重要支持。開源模型方面。基于大規(guī)模數(shù)據(jù)學(xué)習(xí)的?BERT、GPT3?等預(yù)訓(xùn)練語言模型，大幅降低了相關(guān)技術(shù)的應(yīng)用成本，拓寬了下游應(yīng)用場景。此外，如何保障數(shù)據(jù)安全和個人隱私，最近也得到了各國政府和組織的高度重視。因此，兼顧技術(shù)發(fā)展和數(shù)據(jù)安全，平衡效率和風(fēng)險，建立良好的大數(shù)據(jù)生態(tài)環(huán)境，仍需要進一步探索。

新一代大數(shù)據(jù)分析處理需求

當(dāng)前針對大規(guī)模異質(zhì)化數(shù)據(jù)集合，主流的大數(shù)據(jù)分析處理方法是在通用模型框架下不斷嘗試超大規(guī)模的模型參數(shù)，實現(xiàn)“端到端”的分析推斷。在這種模式下，大數(shù)據(jù)分析處理能力很大程度依賴于算力平臺和數(shù)據(jù)資源的支持。在實際應(yīng)用中，這些大數(shù)據(jù)分析處理技術(shù)面臨著真實場景和關(guān)鍵領(lǐng)域中數(shù)據(jù)泛濫與缺失并存、大數(shù)據(jù)分析研判的復(fù)雜不確定性、數(shù)據(jù)安全監(jiān)管缺失等挑戰(zhàn)，最終使得分析處理存在過程可解釋性差、模型泛化能力弱、因果規(guī)律不清晰、研判結(jié)果不可信、數(shù)據(jù)價值利用率低等問題。為解決這些挑戰(zhàn)性問題，我們需要重新思考大數(shù)據(jù)處理架構(gòu)與分析模式，新一代的大數(shù)據(jù)分析處理技術(shù)體系應(yīng)該在各種實時場景下實現(xiàn)高價值知識生成、持續(xù)在線的瞬時決策、安全可信的推理研判，以及適用于未來各種有人-無人結(jié)合的在線系統(tǒng)行動優(yōu)化。本文認為，新一代大數(shù)據(jù)分析處理至少需要滿足如下?4?個方面的需求。

人在回路的計算范式。為解決現(xiàn)有大數(shù)據(jù)分析處理方法難以攻克的高階復(fù)雜問題，需要在其中引入人的智能與決策，強調(diào)人、機器及數(shù)據(jù)之間的有機交互。不同于原來的人機交互，即機器按照人的指令，或人聽機器的輸出結(jié)果，而是更關(guān)注人腦和機器思維的深度融合計算。

廣譜關(guān)聯(lián)的分析模式。為解決大數(shù)據(jù)價值密度低、極稀疏、不均勻、關(guān)鍵信息缺失的問題，一方面，融合各個對象在“人機物”融合的多域多維數(shù)據(jù)空間中留下的多元異構(gòu)信號，利用關(guān)聯(lián)增強信號；另一方面，融合數(shù)據(jù)與知識，構(gòu)建終生學(xué)習(xí)、可遷移擴展的知識體系，形成數(shù)據(jù)驅(qū)動與知識制導(dǎo)深度融合的新分析模式。

在線增強的處理架構(gòu)。隨著萬物互聯(lián)和智能泛在發(fā)展，大數(shù)據(jù)云邊端協(xié)同計算技術(shù)和解耦化的云邊端處理框架成為熱點?；谠朴嬎悱h(huán)境下的流批混合處理將進一步向邊緣端發(fā)展，訓(xùn)練學(xué)習(xí)與推理預(yù)測將在前端設(shè)備上融合一體。利用云邊端資源彈性調(diào)度能力，實現(xiàn)感知與認知能力前置，支持在線環(huán)境下基于動態(tài)活性數(shù)據(jù)的瞬時決策，從而形成去中心化、異構(gòu)分布、持續(xù)在線的新型計算框架。

安全可信的大數(shù)據(jù)分析。安全可信是滿足關(guān)鍵領(lǐng)域和場景下認知和決策安全的基本需求。一方面，著重關(guān)注大數(shù)據(jù)分析處理結(jié)果的可解釋、可信和公平性；另一方面，實現(xiàn)數(shù)據(jù)在收集、存儲、使用、流通中的安全保護和異常檢測，保證在強對抗攻擊下分析處理模型與方法的魯棒性和免疫性。

新一代大數(shù)據(jù)分析處理軟件棧

在高效的大數(shù)據(jù)價值提取、安全可信的分析處理目標下，針對以上?4?個大數(shù)據(jù)分析處理的重要需求，未來急需建立自立自強的大數(shù)據(jù)分析處理技術(shù)新體系，發(fā)展新一代大數(shù)據(jù)分析處理軟件棧（圖?1），從底層數(shù)據(jù)操作系統(tǒng)、通用分析處理中間件、業(yè)務(wù)驅(qū)動的計算環(huán)境及框架?3?個方面進行研究。

全棧式的大數(shù)據(jù)系統(tǒng)軟件

發(fā)展并涵蓋數(shù)據(jù)接入、流式處理、圖計算、訓(xùn)推一體等多個方面的大數(shù)據(jù)系統(tǒng)軟件。

數(shù)據(jù)接入方面。針對當(dāng)前數(shù)據(jù)采集流程中數(shù)據(jù)來源繁多、數(shù)據(jù)類型混合及異質(zhì)數(shù)據(jù)存儲效率低下的難題，研究“人機物”融合的數(shù)據(jù)匯聚與融合方法，支持對多種數(shù)據(jù)源的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的采集與融合，探索高效的存儲算法，提高底層存儲空間利用效率，支持對數(shù)據(jù)的高效壓縮與還原，實現(xiàn)對“人機物”三元數(shù)據(jù)空間中的多源異構(gòu)數(shù)據(jù)進行高效感知、采集、融合與存儲，為系統(tǒng)提供高質(zhì)量的數(shù)據(jù)流接入。

流式處理方面?，F(xiàn)有大數(shù)據(jù)處理框架中存在計算模式單一的問題，即單獨追求大批量或強時效。針對這一問題，將研究多計算模式融合的流式處理框架，支持批處理、流處理、圖處理等多種計算模式，實現(xiàn)低延時、大流量、強時效的數(shù)據(jù)處理，以應(yīng)對不斷接入的高速數(shù)據(jù)流。

關(guān)聯(lián)數(shù)據(jù)的計算方面?，F(xiàn)有計算框架難以適應(yīng)圖結(jié)構(gòu)數(shù)據(jù)的強數(shù)據(jù)依賴性、高隨機訪存與非均勻冪律分布特性。針對這一問題，研究針對圖結(jié)構(gòu)和網(wǎng)絡(luò)大數(shù)據(jù)的計算引擎，提出大規(guī)模圖數(shù)據(jù)的新型分布式計算框架和并行計算機制，定制大規(guī)模圖數(shù)據(jù)的查詢語言標準與規(guī)范，實現(xiàn)圖查詢與圖分析語言的標準化。

訓(xùn)練推理方面。現(xiàn)有云端大數(shù)據(jù)處理架構(gòu)難以滿足大規(guī)模服務(wù)的實時性與計算資源需求。針對這一問題，研究云邊端協(xié)同的訓(xùn)推一體框架，將大數(shù)據(jù)分析處理中的訓(xùn)練與推斷流程從云端推向邊緣，支持訓(xùn)推一體，在數(shù)據(jù)生成的邊端提供服務(wù)和執(zhí)行計算，實現(xiàn)“認知前置”和終生學(xué)習(xí)，以提供分布式、低延遲、持續(xù)在線的智能服務(wù)和瞬時決策。

重構(gòu)大數(shù)據(jù)分析處理流程

從預(yù)處理、數(shù)據(jù)表征、語義分析與知識推理、決策研判到可視化的全技術(shù)鏈上升級創(chuàng)新。

數(shù)據(jù)質(zhì)量處理與簡約計算方面。針對數(shù)據(jù)質(zhì)量處理，可發(fā)展利用群智技術(shù)挖掘高質(zhì)量數(shù)據(jù)，以低成本、高效率的方式實現(xiàn)大規(guī)模數(shù)據(jù)的采集處理；針對簡約計算方面，可研究基于數(shù)據(jù)復(fù)雜度的近似計算理論和優(yōu)化算法框架，以此指導(dǎo)人們尋找面向計算的數(shù)據(jù)內(nèi)核或者數(shù)據(jù)邊界的基本方法，構(gòu)建具有高效計算能力的模型。

大數(shù)據(jù)高階表征與建模方面。探索基于無監(jiān)督預(yù)訓(xùn)練的數(shù)據(jù)表征學(xué)習(xí)的理論與方法，從大規(guī)模未標注的語料數(shù)據(jù)中抽取高層次語義抽象的數(shù)據(jù)表征，提高語義表征的泛化能力；研究基于小樣本數(shù)據(jù)的預(yù)訓(xùn)練—微調(diào)模型，在大規(guī)模無監(jiān)督語料訓(xùn)練得到的數(shù)據(jù)表征基礎(chǔ)上，構(gòu)建輔助上層任務(wù)的通用高質(zhì)量數(shù)據(jù)表征；探索基于領(lǐng)域知識的預(yù)訓(xùn)練數(shù)據(jù)建模理論與方法，將人類知識融合到預(yù)訓(xùn)練模型中，提升預(yù)訓(xùn)練模型的學(xué)習(xí)效率等。同時，為應(yīng)對數(shù)據(jù)多源異構(gòu)造成的知識隔閡，有必要進一步發(fā)展跨模態(tài)數(shù)據(jù)表征和建模、多源知識融合技術(shù)，以實現(xiàn)全域知識聯(lián)合和利用。

大數(shù)據(jù)驅(qū)動的語義分析與知識推理方面。研究面向細粒度語義單元的大數(shù)據(jù)語義融合方法，顯著提高多源異構(gòu)數(shù)據(jù)關(guān)聯(lián)融合的效果；研究樣本稀疏環(huán)境下的領(lǐng)域知識獲取、大規(guī)模常識獲取與理解、知識獲取中的人機協(xié)作機制與方法，提升知識獲取的能力，大幅提高知識庫的規(guī)模；研究基于知識圖譜的可解釋分析方法、數(shù)據(jù)驅(qū)動與知識引導(dǎo)深度融合的新型語義分析方法，顯著提升知識驅(qū)動下各類模型的效果和可解釋性。

人機結(jié)合的增量決策研判方面。未來大量物理設(shè)備、無人設(shè)備、人腦，通過泛在網(wǎng)絡(luò)實現(xiàn)“上線”和“互聯(lián)”，為人的參與提供了基本的物質(zhì)條件。人作為具備智能的自然系統(tǒng)，如何參與到機器智能的系統(tǒng)回路中是一個關(guān)鍵問題。未來應(yīng)重點解決思維融合或決策融合的問題，探索人腦數(shù)據(jù)及機器智能系統(tǒng)信息可相互轉(zhuǎn)換的新型數(shù)據(jù)科學(xué)理論，并設(shè)計高效能的計算方法。當(dāng)下的算法模型不會隨著數(shù)據(jù)的生成而持續(xù)學(xué)習(xí)，即無法應(yīng)對連續(xù)和意外變化的環(huán)境，特別是在任務(wù)關(guān)鍵型應(yīng)用程序中更需謹慎。因此，研究持續(xù)學(xué)習(xí)、在線學(xué)習(xí)等技術(shù)，實現(xiàn)算法模型持續(xù)在線瞬時決策十分必要。

探索式可視化分析方面。研究新型的跨主體（人、機、物）可視交互理論，構(gòu)建多人協(xié)同的混合主動式可視分析范式，支持多人同時對相同或不同的可視化視圖進行多角度的探索，設(shè)計相應(yīng)的可視表達與交互形式；研究圍繞大數(shù)據(jù)可視化的認知計算與聚合理解模型、方法與核心技術(shù)，構(gòu)建人機協(xié)同智能及其驅(qū)動的大數(shù)據(jù)可視內(nèi)容與屬性的自動理解關(guān)鍵技術(shù)；提升圍繞大數(shù)據(jù)可視化的計算機自動理解、表示與生成能力等，構(gòu)建大數(shù)據(jù)可視計算與交互技術(shù)體系。

建立任務(wù)驅(qū)動的大數(shù)據(jù)計算環(huán)境

從可組合的模塊化編程框架、可伸縮的大數(shù)據(jù)分析處理框架、任務(wù)感知的知識重構(gòu)模型裁剪這?3?個方面發(fā)力，為各行各業(yè)提供場景感知、共識感知的更優(yōu)質(zhì)和更靈活的分析處理環(huán)境。

可組合的模塊化編程框架方面。未來可發(fā)展面向多業(yè)務(wù)可擴展、可重構(gòu)的敏捷開發(fā)框架，構(gòu)建多形態(tài)分析模式庫和智能業(yè)務(wù)編程框架，突破多源異構(gòu)數(shù)據(jù)的關(guān)聯(lián)分析和全息展示，實現(xiàn)對數(shù)據(jù)、算法、模型的高層次抽象，形成支撐面向任務(wù)場景的智能組合分析算子庫，實現(xiàn)智能算法的內(nèi)生性支持，賦能人機混合的交互式協(xié)同分析。

可伸縮的大數(shù)據(jù)分析處理框架方面。未來可發(fā)展支持彈性計算、可伸縮模型、可彈性配置的處理框架，即根據(jù)實際應(yīng)用的任務(wù)場景與計算資源的需求等方面劃分各種任務(wù)，滿足特定需求、精度需求、延時需求、實時性需求等；同時，構(gòu)建可伸縮的大數(shù)據(jù)分析處理框架，能夠靈活配置計算資源和數(shù)據(jù)規(guī)模，以實現(xiàn)彈性適配。

任務(wù)感知的知識重構(gòu)和模型裁剪方面。未來可發(fā)展面向任務(wù)的高級知識計算語言和模型裁剪技術(shù)，基于通用知識圖譜實現(xiàn)面向特定領(lǐng)域任務(wù)的知識重構(gòu)，建立起常識與領(lǐng)域知識融合的知識計算引擎，顯著提升知識管理和利用的能力與效率。

推動新一代大數(shù)據(jù)分析處理技術(shù)發(fā)展建議

建立理論基礎(chǔ)。大數(shù)據(jù)分析處理技術(shù)新體系的建立，離不開基礎(chǔ)理論的突破。建立數(shù)據(jù)復(fù)雜性和大數(shù)據(jù)可計算性理論?；貧w數(shù)據(jù)本原，探索數(shù)據(jù)在分布規(guī)律、結(jié)構(gòu)規(guī)則和時空尺度方面的規(guī)律性，以此設(shè)計高效能的計算方法。探索異質(zhì)廣譜關(guān)聯(lián)的大數(shù)據(jù)分析理論。將各類目標在“人機物”融合的多維數(shù)據(jù)空間留下的微弱信號進行關(guān)聯(lián)放大，研究廣域開環(huán)、非統(tǒng)一量綱環(huán)境下瞬時決策推斷方法的收斂性理論。研究大數(shù)據(jù)分析處理的安全可信理論。一方面，研究數(shù)據(jù)的安全共享和隱私計算理論，保障數(shù)據(jù)流通共享過程中的安全性；另一方面，研究數(shù)據(jù)的固有偏差性和數(shù)據(jù)遭受攻擊時的分析處理的魯棒性極限和可驗證理論，建立可防范、可審計、可追責(zé)的機制，保證強對抗環(huán)境下分析處理結(jié)果的可信。

加大應(yīng)用牽引。新大數(shù)據(jù)分析處理技術(shù)體系應(yīng)能全面高效賦能行業(yè)、產(chǎn)業(yè)、安全領(lǐng)域。同時，還需要利用科學(xué)發(fā)現(xiàn)、生命健康、社會治理等牽引性應(yīng)用場景來推動大數(shù)據(jù)分析處理新體系的健康、良性發(fā)展。科學(xué)發(fā)現(xiàn)方面。研究借助大數(shù)據(jù)分析技術(shù)從大量實驗數(shù)據(jù)中發(fā)現(xiàn)科學(xué)規(guī)律，形成基于大數(shù)據(jù)分析的新型科學(xué)研究方法論。生命健康方面。研究大數(shù)據(jù)方法用于輔助復(fù)雜化合物分子的發(fā)現(xiàn)，降低新型藥物的研發(fā)成本，加快提升綜合醫(yī)療水平，利用大數(shù)據(jù)手段應(yīng)對重大疫情和事件的高效用、持續(xù)在線決策。社會治理方面。充分發(fā)揮大數(shù)據(jù)技術(shù)在多方復(fù)雜關(guān)聯(lián)問題、社會群體認知建模分析中的優(yōu)勢，構(gòu)建人工輔助智能決策系統(tǒng)，實現(xiàn)政府決策科學(xué)化、社會治理精準化、公共服務(wù)高效化。

數(shù)據(jù)治理生態(tài)環(huán)境。大數(shù)據(jù)技術(shù)的應(yīng)用與發(fā)展離不開良性的數(shù)據(jù)治理和技術(shù)生態(tài)建設(shè)。個人隱私保護。需要相應(yīng)的法律法規(guī)加以規(guī)范。例如，歐盟2016年出臺了《通用數(shù)據(jù)保護條例》，幫助公民控制個人隱私數(shù)據(jù)；我國于?2021?年發(fā)布了《中華人民共和國數(shù)據(jù)安全法》和《中華人民共和國個人信息保護法》，對大數(shù)據(jù)的采集與使用給予合理的管控和監(jiān)督。保證數(shù)據(jù)的安全流通共享。需要建立數(shù)據(jù)流通交易規(guī)則規(guī)范，優(yōu)化數(shù)據(jù)共享、交易、流通相關(guān)的制度，明確數(shù)據(jù)權(quán)屬分配，探索數(shù)據(jù)交易市場，構(gòu)建有序的數(shù)據(jù)流通環(huán)境。

綜上所述，未來應(yīng)發(fā)展突破通用模型架構(gòu)、分析模式和計算范式，建立新架構(gòu)、新模式、新范式，以及安全可信的大數(shù)據(jù)分析處理技術(shù)新體系；構(gòu)建新一代大數(shù)據(jù)分析處理軟件棧；研究和發(fā)展相應(yīng)的理論，踐行牽引性應(yīng)用；建立良性的數(shù)據(jù)治理生態(tài)，推動大數(shù)據(jù)分析處理技術(shù)的持續(xù)進步和跨越式發(fā)展。

（作者：程學(xué)旗、劉盛華、張儒清，中國科學(xué)院計算技術(shù)研究所、中國科學(xué)院大學(xué) 計算機科學(xué)與技術(shù)學(xué)院；《中國科學(xué)院院刊》供稿）

色播视频在线观看,亚洲色一色噜一噜噜噜v,国产婬乱a一级毛片多女,狂喷潮视频在线观看mp4

大數(shù)據(jù)分析處理技術(shù)新體系的思考

相關(guān)文章