“科學(xué)研究正變成一個(gè)又一個(gè)大數據問(wèn)題?!碧斓瞎た乜偣こ處熍e例說(shuō),“千人基因組計劃”每月產(chǎn)生1萬(wàn)億條堿基序列信息,我國30多個(gè)在軌民用航天平臺每年有超過(guò)3PB遙感衛星數據,FAST 射電望遠鏡的數據產(chǎn)出速度是6000億條記錄/年,大型強子對撞機實(shí)驗每年產(chǎn)生15PB原始數據……“未來(lái),基于對科學(xué)大數據的處理和分析將成為發(fā)現新知識的基本特征?!?
其實(shí),去年8月底,國務(wù)院就發(fā)布了《促進(jìn)大數據發(fā)展行動(dòng)綱要》,明確提出要發(fā)展科學(xué)大數據,以實(shí)現科學(xué)數據的開(kāi)放共享和應用服務(wù)。今年7月,《十三五國家科技創(chuàng )新規劃》進(jìn)一步明確了多個(gè)重點(diǎn)領(lǐng)域的大數據發(fā)展規劃,比如在人工智能方面,要“重點(diǎn)發(fā)展大數據驅動(dòng)的類(lèi)人智能技術(shù)方法”;在材料基因工程方面,要研發(fā)“材料大數據”等四大關(guān)鍵技術(shù);在先進(jìn)高效生物技術(shù)方面,要加快推進(jìn)“生物大數據”等生命科學(xué)前沿關(guān)鍵技術(shù)突破;在生態(tài)環(huán)保方面,要開(kāi)發(fā)“生態(tài)環(huán)境大數據”應用技術(shù);在精準醫學(xué)方面,要建立“國家生物醫學(xué)大數據共享平臺”;在空天探測開(kāi)發(fā)和利用方面,開(kāi)展“多源多尺度時(shí)空大數據分析與地球系統模擬”等核心關(guān)鍵技術(shù)研究及示范應用。
科學(xué)大數據的海量、多源、異構、高維等特征,向傳統HPC系統發(fā)起了全新的挑戰?!岸鄶悼蒲许椖康臄祿糠浅>薮蟛⒖焖僮兓?,而且往往是分布、異構的,傳統的數據管理模式已不能滿(mǎn)足需要;此外對科學(xué)大數據的‘計算’包括了從數據獲取、管理到分析、可視化的全過(guò)程,傳統的高性能計算亟需將服務(wù)向外延拓展?!苯忉屨f(shuō)。
作為誕生于科研國家隊、多年服務(wù)于科研領(lǐng)域的HPC領(lǐng)軍企業(yè),曙光敏銳地洞察到科學(xué)大數據的未來(lái)前景及其對“計算-存儲-分析”架構提出的更高要求,率先將“大力發(fā)展科學(xué)大數據”列入公司“數據中國加速計劃”戰略,為科學(xué)大數據引擎的進(jìn)一步開(kāi)發(fā)和水平提高提供了有力的保障。