1.用戶(hù)需求
生命科學(xué)做為21 世紀最重要的科學(xué)分支之一,高性能計算在生命科學(xué)的研究和發(fā)展中起來(lái)非常重要的作用。由于測序技術(shù)的飛速發(fā)展,人類(lèi)發(fā)現的基因序列數目按照指數級增長(cháng),那么對于如此數量龐大的基因進(jìn)行同源性搜尋,比對,分析,遺傳發(fā)育分析等等,往往伴隨著(zhù)巨大的數據處理量和并行計算量。同時(shí),由于生命科學(xué)的研究對象往往是蛋白質(zhì)和DNA 的大分子,對這些分子的三維結構的預測,動(dòng)力學(xué)特性、熱力學(xué)特性、在生命過(guò)程中如何發(fā)生作用,這些科學(xué)問(wèn)題也要借助于高性能計算機。所以高性能計算機在生命科學(xué)研究中,應用非常廣泛,扮演著(zhù)及其重要的角色。
目前隨著(zhù)計算機技術(shù)的和計算能力的飛速發(fā)展,高性能計算機能滿(mǎn)足生命科學(xué)的海量計算和數據分析的需求,高性能計算主要運用在生物信息學(xué)分析、蛋白質(zhì)三維結構研究、新藥研發(fā)、基因序列測序、蛋白質(zhì)三維結構結晶等各個(gè)方面,高性能計算已經(jīng)成為現代生命科學(xué)發(fā)展中必不可少的研究手段。
醫衛信息和數據的安全,同樣也是中國國家信息安全的重要內容。為了應對日益突出的生物安全需求,軍事科學(xué)院曾主持設計了“生物安全防御系統”。針對新發(fā)傳染病的未來(lái)威脅,構建國家戰略層面的傳染病偵察和媒介生物控制平臺,從而形成一整套“安全防御系統”。
利用自主可控技術(shù)構建生命信息科學(xué)領(lǐng)域的計算、支撐環(huán)境是本方案的宗旨
2. 現存問(wèn)題
根據不同的計算特點(diǎn)和模式,生命科學(xué)分為如下應用模式:
1) 生物信息學(xué)(序列搜尋比對分析)。
這一領(lǐng)域主要指以蛋白質(zhì)和核算序列為研究對象,對序列進(jìn)行同源及相似性搜尋、比對、序列分析、遺傳發(fā)育分析等,應用軟件數量巨大(數十種),各種軟件在同源性分析算法上各有特點(diǎn)。
2) 分子動(dòng)力學(xué)。
分子動(dòng)力學(xué)是一套分子模擬方法,該方法在定義原子之間作用勢的基礎上,依靠牛頓力學(xué)來(lái)模擬分子體系的運動(dòng) ,從而探索體系的動(dòng)力學(xué)特性和熱力學(xué)特性。
3) 分子對接(藥物設計)。
計算為主分子對接使依據配體與受體作用的“鎖-鑰原理”,模擬小分子配體與受體生物大分子相互作用。通過(guò)計算,可以預測兩者間的結合模式和親和力,從而進(jìn)行藥物的虛擬篩選。
4) 測序儀離線(xiàn)處理。
DNA測序儀是用于測量DNA(基因)序列的高級試驗儀器,是生命科學(xué)研究中必不可少的儀器設備、獲得重要科研進(jìn)展的重要工具。DNA測序儀價(jià)格昂貴,其研究過(guò)程分為準備試劑,儀器測序到最后的儀器離線(xiàn)處理,從而獲得科學(xué)家可以辨識的基因序列,在這個(gè)的基礎上,科學(xué)家可以利用測量獲得的序列進(jìn)行拼接、比對、同源性分析等等。
5) 電子顯微鏡圖象處理。
電子顯微鏡是生命科學(xué)研究中不可或缺的高級實(shí)驗儀器, 其中基于冷凍電鏡和三維重構方法的生物大分子的結構和功能的研究是國際上的研究熱點(diǎn),而電子顯微鏡所獲得的大量的原始圖象遠遠超過(guò)了人- 10 - 的認知范疇,需要借助高性能計算機進(jìn)行圖象處理,從而獲得人類(lèi)認知范疇內的實(shí)驗數據和圖象。
6) 質(zhì)譜儀原始資料處理。
在蛋白質(zhì)科學(xué)研究中,科學(xué)家需要通過(guò)質(zhì)譜儀和高性能計算機來(lái)獲得蛋白質(zhì)的序列信息,從而實(shí)現從蛋白質(zhì)一級結構到三級結構的研究。
3. 如何解決
針對上述多種生命科學(xué)的應用,本著(zhù)安全、可靠、高效的原則,方案中選擇64位龍騰服務(wù)器及胖節點(diǎn)作為計算系統;配置高性能的全光纖 SAN存儲系統.,通過(guò)混搭方式完成生命科學(xué)中的不同作業(yè)流程。
基于龍芯刀片的高性能集群系統,不僅具有Cluster架構的普適性?xún)?yōu)點(diǎn),而且更加符合現代高性能計算機對計算密度、能耗、可靠性、易用性等方面的要求,是高性能計算的最佳平臺。
對于峰值性能通常超過(guò)數Tflops的大規模并行計算機而言,刀片式集群系統在計算密度、功耗散熱、運營(yíng)成本、維護成本、可靠性等方面,都明顯優(yōu)于其他系統,且為系統的擴容升級提供了良好的基礎。
龍芯3A是我國新一代高性能計算機通用CPU,集成了四個(gè)64位超標量處理器核、4MB的二級Cache、兩個(gè)DDR2/3內存控制器、兩個(gè)高性能HyperTransport控制器,可以滿(mǎn)足生命科學(xué)中對MPI并行性要求較高的計算需求。