氣象數(shù)據(jù)運(yùn)算 巴塞羅那真四核彰顯威力
氣象預(yù)測一直是高性能計(jì)算機(jī)產(chǎn)品的主要用戶之一,其為人民提供日常生產(chǎn)、生活所必須的信息資料。作為國內(nèi)服務(wù)器行業(yè)領(lǐng)軍企業(yè)的曙光公司,在氣象行業(yè)應(yīng)用中有著廣泛的經(jīng)驗(yàn),早在2002年,曙光公司就推出了基于MM5模式的氣象專用機(jī),充分優(yōu)化了并行機(jī)上的MM5模式。隨后,曙光公司在 2004年為氣象行業(yè)完成了從32位平臺(tái)到64位平臺(tái)的移植。在今年4月,曙光公司又首次完成了WRF模式在X64高性能機(jī)群系統(tǒng)上的業(yè)務(wù)移植,開創(chuàng)了國內(nèi)在64位機(jī)上做WRF模式業(yè)務(wù)的先河。近期,曙光公司又首度將AMD公司新推出的巴塞羅那處理器成功應(yīng)用在了氣象行業(yè),打造了成熟的四路四核信息化服務(wù)系統(tǒng),為蘇州氣象局提供了一套集高可用性、高穩(wěn)定性于一身的科學(xué)、成熟的氣象預(yù)測平臺(tái)。
高性能需求的氣象預(yù)測平臺(tái)
氣象預(yù)測是氣象科學(xué)中發(fā)展最為迅速的一個(gè)重要組成部分,他所研究的大氣運(yùn)動(dòng)關(guān)系到區(qū)域重要災(zāi)害性天氣的生消。它一方面應(yīng)用衛(wèi)星、雷達(dá)、風(fēng)廓線儀和自動(dòng)觀測站等一系列新的探測工具,獲取觀測實(shí)時(shí)數(shù)據(jù);另一方面通過數(shù)值模式,對天氣變化過程進(jìn)行深入的模擬研究和預(yù)報(bào)試驗(yàn)。
蘇州氣象局是該行政區(qū)域內(nèi)最大的氣象事業(yè)組織,負(fù)責(zé)該行政區(qū)域內(nèi)重大災(zāi)害性天氣跨地區(qū)、跨部門的聯(lián)合監(jiān)測、預(yù)報(bào)工作,需及時(shí)提出氣象災(zāi)害防御措施,并對重大氣象災(zāi)害作出評估,為本級人民政府組織防御氣象災(zāi)害提供決策依據(jù)。在變換莫測的自然天氣狀況前,蘇州氣象局需要一套高性能計(jì)算機(jī)系統(tǒng),來滿足其在氣象預(yù)測工作中的各種需求。
首先,氣象預(yù)報(bào)有著驚人的計(jì)算量,其必須在規(guī)定時(shí)間內(nèi)將各個(gè)觀測點(diǎn)傳輸來的實(shí)時(shí)數(shù)據(jù)進(jìn)行分析、計(jì)算。而且,伴隨人們對氣象預(yù)測精度所提出的越來越高的要求,氣象預(yù)報(bào)精度的的范圍從以往的幾百公里縮小到了幾公里,這就更加提高了計(jì)算模型的運(yùn)算量。其次,在高速的運(yùn)算過程中,各個(gè)CPU之間的通訊量也非常巨大,整個(gè)系統(tǒng)需要有高性能的通訊網(wǎng)絡(luò)。另外,氣象預(yù)測具有實(shí)時(shí)性的特點(diǎn),整個(gè)預(yù)測系統(tǒng)需要定時(shí)定點(diǎn)運(yùn)行,無需人工干預(yù),具有良好的管理控制性能。
本次針對蘇州氣象局的應(yīng)用需求,曙光公司將已獲得廣泛好評的曙光TC4000A機(jī)群系統(tǒng)與AMD公司新推出的巴塞羅那處理器相結(jié)合,為蘇州氣象局提供了一整套完善的
高端配置的曙光TC4000A
曙光公司本次為蘇州氣象局配置的TC4000A機(jī)群系統(tǒng)由20臺(tái)計(jì)算節(jié)點(diǎn)、2臺(tái)I/O節(jié)點(diǎn)、1臺(tái)管理節(jié)點(diǎn)和1臺(tái)登陸節(jié)點(diǎn)組成,系統(tǒng)采用Infiniband作為計(jì)算網(wǎng)絡(luò)/數(shù)據(jù)傳輸網(wǎng)絡(luò),同時(shí)配備千兆以太網(wǎng)作為管理維護(hù)網(wǎng)絡(luò),各配件設(shè)施的完美組合,奠定了整體系統(tǒng)高達(dá)25600億次/秒的運(yùn)算能力。
天氣預(yù)報(bào)具有很高的時(shí)效性,要求在規(guī)定的時(shí)間內(nèi)得到預(yù)測結(jié)果,因此機(jī)群系統(tǒng)的運(yùn)算能力就需要面對海量氣象數(shù)據(jù)的挑戰(zhàn)。曙光公司在蘇州氣象局的機(jī)群系統(tǒng)中,用最新2.0GHz 的AMD巴塞羅那四核處理器為系統(tǒng)打造了強(qiáng)大的浮點(diǎn)、定點(diǎn)運(yùn)算能力。這些作為運(yùn)算核心的高性能處理器,鑲嵌在作為計(jì)算節(jié)點(diǎn)的曙光天闊A820r-F中,每個(gè)節(jié)點(diǎn)在2U的機(jī)架空間內(nèi)集成了四路四核的體系架構(gòu),且均可進(jìn)行并行計(jì)算,形成了強(qiáng)大的處理能力,完全可滿足系統(tǒng)的運(yùn)算需求。
為提高機(jī)群系統(tǒng)的整體性能,機(jī)群系統(tǒng)的I/O性能也是需要突破的一大瓶頸,否則機(jī)群的運(yùn)算能力將會(huì)受到制約,無法顯現(xiàn)四核處理器高速、流暢的運(yùn)算性能。曙光公司在該系統(tǒng)中將用于計(jì)算數(shù)據(jù)通訊的網(wǎng)絡(luò)和管理、登陸網(wǎng)絡(luò)分開搭建,不同用途的數(shù)據(jù)分流傳輸,解決了管理系統(tǒng)數(shù)據(jù)與運(yùn)算數(shù)據(jù)爭搶帶寬資源的窘?jīng)r。
在計(jì)算數(shù)據(jù)網(wǎng)絡(luò)中,雙路雙核配置的曙光天闊A620r-F擔(dān)當(dāng)了系統(tǒng)中的I/O節(jié)點(diǎn),其通過心跳線做成了高可用系統(tǒng),可為整個(gè)系統(tǒng)提供持續(xù)的I/O服務(wù)。在I/O節(jié)點(diǎn)中,Infiniband網(wǎng)絡(luò)作為接入數(shù)據(jù)網(wǎng)絡(luò),其提供了高達(dá)20Gb/s的雙向帶寬,延遲只有幾個(gè)微秒。并且,每臺(tái)I/O節(jié)點(diǎn)配置了1塊 4Gb/s的光纖HBA卡,分別和具備2個(gè)4Gb/s主機(jī)通道的光纖磁盤陣列柜相連,為系統(tǒng)提供了超強(qiáng)的存儲(chǔ)空間和強(qiáng)大的I/O能力。 #p#page_title#e#
在管理和登陸通訊網(wǎng)絡(luò)中,節(jié)點(diǎn)也同樣采用天闊A620r-F,加上專用的千兆網(wǎng),承擔(dān)起和其它網(wǎng)絡(luò)的通訊以及系統(tǒng)管理、監(jiān)控的責(zé)任。作為管理、登陸節(jié)點(diǎn),速度不再是苛求的目標(biāo),長期平穩(wěn)的運(yùn)算性能是用戶更為關(guān)心的特質(zhì)。因此,在管理節(jié)點(diǎn)機(jī)的配置中,設(shè)計(jì)者別具匠心的在A620r-F中采用了可提供病毒防護(hù)功能的高性能BIOS;可以選單/雙通道SCSI RAID配置,支持在線恢復(fù)RAID陣列;多網(wǎng)卡冗余體系,保證系統(tǒng)穩(wěn)定均衡的處理網(wǎng)絡(luò)負(fù)載。各種配置,為管理節(jié)點(diǎn)提供了細(xì)致入微的高可靠性。
在機(jī)群的操作系統(tǒng)中,配有曙光公司獨(dú)家設(shè)計(jì)的第二代監(jiān)控系統(tǒng),采用并發(fā)機(jī)制,能夠按用戶的需求伸縮管理配置功能,可對新增節(jié)點(diǎn)提供配置、管理的功能,使其自動(dòng)納入管理范圍。該種采用模塊化形式設(shè)計(jì)的管理系統(tǒng),大大提高了系統(tǒng)可靠性和可管理性。
另外,整個(gè)機(jī)群的機(jī)柜系統(tǒng)采用符合工業(yè)標(biāo)準(zhǔn)的41U機(jī)柜,內(nèi)部含網(wǎng)絡(luò)布線系統(tǒng),支持強(qiáng)電和弱電分離,可以實(shí)現(xiàn)整個(gè)機(jī)群內(nèi)24個(gè)節(jié)點(diǎn)100ms自動(dòng)分時(shí)上電,減少了因集中上電對電源系統(tǒng)造成的沖擊,為系統(tǒng)提供了更好的安全性能。
成熟科學(xué)的解決方案
曙光4000A超級計(jì)算機(jī)機(jī)群系統(tǒng)是一款成熟的產(chǎn)品,在實(shí)際應(yīng)用中的曙光4000A,平均無故障時(shí)間(MTBF)突破了25萬小時(shí)大關(guān),其高穩(wěn)定性和可靠性已經(jīng)得到了實(shí)際應(yīng)用的證實(shí)。在本次為蘇州氣象局設(shè)計(jì)的超級計(jì)算機(jī)解決方案中,曙光公司將成熟的產(chǎn)品與當(dāng)前信息技術(shù)的發(fā)展趨勢相結(jié)合,在整個(gè)方案中體現(xiàn)了優(yōu)異的先進(jìn)性、擴(kuò)展性、兼容性和完整性。
先進(jìn)性
在江蘇氣象局的信息化解決方案中,無論是在硬件還是軟件方面都體現(xiàn)了曙光公司產(chǎn)品的技術(shù)先進(jìn)性,其順應(yīng)信息化產(chǎn)業(yè)的主流發(fā)展趨勢,集合新產(chǎn)品和曙光公司的技術(shù)優(yōu)勢,為用戶提供了更高性能的新世代產(chǎn)品。
在硬件方面,該解決方案的先進(jìn)性主要體現(xiàn)在其所配置的“巴塞羅那”四核處理器上。同以往的雙核處理器相比,該款A(yù)MD新推出的四核處理器,不僅僅增加了CPU Core的數(shù)量,其在每一個(gè)CPU Core內(nèi)部,將SSE執(zhí)行單元加寬至128位,極大的提高了單核心的浮點(diǎn)處理性能,平均性能提高了54%。同時(shí),巴塞羅那處理器沿襲了AMD獨(dú)特設(shè)計(jì)的集成內(nèi)存控制器,使CPU到內(nèi)存的路徑更短,并在內(nèi)存帶寬上采用了一系列優(yōu)化技術(shù),使得在不做其他改動(dòng)的前提下,內(nèi)存性能比雙核皓龍?zhí)嵘?0%,它們是構(gòu)建蘇州氣象局高可用性信息化系統(tǒng)的奠基石。
整個(gè)蘇州氣象局信息化系統(tǒng)空載運(yùn)行功耗僅10千瓦,滿載最大運(yùn)行功耗也才達(dá)13千瓦,這一切節(jié)能優(yōu)勢都是從細(xì)小的處理器節(jié)能技術(shù)展開的。巴塞羅那處理器在節(jié)能方面采用了更精細(xì)的內(nèi)部控制,擁有業(yè)界首次使用的雙重動(dòng)態(tài)電源管理(DDPM)技術(shù),能對CPU和內(nèi)存控制器分別獨(dú)立供電,使得在功耗降低的同時(shí)獲得更高的內(nèi)存帶寬。
另外,巴塞羅那更進(jìn)一步提供硬件層的快速虛擬化索引技術(shù)(RVI),顯著地提升內(nèi)存訪問的性能,提升虛擬機(jī)與物理機(jī)之間的數(shù)據(jù)傳送及翻譯轉(zhuǎn)換,使虛擬化性相比雙核產(chǎn)品能有75%的提升,其在CPU底層為虛擬化技術(shù)提供了良好的硬件支持。
盡管四核的巴塞羅那處理器性能較比雙核提升許多,但其售價(jià)卻并未成倍增長,加之其通用的標(biāo)準(zhǔn)特性可與雙核產(chǎn)品配件完全兼容,這使得巴塞羅那處理器具有了前代產(chǎn)品無法比擬的性價(jià)比。在信息化服務(wù)的實(shí)際應(yīng)用中,其也使得服務(wù)器產(chǎn)品倍受用戶青睞。
在整個(gè)解決方案的軟件方面,曙光公司自主研發(fā)的,面向用戶和網(wǎng)格的系統(tǒng)管理軟件也同時(shí)體現(xiàn)了解決方案的先進(jìn)性。該機(jī)群管理軟件可提供非常直觀的監(jiān)控功能,可跨操作系統(tǒng)和硬件平臺(tái)采集信息,將這些信息有效的匯總和顯示,實(shí)時(shí)監(jiān)控系統(tǒng)各節(jié)點(diǎn)的工作情況,有效監(jiān)控整個(gè)機(jī)群的用戶環(huán)境。并且,監(jiān)控系統(tǒng)采集的系統(tǒng)信息、硬件信息和電源信息通過獨(dú)立的I& sup2;C網(wǎng)絡(luò)傳輸,保證了監(jiān)控的獨(dú)立性和健全性,還可用圖形展示的方式對各節(jié)點(diǎn)的單項(xiàng)數(shù)據(jù)進(jìn)行對比。 #p#page_title#e#
擴(kuò)展性
在科學(xué)技術(shù)飛速發(fā)展的今天,任何一套信息化解決方案都必須考慮到用戶的需求變化,一套信息化系統(tǒng)如果不能適應(yīng)用戶需求的變化,不具備良好的擴(kuò)展性,它勢必只有短暫的技術(shù)生命,而且是對用戶投資的浪費(fèi)。
在曙光公司為江蘇氣象局提供的信息化解決方案中,各節(jié)點(diǎn)機(jī)采用目前最先進(jìn)的AMD16路服務(wù)器的系統(tǒng)架構(gòu),既滿足了整個(gè)系統(tǒng)平臺(tái)的應(yīng)用要求,又滿足了今后系統(tǒng)升級后的需要。
負(fù)責(zé)計(jì)算數(shù)據(jù)通訊的Infiniband網(wǎng)絡(luò),可以使現(xiàn)有系統(tǒng)具有良好擴(kuò)展性,滿足下一代系統(tǒng)的要求。它可實(shí)現(xiàn)PCB上部件與部件間的互連,也可以用來實(shí)現(xiàn)一種超出機(jī)箱外部的底板之間的互連。并且,每個(gè)鏈路都是基于4根信號線的2.5Gbps雙向連接,在擴(kuò)展的產(chǎn)品部件的同時(shí),還提供了良好的性能。
曙光TC4000A的機(jī)柜、電源、系統(tǒng)管理都可以使系統(tǒng)無縫擴(kuò)展至更多節(jié)點(diǎn)。視頻切換系統(tǒng)可以在線擴(kuò)容至99個(gè)節(jié)點(diǎn);電源的設(shè)計(jì)可以提供4個(gè)機(jī)柜的用電量;機(jī)群操作系統(tǒng)可以無縫擴(kuò)展,可直接將擴(kuò)容的節(jié)點(diǎn)機(jī)納入當(dāng)前的系統(tǒng)中進(jìn)行管理、調(diào)度;當(dāng)任務(wù)量增加,需要增加計(jì)算單元時(shí),系統(tǒng)只需要簡單的增加節(jié)點(diǎn)設(shè)備即可,這樣保證了當(dāng)前的投資,而且保證了系統(tǒng)的完整性。
兼容性
在信息化服務(wù)市場中,充斥著各式各樣的軟硬件產(chǎn)品,用戶也會(huì)根據(jù)自己的需求選擇不同的產(chǎn)品進(jìn)行組合搭配。因此,用戶的信息化平臺(tái)應(yīng)該是一個(gè)具有良好包容性的中性平臺(tái),其可在硬件上兼容各廠商的標(biāo)準(zhǔn)配件,在軟件上平穩(wěn)運(yùn)行各種操作系統(tǒng)和應(yīng)用程序,只有這樣的應(yīng)用平臺(tái)才具有良好的實(shí)用價(jià)值。
在蘇州氣象局的信息化解決方案中,曙光機(jī)群系統(tǒng)的良好兼容性得到了充分體現(xiàn)。該系統(tǒng)中,普通PC機(jī)能夠運(yùn)行的應(yīng)用軟件都能直接在機(jī)群系統(tǒng)上運(yùn)行。另一方面,由于目前機(jī)群技術(shù)的廣泛使用,機(jī)群成為了目前大型機(jī)和超級計(jì)算機(jī)的主流,絕大部分高端的并行應(yīng)用軟件都能很好的在該機(jī)群系統(tǒng)上運(yùn)行。
在應(yīng)用方面,該系統(tǒng)處理器可兼容64位和32位的應(yīng)用,普通的32位應(yīng)用軟件可以不經(jīng)過重新編譯直接運(yùn)行在這樣的系統(tǒng)之中,用戶可以由32位平滑的過渡到64位。同時(shí),系統(tǒng)中還提供有標(biāo)準(zhǔn)接口以供和其它系統(tǒng)相連接,其在用戶需要時(shí),可很好的和其它的機(jī)群系統(tǒng)、大型主機(jī)實(shí)現(xiàn)對接。
在操作系統(tǒng)中,曙光4000A采用具有更好開放性的LINUX操作系統(tǒng),其比封閉的UNIX操作系統(tǒng)具有更好的兼容性,其也是目前服務(wù)器中應(yīng)用最廣泛的操作系統(tǒng)。另外,曙光機(jī)群的管理系統(tǒng)也具有很好的兼容性和跨平臺(tái)性,它能很好的運(yùn)行在目前主流的操作系統(tǒng)之上,包括Linux、UNIX和Windows,還能完美的實(shí)現(xiàn)異構(gòu)集群系統(tǒng)的管理。
完整性
曙光公司為蘇州氣象局提供的信息化解決方案是基于氣象行業(yè)應(yīng)用的整體性方案,從系統(tǒng)的軟硬件配置,一直到應(yīng)用調(diào)試;從產(chǎn)品設(shè)計(jì)安裝,到運(yùn)行人員培訓(xùn),處處都體現(xiàn)了曙光公司信息化解決方案的完整性,其為用戶提供了一站式的服務(wù),可滿足用戶的各種需求。
作為氣象預(yù)測系統(tǒng),曙光公司根據(jù)多年的應(yīng)用經(jīng)驗(yàn),為蘇州氣象局提供了完整的應(yīng)用方案。其中包括了氣象業(yè)務(wù)系統(tǒng)運(yùn)行所需要的開發(fā)環(huán)境、并行環(huán)境,還提供了中尺度氣象預(yù)報(bào)模式所需要的前處理和后處理系統(tǒng)。而且,曙光公司還具備很強(qiáng)的系統(tǒng)整合能力,增強(qiáng)了整個(gè)機(jī)群系統(tǒng)的單一系統(tǒng)映象功能,原有機(jī)群系統(tǒng)上的應(yīng)用軟件無需作任何改動(dòng)即可正常的在新系統(tǒng)中運(yùn)行。
在培訓(xùn)方面,曙光公司為蘇州氣象局提供了一系列的培訓(xùn),課程分別針對:普通用戶、系統(tǒng)管理人員、開發(fā)人員。培訓(xùn)的內(nèi)容包括從集群的簡單使用到并行軟件的研制和并行算法的設(shè)計(jì),從系統(tǒng)的管理和日常維護(hù)到設(shè)備的原理等一應(yīng)俱全。整套培訓(xùn)體系有機(jī)房的現(xiàn)場培訓(xùn)、課堂講課、上機(jī)實(shí)習(xí)等多種方式。在有完備的培訓(xùn)的同時(shí),曙光公司又為用戶提供了完備文檔,做到了售后服務(wù)的完整性,使用戶不僅擁有設(shè)備,更能用好設(shè)備。 #p#page_title#e#
結(jié)束語
曙光4000A是曙光公司和國家智能計(jì)算機(jī)研究中心共同研發(fā)的,基于Linux的超級服務(wù)器系統(tǒng),為當(dāng)前國內(nèi)最大的IDC數(shù)據(jù)處理主機(jī)之一,其在各行業(yè)領(lǐng)域有著廣泛的應(yīng)用,并且成功登陸全球超級計(jì)算機(jī)排名的TOP10,其在產(chǎn)品技術(shù)上的科學(xué)性、成熟性已成為中國高性能計(jì)算機(jī)產(chǎn)業(yè)的標(biāo)桿。本次在蘇州氣象局的成功應(yīng)用,為氣象事業(yè)的發(fā)展增添了新的活力與保障,極大的提高了蘇州區(qū)域氣象預(yù)報(bào)的精確度,也為全國氣象行業(yè)信息化發(fā)展提供了寶貴的應(yīng)用經(jīng)驗(yàn)。