制造行業(yè)CAE對(duì)高性能計(jì)算平臺(tái)的選擇
高性能計(jì)算(HPC)正逐步進(jìn)入制造行業(yè),承擔(dān)諸多關(guān)鍵的計(jì)算應(yīng)用。該領(lǐng)域中用戶主要分成兩類,一類是實(shí)際制造企業(yè),如汽車設(shè)計(jì)制造廠商、航空工業(yè)企業(yè)、電力企業(yè)及消費(fèi)產(chǎn)品生產(chǎn)商等。這一類用戶通過(guò)高性能計(jì)算技術(shù)來(lái)提高產(chǎn)品的性能,減低成本,同時(shí)縮短產(chǎn)品的設(shè)計(jì)、生產(chǎn)周期,以使企業(yè)在市場(chǎng)上更具競(jìng)爭(zhēng)力,另一類是研發(fā)單位,如政府、國(guó)防和大學(xué)中涉及制造行業(yè)的部門(mén)或?qū)I(yè)。這一類用戶的目標(biāo)是利用高性能計(jì)算技術(shù)改善設(shè)計(jì)方法,提高設(shè)計(jì)水平從而為實(shí)際生產(chǎn)服務(wù)。
圖1給出了制造行業(yè)中采用計(jì)算機(jī)進(jìn)行產(chǎn)品開(kāi)發(fā)的流程,包括建模、前處理(模型修改和網(wǎng)格生成)、計(jì)算分析、交叉學(xué)科綜合及后處理幾個(gè)部分。其中高性能計(jì)算主要應(yīng)用于計(jì)算分析部分,統(tǒng)稱為計(jì)算機(jī)輔助工程(CAE)。圖1是CAE的分析過(guò)程。
圖1 計(jì)算機(jī)主要在CAE分析過(guò)程的后期解算部分發(fā)揮作用
制造行業(yè)CAE應(yīng)用程序的特點(diǎn)
制造行業(yè)CAE的應(yīng)用可以分為隱式有限元分析(IFEA)、顯式有限元分析(EFEA)和計(jì)算流體動(dòng)力學(xué)(CFD)三個(gè)子學(xué)科。幾乎所有的制造企業(yè)的高性能計(jì)算都依賴于獨(dú)立軟件開(kāi)發(fā)商(ISV)提供的商業(yè)軟件,只有流體動(dòng)力學(xué)算題中結(jié)構(gòu)網(wǎng)格計(jì)算類型的部分軟件是用戶自己開(kāi)發(fā)的。因此制造行業(yè)用戶在購(gòu)買硬件平臺(tái)的同時(shí)通常會(huì)購(gòu)買相應(yīng)的科學(xué)計(jì)算軟件產(chǎn)品。而在某種程度上,往往是應(yīng)用軟件的特性決定了硬件平臺(tái)的選擇。
下表給出了常用的CAE軟件,并列出這些軟件的特點(diǎn),包括并行方式和可擴(kuò)展性。
常用分析軟件
從上表中我們可以了解到CAE應(yīng)用軟件具有以下特點(diǎn):
(1)IFEA類應(yīng)用軟件(如ABAQUS、ANSYS和MSC Nastran)硬件平臺(tái)支持的可擴(kuò)展性不是很好。當(dāng)使用超過(guò)8個(gè)CPU來(lái)處理一個(gè)任務(wù)時(shí),通常不會(huì)再有性能上的提升;
(2)IFEA類應(yīng)用軟件通常使用共享內(nèi)存方式(pthreads或OpenMP),進(jìn)行并行處理,其中ABAQUS不支持消息傳遞方式(MPI)的并行;
(3)EFEA類應(yīng)用軟件(如LS-DYNA、PAM-CRASH和RADIOSS)和計(jì)算流體動(dòng)力學(xué)軟件(如FLUENT、STAR-CD和PowerFlow)的硬件平臺(tái)支持的擴(kuò)展性相對(duì)較好;
(4)EFEA類應(yīng)用軟件和CFD軟件以采用消息傳遞并行方式(MPI)為主。
高性能計(jì)算(HPC)服務(wù)器體系結(jié)構(gòu)分類及特點(diǎn)
目前市場(chǎng)上常用的高性能計(jì)算服務(wù)器大致可以分為以下3種體系結(jié)構(gòu),即:
1.并行向量處理機(jī)(PVP)
PVP系統(tǒng)含有為數(shù)不多、功能強(qiáng)大的定制向量處理器(VP),以及定制的高帶寬縱橫交叉開(kāi)關(guān)和高速數(shù)據(jù)訪問(wèn)。由于這類系統(tǒng)對(duì)程序編制的要求較高,價(jià)格很昂貴且難于管理,因此,這種類型計(jì)算機(jī)主要集中在一些大型國(guó)家關(guān)鍵部門(mén),在本文中不再贅述。
2.對(duì)稱多處理機(jī)(SMP)
SMP系統(tǒng)采用商品化的處理器,這些處理器通過(guò)總線或交叉開(kāi)關(guān)連接到共享存儲(chǔ)器。今天市場(chǎng)上常見(jiàn)的機(jī)型有IBM p系列服務(wù)器、HPQ的SuperDome、Alpha的ES、GS系列及SGI公司的Altix系列。SMP系統(tǒng)通常具有以下特點(diǎn):
(1)系統(tǒng)內(nèi)的CPU共享并可以直接訪問(wèn)所有的內(nèi)存;
(2)由一個(gè)操作系統(tǒng)管理整個(gè)系統(tǒng);
(3)支持共享內(nèi)存方式的并行模式,如OpenMP、pthreads等;
(4)支持消息傳遞方式的并行模式,如MPI、PVM等
(5)系統(tǒng)的價(jià)格相對(duì)較高;
(6)為提高系統(tǒng)的使用效率,需要有功能強(qiáng)大的資源管理軟件和作業(yè)調(diào)度軟件配合進(jìn)行系統(tǒng)管理。如LSF、PBS及IBM的WLM和LoadLeveler等。
3.工作站集群(COW,Cluster Of Workstation,簡(jiǎn)稱Cluster) #p#page_title#e#
Cluster結(jié)構(gòu)是近年來(lái)發(fā)展勢(shì)頭很好的一種體系結(jié)構(gòu)。這類機(jī)型的技術(shù)起點(diǎn)比較低,用戶甚至可以自己將一些服務(wù)器或微機(jī)通過(guò)以太網(wǎng)連接起來(lái),配以相應(yīng)的管理、通訊軟件來(lái)搭建Cluster。但是如果要構(gòu)造高性能、結(jié)構(gòu)合理并具有好的RAS特性的Cluster卻不是一件容易的事情。幾乎所有的國(guó)內(nèi)、外計(jì)算機(jī)廠商都有自己的Cluster集群產(chǎn)品,如IBM的Cluster1350、聯(lián)想的深騰系列及曙光的天潮系列等。Cluster系統(tǒng)通常具有以下特點(diǎn):
(1)系統(tǒng)由多個(gè)獨(dú)立的服務(wù)器(在Cluster概念下稱為節(jié)點(diǎn))通過(guò)交換機(jī)連接在一起。每個(gè)節(jié)點(diǎn)擁有各自的內(nèi)存,某個(gè)節(jié)點(diǎn)的CPU不能直接訪問(wèn)另外一個(gè)節(jié)點(diǎn)的內(nèi)存;
(2)每個(gè)節(jié)點(diǎn)擁有獨(dú)立的操作系統(tǒng);
(3)需要一系列的集群軟件來(lái)完成整個(gè)系統(tǒng)的管理與運(yùn)行,包括:
Cluster系統(tǒng)管理軟件,如IBM的CSM、xCat等;
消息傳遞庫(kù),如MPI、PVM等;
作業(yè)管理與調(diào)度系統(tǒng),如LSF、PBS,LoadLeveler等;
并行文件系統(tǒng),如PVFS、GPFS等;
(4)支持消息傳遞方式的并行模式,如MPI、PVM等;
(5)只能在單個(gè)節(jié)點(diǎn)內(nèi)部支持共享內(nèi)存方式的并行模式,如OpenMP、pthreads等;
(6)性能價(jià)格比好。
CAE硬件平臺(tái)的選擇
CAE在制造企業(yè)中承擔(dān)著關(guān)鍵的業(yè)務(wù),所以其高性能平臺(tái)的選擇非常重要,這個(gè)平臺(tái)直接影響CAE的運(yùn)行性能表現(xiàn)、整體成本和系統(tǒng)維護(hù)等方面問(wèn)題。想讓CAE能實(shí)現(xiàn)“隨需應(yīng)變”,在高性能計(jì)算平臺(tái)的選擇上就需要進(jìn)行全面的考慮。
1.CAE軟件使用SMP系統(tǒng)存在的問(wèn)題
理論上講,SMP系統(tǒng)可以勝任CAE應(yīng)用程序的運(yùn)行,但是不可避免地存在一些問(wèn)題。首先是SMP系統(tǒng)價(jià)格相對(duì)較高。而且CAE的某些應(yīng)用軟件的擴(kuò)展性不好,如隱式有限元分析(IFEA)類軟件通常只能用到最多8個(gè)CPU。這個(gè)特點(diǎn)決定了配置超過(guò)8CPU的大SMP服務(wù)器沒(méi)有太大的必要,反而會(huì)造成投資的浪費(fèi)。
此外,SMP系統(tǒng)由一個(gè)操作系統(tǒng)管理,如果沒(méi)有強(qiáng)大的資源管理軟件和作業(yè)調(diào)度軟件配合,很容易造成CPU分時(shí)處理多個(gè)任務(wù)的現(xiàn)象,即在一個(gè)CPU上同時(shí)運(yùn)行多個(gè)進(jìn)程,從而影響整個(gè)系統(tǒng)的使用效率,同時(shí)難于保證關(guān)鍵任務(wù)的按時(shí)完成。常用的作業(yè)調(diào)度軟件有LSF、PBSpro和OpenPBS,其中開(kāi)放源代碼的OpenPBS很難勝任復(fù)雜的CAE應(yīng)用軟件的管理,尤其是對(duì)共享內(nèi)存方式并行模式(OpenMP,pthreads)的管理。而LSF和PBSpro的價(jià)格比較高,同樣會(huì)增加用戶的投資。
2.CAE軟件使用Cluster系統(tǒng)存在的問(wèn)題
目前市場(chǎng)上的Cluster系統(tǒng)通常是用PC服務(wù)器作為節(jié)點(diǎn)構(gòu)建的,每個(gè)PC服務(wù)器內(nèi)部一般配置2個(gè)CPU。這種類型的Cluster系統(tǒng)在承擔(dān)CAE應(yīng)用軟件運(yùn)行任務(wù)時(shí)也存在一些問(wèn)題,比如共享內(nèi)存方式的并行模式只能運(yùn)行在一個(gè)節(jié)點(diǎn)內(nèi)部,也就是說(shuō),最多只能用2個(gè)CPU去處理OpenMP/threads類型的CAE任務(wù),很難滿足應(yīng)用的時(shí)效性要求。又因?yàn)閱蜟PU的處理能力限制,需要更多的CPU來(lái)完成一個(gè)計(jì)算任務(wù),這樣就需要購(gòu)買較多CPU的軟件許可證,增加了用戶的投資。
3.IBM eServer p5 575服務(wù)器:CAE應(yīng)用軟件的最佳選擇
針對(duì)SMP系統(tǒng)和Cluster系統(tǒng)在處理CAE應(yīng)用時(shí)存在的問(wèn)題,我們可以考慮一種綜合這兩類體系結(jié)構(gòu)優(yōu)勢(shì)的高性能計(jì)算機(jī)系統(tǒng)——SMP Cluster。如圖2所示。
圖2 SMP Cluster和OpenSMP、Cluster的比較
IBM Cluster1600可以采用多種安裝IBM POWER5芯片的服務(wù)器作為節(jié)點(diǎn),如p5 575、p5 590和p5 595等,其中p5 575是專為HPC推出的一款高性能計(jì)算服務(wù)器。使用p5 575作為節(jié)點(diǎn)來(lái)構(gòu)成Cluster1600系統(tǒng)具有以下特點(diǎn): #p#page_title#e#
(1)采用SMP服務(wù)器作為節(jié)點(diǎn),構(gòu)成Cluster系統(tǒng)。這樣兼有兩種體系結(jié)構(gòu)的特點(diǎn),可以稱之為SMP Cluster系統(tǒng);
(2)p5 575是一個(gè)在2U高度中可以安裝8個(gè)POWER5處理器的SMP服務(wù)器(業(yè)界密度最高的非刀片服務(wù)器)。在一個(gè)p5 575內(nèi)部運(yùn)行共享內(nèi)存方式的并行模式(OpenMP或threads)應(yīng)用程序,可以保證系統(tǒng)能勝任較大規(guī)模的運(yùn)算模型處理,滿足計(jì)算的時(shí)效性。應(yīng)用程序也具有較高的并行效率和加速比;
(3)節(jié)點(diǎn)間連接采用IBM為HPC專門(mén)設(shè)計(jì)的高性能交換機(jī)HPS,其單通道帶寬達(dá)到4GB/s,并且每個(gè)節(jié)點(diǎn)都配置了雙通道作為冗余配置。這樣在保證跨節(jié)點(diǎn)通信的優(yōu)越性能的同時(shí),提供了較高的穩(wěn)定性;
(4)整個(gè)系統(tǒng)可以運(yùn)行消息傳遞方式的并行任務(wù)(MPI或PVM)。同時(shí)支持混合并行模式,即在節(jié)點(diǎn)內(nèi)部使用共享內(nèi)存方式的并行模式,節(jié)點(diǎn)間使用消息傳遞方式的并行模式,如MPI+OpenMP模式;
(5)完善的集群管理環(huán)境,統(tǒng)一進(jìn)行資源管理和作業(yè)調(diào)度。管理軟件包括:
CSM集群系統(tǒng)管理軟件;
LoadLeveler作業(yè)調(diào)度軟件,具有強(qiáng)大的作業(yè)調(diào)度、記帳及斷點(diǎn)/續(xù)算功能;
WLM資源管理軟件,與LoadLeveler配合使用,滿足用戶對(duì)系統(tǒng)資源管理和作業(yè)調(diào)度的復(fù)雜要求;
優(yōu)化的并行使用與開(kāi)發(fā)環(huán)境PE,提供高性能的、完善的并行作業(yè)運(yùn)行與管理;
高性能的并行文件系統(tǒng)GPFS,為整個(gè)集群提供穩(wěn)定的共享文件系統(tǒng),方便管理與使用;
(6)較高的性能價(jià)格比。
結(jié)論
結(jié)合制造行業(yè)CAE應(yīng)用軟件的特點(diǎn),我們可以看到使用IBM eServer p5 575作為節(jié)點(diǎn)的IBM Cluster1600系統(tǒng)可以很好地滿足這類應(yīng)用的復(fù)雜需求,是CAE應(yīng)用軟件的上佳選擇之一。
首先,使用8 CPU的SMP系統(tǒng)作為節(jié)點(diǎn),可以很好地滿足隱式有限元(IFEA)類型的應(yīng)用,如ABAQUS、ANSYS和MSC Nastran。這類應(yīng)用以使用共享內(nèi)存方式的并行模式為主。8 CPU的p5 575具有足夠的處理能力滿足應(yīng)用軟件處理大系統(tǒng)模型的需求,同時(shí)保證系統(tǒng)具有最高的使用效率。在這類應(yīng)用中,更大的SMP服務(wù)器是沒(méi)有任何必要的。
其次,對(duì)于擴(kuò)展性較好的EFEA類和CFD類應(yīng)用軟件,通過(guò)IBM高性能交換機(jī)(單通道帶寬為4GB/s)連接的Cluster1600系統(tǒng)可以很好地滿足節(jié)點(diǎn)間的通訊要求。在某些MPI的應(yīng)用中,SMP Cluster具有比相同數(shù)目CPU的SMP系統(tǒng)更好的性能。
再次,IBM Cluster1600系統(tǒng)具有完善的系統(tǒng)管理軟件,可以保證同時(shí)使用IFEA、EFEA和CFD應(yīng)用軟件的用戶方便地規(guī)劃與管理系統(tǒng)。作業(yè)調(diào)度軟件LoadLeveler和資源管理軟件WLM的結(jié)合使用可以滿足用戶對(duì)系統(tǒng)資源的有效管理,達(dá)到系統(tǒng)的最優(yōu)化使用。
最后,IBM eServer p5 575采用性能強(qiáng)大的POWER5處理器,用戶可以使用較少的CPU達(dá)到較高的性能,從而節(jié)省應(yīng)用軟件的許可證費(fèi)用。另外,IBM eServer p5 575是專門(mén)為高性能技術(shù)運(yùn)算和大規(guī)模并行處理開(kāi)發(fā)的產(chǎn)品,大緩存、高緩存帶寬和高內(nèi)存帶寬保證了處理復(fù)雜數(shù)學(xué)模型和復(fù)雜運(yùn)算時(shí)的性能。圖3 、圖4是在ANSYS和NASTRAN下的測(cè)試結(jié)果,供讀者參考。
圖3 ANSYS測(cè)試結(jié)果(ANSYS 8.1 Sum of 19 standard ansys runs,elapaed time in sec)
圖4 NASTRAN測(cè)試結(jié)果(MSC.NASTRAN 2004,Serial timings,XLEMF:Car body,ndof=654560, elapaed time in sec)