從圖形渲染到密集計算 通用GPU的崛起
在兩年前,NVIDIA與Intel打了一場GPU與CPU誰更重要的口水戰(zhàn),表面上看,這場口水戰(zhàn)只是雙方交惡的意氣之爭,但實際上體現(xiàn)了計算業(yè)界的根本性分歧:CPU更適合通用性質的任務處理,而GPU更適合高并行的密集數(shù)學計算,這兩者未來誰會更重要呢?
爭論雖然沒有得出答案,但Intel用行動來表達自己的野心:Larrabee處理器高調浮出水面,它針對高并行的流計算,當然也支持圖形渲染,更關鍵的是Larrabee采用與X86類似的指令集來編程,擺脫了對固定式圖形API的限制,從而能夠實現(xiàn)更廣泛的任務處理。Larrabee最后并沒有獲得成功,顯然Intel在這個領域缺乏高超的設計水平,原型產(chǎn)品功耗巨大,性能又遠遜于對手,強硬推出只是自取其辱?,F(xiàn)在Intel暫時放棄了Larabee,放緩進入GPU領域的步伐,NVIDIA和AMD大大松了一口氣,但Larrabee所要表達的意圖卻在圖形業(yè)界開始被精確呈現(xiàn)。
Cypress與Fermi,向左走,向右走
一個像樣的服裝設計師,在設計自己作品的時候,總會先思考這些因素:未來將流行哪一種風格?客戶又會喜歡哪一種款式?這個命題可以抽象出兩種內涵:其一就是作品要針對哪一種應用,其二就是這種應用將采用何種形態(tài)來實現(xiàn)?事實上,新一代GPU的設計,也完全涵蓋了這兩個方面。
在圖形領域,AMD的地位與NVIDIA“幾乎”對等,“幾乎”的意思就是還差那么一點點,至少我們可以看到,AMD在圖形驅動的支持方面與對手差距甚遠,NVIDIA可以為Windows、Linux和UNIX同時提供驅動,過氣的老顯卡也從未被拋棄;而AMD只能在Windows平臺中保持對等,而且那些一兩年前的GPU就得不到妥善的支持,當然更別提它的專業(yè)顯卡驅動了。
另一方面,AMD無法像NVIDIA一樣提供類似CUDA、PhysX這樣的豐富軟件平臺,這讓它在通用加速領域束手束腳,而這個領域的落后也很難朝夕趕上。再者,在單GPU芯片的設計方面,AMD一直缺乏NVIDIA這樣的功底,迄今為止AMD都沒有在晶體管數(shù)量方面超過NVIDIA—對結構相對固定的GPU來說,晶體管集成度在多數(shù)時候都代表性能的高低。
AMD很清楚自身的缺點,所以它采取靈活的策略來對付對手。顯然,AMD的目標只是圖形市場,希望能夠在獨立顯卡領域勝過對手,同時圖形芯片組再為自家的AMD64平臺增加競爭力。這種立意決定了AMD在產(chǎn)品的設計上專注于圖形性能本身,并且保持穩(wěn)健的策略—在R600時代開始之前,AMD認為開發(fā)大型GPU芯片的難度越來越大,導致成本居高不下,同時市場鋪設動作又非常遲緩。為此,AMD在自家CrossFire交火技術的基礎上,制定了多芯片的開發(fā)策略。
以二敵一,開發(fā)中等性能GPU,再通過數(shù)量聯(lián)合來實現(xiàn)高端性能,
這是一種代價最低,升級最容易的做法。
多芯片顯卡的思想很簡單,即GPU芯片不再追求全能和強勁,而只是實現(xiàn)全能性,保證對流行規(guī)格率先提供支持,其次便是芯片規(guī)模不要太大,以免給制造帶來負擔。同時,還要保證較好的功耗水準,在滿足上述目標的前提下,實現(xiàn)最好的性能。顯然,這種思路開發(fā)的GPU速度一定不是最快,但卻可以在經(jīng)濟效益上做到最好,可以在短時間就上市。至于高端顯卡,則可以通過雙芯片,甚至四芯片并聯(lián)的方法進行,以二敵一,來獲得性能上的優(yōu)勢。
這種策略令AMD擺脫了新品推出不利的困境,并在商業(yè)上獲得成功—尤其是在RV770 時代,NVIDIA的GT200完全失去了反擊之力,現(xiàn)在AMD又在DirecX11顯卡的爭霸賽中,整整領先NVIDIA半年多。2009年9月,AMD發(fā)布代號為“Cypress(也就是RV870)”的Radeon HD 5870/5850系列顯卡,率先進入DirectX11時代,低階版的其他HD5000系列也很快上市,到現(xiàn)在為止,AMD的Radeon HD 5000系列已代替上一代產(chǎn)品成為主流。但NVIDIA仍只能拿GT200架構的GeForce GTX280/295應對,GT200其實只是2006年底發(fā)布的G80的延續(xù),在規(guī)格方面比較落伍。很明顯,NVIDIA目前的顯卡產(chǎn)品不論在規(guī)格上還是硬件性能上都全面落敗。相信這也是NVIDIA在GeForce FX5800以后遭遇的最大危機。 #p#page_title#e#
2009年9月發(fā)布的Radeon HD 5870,是第一款支持DirectX 11的GPU。
然而,NVIDIA高層和科學家們似乎不以為然,將全部注意力放在即將出爐的Fermi身上,他們始終保持高昂的熱情,對這款革命性的GPU保持堅定信念。這種信念的內在動力,就在于Fermi與傳統(tǒng)GPU已有了根本性的區(qū)別。在Fermi的開發(fā)工作啟動之初,NVIDIA還在圖形市場上占據(jù)顯著優(yōu)勢,它所考慮的并不僅僅是保住自己的王座,而是希望能將GPU延伸到更廣泛的領域,獲得新的增長點。由于欠缺CPU業(yè)務,NVIDIA必須顧慮未來面臨Intel和AMD的全平臺競爭,很明顯,假如NVIDIA只有傳統(tǒng)的GPU,那么未來它必定是死路一條—Intel和AMD在某一天很可能甩開業(yè)界標準來打造屬于自己的封閉平臺,屆時NVIDIA即便擁有世界上最好的圖形技術,那也毫無用處。
有鑒于此,NVIDIA要求它們的新一代產(chǎn)品要更加全能,能夠勝任廣闊的密集計算要求,而不僅僅只是用作圖形渲染。NVIDIA希望它能夠進入PC和游戲機之外的更多設備中,比如超級計算機、平板電視以及未來任何需要數(shù)字視覺的應用領域。
Fermi處理器,脫離GPU羈絆,專為通用而生
然而,現(xiàn)行的G80/GT200架構雖然具有非常不錯的靈活性,但遠不足以完成如此重大的使命。NVIDIA的高層作出激進的決策:那就是全部推倒重來—這就是Fermi的出臺背景。Fermi被打造成一款高度靈活的處理器,除了圖形渲染的基本職能,它還整合了PhysX物理處理器以及光線追蹤處理器,同時讓每個計算單元都擁有自己的緩存系統(tǒng),可以高效地完成高負荷的浮點計算任務,比如對視頻的實時優(yōu)化編碼,執(zhí)行“任意妄為”地渲染指令、DNA排序、宇宙探索、質數(shù)計算等等,當然還包括物理計算和光線追蹤計算—這些過去是CPU的專屬應用。
用戶也許會發(fā)問:“從CPU手中搶到這些任務,對我們會有什么好處么?會不會像那些CPU整合GPU之類的噱頭而已?”其實這種好處相當顯著:CPU所執(zhí)行的是X86指令,程序可以任意編寫,完全沒有使用限制,靈活是它的最大優(yōu)點;另外,CPU是被設計來執(zhí)行諸如任務處理之類的整數(shù)任務,固定式的浮點計算并非其特長,雖然CPU設計者始終不遺余力增強它的浮點性能。與此不同,F(xiàn)ermi采用一種高度并行的計算結構,它擁有多達512個CUDA計算單元,每個單元都有緩存,作為一個基本的計算單位,這些單元可以同時進行浮點計算的處理。并行度遠非CPU可比—AMD的GPU雖然有更多的流處理單元,但這些單元并沒有緩存系統(tǒng),只是被動地接受上級數(shù)據(jù)計算后輸出,通用性非常有限,加上AMD并沒有提供理想的開發(fā)工具,令開發(fā)者無從下手。
Fermi的CUDA核心,擁有完整的浮點和整數(shù)計算單元,
不再在整數(shù)計算方面瘸腿,具有高度自主性。
其次,F(xiàn)ermi的每個CUDA核心,都在浮點計算單元之外加上整數(shù)處理單元,可執(zhí)行完整的32位整數(shù)計算任務,而后者在過去只能通過模擬實現(xiàn),且僅能計算24-bit整數(shù)乘法而已;同時Fermi引入了復合乘加運算機制(Fused Multiply-Add,簡稱FMA),每個周期可執(zhí)行512單精度浮點或256個雙精度浮點數(shù)運算,而上一代G200僅能支持單精度的FMA操作。當然,所有這些FMA運算都基于IEEE 754-2008浮點算法,計算結果不會出現(xiàn)差錯。此外,F(xiàn)ermi的雙精度浮點(FP64)性能也大大提升,峰值執(zhí)行率可以達到單精度浮點(FP32)的1/2,而過去只有1/8;AMD Cypress/RV870核心的雙精度浮點性能也只有單精度浮點的1/5—例如Radeon HD 5870的單精度性能達到2.72TFlops,但雙精度處理時僅有544GFlops。
第三,F(xiàn)ermi引入了真正的緩存設計,每32個CUDA核心被配置成一組SM(Streaming Multiprocessor)流處理器,每組SM擁有64KB可配置內存,可以根據(jù)任務的性質部署成16KB共享內存加48KB一級緩存,或者48KB共享內存加16KB一級緩存的形式,從而滿足不同類型程序的需要。此外,整個芯片還共享768KB的二級緩存,方便SM計算單元的輸入輸出—這些顯然都是為通用計算而準備。 #p#page_title#e#
Fermi擁有16組SM流處理器,每組都具有自己的緩存
和內存系統(tǒng),能夠獨立地完成各種密集計算應用。
計算核心的大幅增強以及緩存系統(tǒng)的納入,讓Fermi成為一枚高度通用的浮點處理器而非傳統(tǒng)的GPU。其實,從數(shù)學角度來看,無論是圖形渲染的浮點運算,還是物理處理、光線追蹤、視頻編碼處理、DNA排序還是其它的數(shù)學計算,在本質上都是相同的單精度浮點或雙精度浮點計算,最基礎的數(shù)學計算機制也完全相同,區(qū)別僅在于采用不同的算法—如果算法可以用軟件方式輸入,GPU依照這種算法進行結構部署并處理,那么就可以實現(xiàn)了通用的浮點處理任務。我們可以打個簡單的比喻:這個模式相當于將CPU內的浮點計算單元完全搬移出來,作適應性改造之后再放到GPU上面,同時大大增加它的數(shù)量—這就是NVIDIA Fermi的設計立意。
復雜的CUDA Core設計和緩存系統(tǒng)大大增加了Fermi的規(guī)模,
它的晶體管總量達到史無前例的30億個,給制造工作帶來巨大困難。
Fermi被打造成通用型浮點處理器,加上NVIDIA一向對性能要求極高,F(xiàn)ermi就不可避免地成為又一個巨無霸。在產(chǎn)品展示之時,外界咨詢?yōu)楹蜦ermi屢屢跳票,幾乎創(chuàng)下NVIDIA新的歷史。NVIDIA的高管不禁大吐苦水:要設計出這個超大超強的玩意實在是太難了!的確,F(xiàn)ermi需要為每個單元建構緩存系統(tǒng),要確保如此眾多的核心能夠高效率地協(xié)作和共享,這種難度明顯超出常規(guī)的多核處理器(目前的多核CPU最多只需要應對12核的協(xié)作)。NVIDIA高層與它們的科學家都深知Fermi的革命性,雖然產(chǎn)品屢屢因這樣那樣的問題跳票,但他們幾乎不以為意,而對于未來始終充滿自信。
Larrabee理想的實現(xiàn),F(xiàn)ermi與CUDA、Tesla平臺通吃密集計算市場
Fermi與AMD Cypress/RV870 GPU的不同設計立意,意味著GPU的道路開始分道揚鑣—從商業(yè)上講,Cypress/RV870體系下的Radeon HD5000家族都具有易于生產(chǎn)、價格便宜、功能齊全的特點,會在眼前的商業(yè)市場上獲得追捧,但它們實質上仍只是一款圖形處理器,與NVIDIA第一代GeForce 256并沒有本質的不同。雖然Fermi面臨生產(chǎn)上的種種難題,但只要Fermi邁過這道坎,它便與對手站在截然不同的制高點—回溯歷史,我們不免有所感慨,AMD這些年間一直為整合ATI,并在圖形市場超過NVIDIA而努力,而NVIDIA則將目光放在更廣闊的空間,并為自己的下一個十年籌劃布局。
Fermi代表通用浮點處理器的趨勢,這其實是Intel Larrabee想要做的事情。我們知道,Intel在設計Larrabee時完全沒有依照GPU的規(guī)范,而是另起爐灶,創(chuàng)造了一套基于X86的指令系統(tǒng),借助這套指令,Intel可以為Larrabee編寫各種不同的API接口,而API的升級也與硬件完全無關—比方說Intel能夠僅通過升級驅動程序就實現(xiàn)從DirectX 10到DirectX 11的跨越,這是NVIDIA和AMD所代表的傳統(tǒng)GPU勢力所無法實現(xiàn)的。同樣,Intel也可以推出各種不同功能的通用加速接口,而為Larrabee編程,就好象給目前的X86 CPU平臺編寫程序一樣非常簡單,Intel希望通過這種方式通吃密集計算市場,成為新領域的王者。
CUDA、Fermi Tesla共同構建NVIDIA的密集計算系統(tǒng),在這個領域NVIDIA未逢對手。
非常諷刺的是,F(xiàn)ermi現(xiàn)在將承擔起實現(xiàn)這個夢想的使命,它所依賴的便是NVIDIA的CUDA和Tesla平臺—前者作為應用程序的開發(fā)接口,允許開發(fā)者采用C/C++語言來對GPU進行編程;后者則是針對性的硬件系統(tǒng),我們可以將它們看作是特殊的顯卡,計算核心仍然是GeForce GPU,只是面向的任務迥然不同。經(jīng)過這么多年的推廣,CUDA和Tesla平臺已在許多專業(yè)領域獲得應用,實際上它們也是GPU進入密集計算領域的唯一選擇。 #p#page_title#e#
在這個全新的領域中,NVIDIA現(xiàn)在沒有任何對手,F(xiàn)ermi的出臺無疑將進一步鞏固了NVIDIA的標準地位,我們已經(jīng)可以嗅到Fermi大舉進入超級計算市場的氣息,這種感覺正如NVIDIA當初拿出GeForce 250 GPU之后,環(huán)顧四周S3、Matrox、3dfx紛紛倒下的情況。在未來的TOP500超級計算系統(tǒng)中,NVIDIA的市場占有率最終將超過Intel、AMD和IBM這些傳統(tǒng)勢力,原因非常簡單:在獲得同等計算性能的條件下,NVIDIA Tesla系統(tǒng)的花費只是傳統(tǒng)CPU方案花費的幾十分之一,何況基于Fermi的Tesla平臺無論在性能還是靈活度上都有相當大的提升,這將對超級計算機的建設者帶來致命吸引力。我們可以預見,今后的超級計算機和工作站專業(yè)領域,基于傳統(tǒng)CPU+Fermi的混合架構會將成為最好的選擇,NVIDIA也將在這個利潤豐厚的新市場中找到自己的位置。
我們同樣相信,作為先行者的Fermi不會永遠高枕無憂,Intel并沒有完全放棄它的Larrabee計劃,作為理念的開創(chuàng)者,Intel仍然尋求進入該領域的可能,以保證CPU不會因為時代前進而被邊緣化。作為競爭者的AMD,在未來產(chǎn)品中勢必會增加這方面的機能—盡管AMD沒有類似CUDA這樣的開發(fā)平臺,但借助開放的API標準,AMD將會逐步升級并進入到這個領域,雖然開發(fā)環(huán)境的支持不力將會長期困擾AMD。
CPU迎戰(zhàn)Fermi,納入新的協(xié)處理機制
如果事態(tài)就這么自然地發(fā)展,F(xiàn)ermi將不斷蠶食原本屬于CPU的領地—其實它本來就是CPU中的浮點運算單元,只不過變得異乎尋常的強大而已。加上NVIDIA擺脫了通用標準的制約,形成一個強大的封閉平臺,這樣將會與Intel的CPU中心平臺和AMD的雙線兼顧平臺,形成角度不同的三國鼎立。
很顯然,像Off ice辦公軟件、Web瀏覽器、IM即時通訊這樣的商務軟件不會消耗多少CPU資源,再低端的處理器都可以很好地運行這類整數(shù)運算任務。假如不是Flash幫忙,高性能CPU的用處實在是非常小了。不過,Adobe的Flash現(xiàn)在也在支持CUDA平臺,利用GPU進行加速,微軟的IE9也加入了GPU加速,倘若諸如交互動畫和網(wǎng)絡視頻這些消耗CPU大的應用都依賴GPU運行,那我們還需要高性能CPU來做什么呢?
Intel如日中天的背后,潛藏著這樣的危機,應用形態(tài)的改變完全可能顛覆整個產(chǎn)業(yè),在短短的時間內將徹底改變產(chǎn)業(yè)形態(tài)。作為半導體業(yè)首屈一指的巨頭,Intel顯然不會坐以待斃,實際上,早在數(shù)年前提出的Many-Core“眾核”計劃便是針對此種未來而準備。
Many-Core采用主處理器+協(xié)處理器的設計思想,主處理器便是我們常說的CPU,協(xié)處理器則是擁有特殊功能的計算邏輯,比如高清視頻加速、Java解釋執(zhí)行、Flash硬件加速等。每一個協(xié)處理器都執(zhí)行特定的應用,而那些應用如果由CPU來完成的話就會非常低效。在Intel的最初藍圖中,Many-Core將在2010年后開始被導入,不過迄今為止Intel還沒有這方面的行動,這未免讓它顯得落伍。如果與Fermi對比,我們發(fā)現(xiàn)Intel的Many-Core雖然結構完全不同,但是思想殊途同歸:都是由專用部件來完成CPU所不擅長的任務,所不同的是Many-Core只是Intel過去的遠景構想,不幸的是實現(xiàn)這個構想的卻是NVIDIA的Fermi。
Fermi以另一種方式實現(xiàn)了Intel的夢想,并開創(chuàng)了一個全新的應用領域
在新發(fā)布的Core i3處理器中,我們看到圖形核心被集成于處理器芯片內,不過這種整合只不過是“積木游戲”,對性能與應用沒有任何的影響力。雖然Larrabee計劃的失敗看起來輕描淡寫,但實際上完全可能會令Intel陷入一場突如其來的重大危機。
與Intel相比,AMD在CPU方面反而沒有這種壓力,這完全得益于來自ATI圖形部門的貢獻。AMD不會有改變CPU構造的動機,它的目標比較務實,只要能夠從Intel手中不斷搶奪市場份額,企業(yè)能夠正面增長就沒問題,哪怕自身缺乏改變未來的宏圖大志。畢竟對于一家被糟糕的財務壓垮多年的半導體企業(yè),我們委實不應苛求太多。 #p#page_title#e#
現(xiàn)在,Adobe Flash和其它交互網(wǎng)頁是CPU的最后堡壘,我們有理由相信,在未來的三年內,所有Flash元素都會實現(xiàn)GPU加速,同時,3D游戲對CPU的依賴將繼續(xù)減弱,如果沒有高負載的任務來接手,高性能CPU的市場將會縮小,這對于傳統(tǒng)CPU廠商來說是可怕的前景。
通用GPU之于消費用戶的意義
高度通用性的GPU,將會令傳統(tǒng)的PC能夠做許多過去難以想象的事情,而這種變化并不僅是在專業(yè)領域,實際上在娛樂應用中,新一代GPU將必不可少。
在2008年2月,東芝曾推出一款搭載Cell芯片的筆記本電腦,該芯片擁有多個協(xié)處理器,具有很強的浮點性能,在這部筆記本電腦中,Cell的任務是優(yōu)化正在播放的視頻:在傳統(tǒng)模式下,視頻清晰度低,畫面色彩較為黯淡,而經(jīng)過Cell的處理,畫面變得清晰銳利,色彩鮮活,觀賞性大大提升了。其次,對一些手持拍攝的視頻,由于攝像機不穩(wěn)造成畫面嚴重抖動,經(jīng)過Cell處理后所得到的視頻可以變得非常穩(wěn)定—假如拿普通的CPU來干這件事,這類轉化過程需要數(shù)十小時之久,而Cell芯片僅需要2~3小時的時間。
未來的通用GPU同樣將具有這樣的功能,這種視頻優(yōu)化和轉化處理,都需要極高的浮點運算能力,即便是目前最強的12核處理器都難以勝任;而只要有軟件支持,類似Fermi這樣的通用GPU就可以輕松實現(xiàn)這一點。鑒于這種功能實用意義巨大,我們認為視頻播放器的開發(fā)者在今后會積極導入這項技術。
3D電視是目前電視機業(yè)界的熱點,鑒于3D視覺模式的巨大吸引力,我們認為3D電視機在未來5年內將淘汰傳統(tǒng)的2D電視成為主流形態(tài)。不過,電視臺和電視劇的拍攝可來不及作出這么激進的轉變,至少要到5年之后,3D頻道才會陸續(xù)開播,而2D信號在漫長的時間內都還是主流。為了將2D信號轉變?yōu)?D信號,電視機廠商就必須額外設計視頻轉換芯片,而高清視頻流所需的超大計算量遠非一般的處理器所能實現(xiàn)—顯然,這個新興市場也有望成為Fermi的新增長點,而且Fermi的可編程性質讓它可以為所有的電視機廠商提供不同的解決方案,只要NVIDIA在未來能夠拿出低功耗和成本更低的產(chǎn)品,并且推廣得當,完全可以在這個新興市場中獲益。
如果回到3D游戲的老本行,F(xiàn)ermi所代表的高度通用平臺也更具吸引力—強勁的物理性能與光線追蹤性能是Fermi的殺手锏,前者基于PhysX團隊的成果,是一種真正硬件級的物理計算方案,游戲開發(fā)者完全可以按照自己的意圖來構建場面宏大的游戲場面,比如劇烈爆炸、雨雪和雪崩這些涉及到大量運動物體的自然場景都可以在虛擬世界中出現(xiàn)。而光線追蹤的首度引入,則意味著3D游戲能夠實現(xiàn)超一流的現(xiàn)實光影效果。與此相比,AMD所忠實代表的DirectX 11平臺會顯得黯淡無光,只要游戲開發(fā)者不想落伍,自然會在游戲中額外再加入PhysX物理支持和Fermi的光線追蹤技術,鑒于這兩項都是專有技術,競爭對手根本無法獲得,只要擁有足夠多游戲的支持,PC用戶們會很自然地向NVIDIA傾斜,這也是NVIDIA在設計Fermi時的另一個初衷。
革命性的融合,通用GPU終將增加CPU功能
CPU工業(yè)也許還有三年時間來作出應對,而在這三年間,我們相信Fermi架構也不會躑躅不前。顯然,F(xiàn)ermi上市時會遭遇發(fā)熱巨大、價格高昂或者良品率低的問題,不過這些問題照例會在半年左右的時間里獲得解決;接下來,NVIDIA會對Fermi結構作出優(yōu)化并衍生出中低端和移動型號,這樣在一年左右時間里,NVIDIA才能將Fermi推向主流市場的地位。
從表面上看,這種動作非常的遲緩,遠遠落后于AMD。不過NVIDIA將更關注軟件平臺的延伸—GPU在完成物理計算和光線追蹤的加速后,現(xiàn)在要進入Flash加速、網(wǎng)頁渲染加速和實時視頻優(yōu)化兩個領域,Adobe在Phot oshop、Acrobat中明確采用CUDA進行加速,F(xiàn)lash的加速同樣基于此,如果它能夠在兩年左右時間內拿出完美的解決方案,再經(jīng)過1~2年的時間網(wǎng)頁設計師都作出改變,那么一個新時代就產(chǎn)生了:Fermi這種通用GPU將取代傳統(tǒng)CPU,承擔PC系統(tǒng)的關鍵計算工作,此時CPU的性能高低對系統(tǒng)影響有限,消費者大概不會再關心它是Intel還是AMD。 #p#page_title#e#
再接下來,通用GPU中整合一些X86 CPU的功能是再自然不過的事情了,實際上所整合CPU根本不必有多么高超的性能或者多少個核心。這時你將看到,以GPU為核心的混合計算芯片將就此產(chǎn)生,同Intel、AMD的CPU為核心混合處理器具有相同的表面形態(tài),但這兩者的本質卻截然不同。
我們認為這種融合方式更貼合未來的發(fā)展實際:今天的Office 2010相對于十年前的Office 97,在基本的商務功能方面并沒有大的改變,對用戶來講,這兩者最大的不同只是視覺界面。
再往后的五年,估計這類軟件不會有本質性的進步,網(wǎng)絡協(xié)同及云計算才是未來的方向所在,但這種網(wǎng)絡中心的應用模式對CPU的要求反而更低。相反,視覺領域的應用方興未艾,人們對于視覺的要求越來越苛刻:從VCD、DVD到標清、高清視頻,再到3D化,未來甚至包括網(wǎng)頁都會朝著這方面發(fā)展,這些新興的應用勢必對GPU依賴越來越高,加上未來3D游戲對高真實度交互體驗的孜孜以求,我們相信GPU的重要性將越來越高,直到某一天突破臨界點成為計算系統(tǒng)的核心
圈地運動,爭奪編程者的支持
對于這樣的前景,CPU廠商們都要有足夠的心理準備,對Intel而言,最好的舉措就是重啟Larrabee計劃,假如無法在性能上趕上對手,那么作為新一代的整合GPU也是非常合適,關鍵在于Intel必須及早拿出相應的開發(fā)包和指令系統(tǒng)。第二個選擇就是增強自身GPU的通用性,使之在商務領域能夠保有自己的特點,而不會在面對未來應用時手足無措。
這種走向能夠實現(xiàn),決定權其實并不在NVIDIA、AMD或Intel等硬件廠商手中,真正的關鍵在于,軟件開發(fā)者是否買賬?這取決于Fermi平臺能有多大的吸引力和多高的成熟度,但無論如何,我們都相信接下來的五年,CPU-GPU的平衡將會被打破,慣性提升性能的發(fā)展模式也走到了盡頭,產(chǎn)業(yè)界的洗牌在所難免。那么,再下一次的洗牌,會是人工智能的實現(xiàn)嗎?
新一輪戰(zhàn)役,新一輪圖形市場的競逐
Fermi擁有更先進的理念,但先進的理念并不意味著馬上就能夠在市場中占據(jù)優(yōu)勢,NVIDIA花費巨大的精力來打造Fermi,很大程度上是為企業(yè)的長遠未來考慮,但這種激進的設計在短時間內很難體現(xiàn)出優(yōu)勢,反而可能在現(xiàn)實中遭遇挫折。
Fermi最主要的市場依然是PC領域,游戲玩家們最關注的是3D性能、價格以及功耗方面的優(yōu)勢,而產(chǎn)量對于市場鋪設同樣極為重要。首先,我們來看看它的3D性能,評測結果清晰地顯示Fermi架構的巨大威力:GTX480(Fermi架構的最高階型號)在3D游戲中完勝對手Radeon HD 5870,平均領先幅度達到25%,雖然某些游戲領先幅度較輕微,但在多數(shù)游戲中GTX480的性能優(yōu)勢都非常顯著,如果游戲本身支持PhysX,GTX480的性能優(yōu)勢更可平均高出200%。顯然這些優(yōu)勢來自于Fermi近乎華麗的設計。
不過,Radeon HD 5870雖然落敗于GTX480,但它的價格要便宜得多:GTX480零售價為499美元,Radeon HD 5870只有379美元,后者更經(jīng)濟;其次,Radeon HD 5870的功耗水準為27W(空閑)/188W(滿載),而GTX480的滿載功耗高達295W,只有配備600W的高功率電源方可滿足需要,這明顯增加了系統(tǒng)的構建成本—無論從費效比角度還是能效比角度,Radeon HD 5870都具有明顯的優(yōu)勢。
GTX480雖然是當前的單GPU性能之王,但卻不是顯卡之王,AMD雙芯的Radeon HD 5970依然可以在多數(shù)項目中輕松地擊敗它。Radeon HD 5970早于2009年11月份發(fā)布,時間上已整領先4個月,它的功耗水準也同GTX480相當—而受到功耗的限制,利用雙GTX480芯片來搭建單顯卡的計劃幾乎不可能實現(xiàn)。 #p#page_title#e#
在主流市場,NVIDIA計劃推出Fermi架構的GF104 GeForce GTS 400系列,不過發(fā)布時間最快是在今年夏天,甚至可能到第三季度。換言之,如果主流用戶想在上半年購置DirectX 11顯卡,那么Radeon HD 5000系列依然是唯一的選擇,AMD有充足的時間來占領獨立顯卡市場?;蛟S正是因為這些原因,AMD高層對于Fermi的到來充滿底氣,AMD官方發(fā)言人Dave Erskine在接受訪談時對媒體表示:“Radeon HD 5970在發(fā)布4個月后依然是性能領先者;HD 5870在發(fā)布半年后依然是不爭的贏家;同時AMD擁有從旗艦到入門的全系列DirectX 11顯卡產(chǎn)品線,包括ATI Eyefinity技術在內的諸多先進特性,Radeon 顯卡依然是消費者心目中的最佳選擇。”
毫無疑問,NVIDIA應該在接下來的半年間解決生產(chǎn)問題,這個巨無霸的芯片令制造方吃盡苦頭,低良品率和高成本是最大的致命傷。NVIDIA很難在2010上半年有多少作為,只有主流產(chǎn)品線全員到齊之后,NVIDIA才有機會奪回市場,問題在于,AMD也不會停步不前。