大中型企業(yè)可以從超級(jí)計(jì)算革命中學(xué)到什么
Frontier是一個(gè)龐大的系統(tǒng),其HPE克雷EX集群由9,408個(gè)第三代AMD EPYC 7A53處理器組成,每個(gè)處理器有64個(gè)內(nèi)核,總共有602,112個(gè)CPU內(nèi)核。每個(gè)單處理器節(jié)點(diǎn)都配備了四個(gè)AMD Instinct MI250X GPUs,總共有37,632個(gè)加速器。雖然CPU計(jì)算能力已經(jīng)非常強(qiáng)大,但GPU提供了最大份額的FLOPS,因此要利用Frontier提供的計(jì)算能力,工作負(fù)載需要支持GPU加速,包括獨(dú)特的新功能。
部署在Frontier中的AMD Instinct MI250X GPUs提供了一系列功能,但有兩項(xiàng)非常突出。首先是內(nèi)存一致性,加速器內(nèi)存和系統(tǒng)內(nèi)存可以視為一個(gè)連續(xù)體,而不是像其他標(biāo)準(zhǔn)系統(tǒng)那樣需要兩個(gè)數(shù)據(jù)副本。雖然一個(gè)節(jié)點(diǎn)中的多個(gè)GPU已經(jīng)可以共享它們的內(nèi)存,從而有助于處理非常大的數(shù)據(jù)集,但添加系統(tǒng)內(nèi)存也進(jìn)一步擴(kuò)展了這種可能性,特別是當(dāng)每個(gè)節(jié)點(diǎn)可以支持高達(dá)4TB的RAM時(shí)。
結(jié)果是節(jié)省了內(nèi)存空間,允許處理更大和更復(fù)雜的數(shù)據(jù)集。編程代碼的顯著減少使得代碼更加靈活和高效,減少了執(zhí)行命令所需的時(shí)間。
AMD Instinct MI250X也是第一款提供內(nèi)置網(wǎng)絡(luò)的GPU,支持跨節(jié)點(diǎn)的分布式處理。當(dāng)GPU直接插入互連網(wǎng)絡(luò)時(shí),計(jì)算節(jié)點(diǎn)或GPU之間的通信可以變得更快、更高效,延遲開(kāi)銷(xiāo)更小。這將使更多的能力能夠在巨大的數(shù)據(jù)集上操作,這對(duì)于一些工作負(fù)載來(lái)說(shuō)將意味著質(zhì)的變化,而不僅僅是量的變化。某些受范圍限制的見(jiàn)解將成為可能。用計(jì)算流體動(dòng)力學(xué)研究宇宙學(xué)或極其復(fù)雜的環(huán)境系統(tǒng)的科學(xué)界將首先從中受益。
雖然Frontier是迄今為止第一臺(tái)利用AMD Instinct MI250X內(nèi)置網(wǎng)絡(luò)的超級(jí)計(jì)算機(jī),但它并不是該系統(tǒng)的獨(dú)有功能。這種能力可能會(huì)在更廣泛的基礎(chǔ)上在更普遍可用的HPC數(shù)據(jù)中心中可用,GPU增強(qiáng)的代碼將利用它來(lái)提高性能擴(kuò)展。就目前而言,科學(xué)中某些領(lǐng)域使用的巨大數(shù)據(jù)集將是這項(xiàng)技術(shù)的主要受益者。但數(shù)據(jù)分析的所有領(lǐng)域都可以受益于數(shù)量,以提供更有效的見(jiàn)解。任何需要在全球范圍內(nèi)分析其客戶商業(yè)行為的公司都將有大量的信息需要處理。在覆蓋更長(zhǎng)時(shí)間的更大集合上工作的能力可以提供更好的可操作的分析。
功耗是另一個(gè)超級(jí)計(jì)算機(jī)領(lǐng)先的領(lǐng)域,如Frontier和歐洲最近投入使用的米露。他們選擇的硬件提供了前所未有的性能水平,總體功耗也很高,但就每瓦特的計(jì)算量而言,他們是迄今為止最節(jié)省的系統(tǒng)。對(duì)于大中型企業(yè)來(lái)說(shuō),這將是一個(gè)越來(lái)越重要的屬性,不僅僅是因?yàn)閷?duì)環(huán)境的關(guān)注,還因?yàn)檫\(yùn)營(yíng)成本的優(yōu)化。
現(xiàn)在有了全球超過(guò)700萬(wàn)個(gè)數(shù)據(jù)中心。能源公司Engie據(jù)估計(jì),它們占世界能源消耗的4%和溫室氣體排放的1%。對(duì)計(jì)算能力的渴望沒(méi)有減弱的跡象,特別是隨著物聯(lián)網(wǎng)設(shè)備的激增和AI/ML工作負(fù)載部署在越來(lái)越多的領(lǐng)域。這種計(jì)算必須以最環(huán)保的方式交付,以確保需求的增長(zhǎng)不會(huì)帶來(lái)令人望而卻步的環(huán)境影響或成本。
由于高效的處理器和加速器設(shè)計(jì),F(xiàn)rontier和米露等超級(jí)計(jì)算機(jī)的密度使它們能夠?yàn)槠湫阅芟母俚墓β?,從而為瓦特提供最多的?jì)算。然而,HPC數(shù)據(jù)中心不僅直接消耗能源為其CPU和GPU供電,還消耗能源進(jìn)行冷卻,以保持這些組件處于最佳運(yùn)行溫度。這是最新的超級(jí)計(jì)算機(jī)中使用的技術(shù)提供了大量可供效仿的另一個(gè)領(lǐng)域。
傳統(tǒng)上,數(shù)據(jù)中心需要復(fù)雜、耗電的空調(diào)來(lái)保持最佳溫度。這不僅消耗大量電力,還會(huì)向周?chē)h(huán)境散發(fā)大量熱量。使用依靠水和自然氣流的冷卻方式,而不是主動(dòng)制冷空調(diào),可以顯著降低功耗和環(huán)境影響。美國(guó)西部和西南部地區(qū)等炎熱干燥氣候下的數(shù)據(jù)中心也一直在部署“沼澤冷卻”,這種冷卻依靠蒸發(fā)來(lái)提供冷卻效果。這些系統(tǒng)不僅安裝起來(lái)比空調(diào)便宜得多(大約一半的價(jià)格),而且消耗的電力還不到40%。
密度帶來(lái)的效率也會(huì)提高。隨著AMD第四代EPYC處理器的發(fā)布,超級(jí)計(jì)算的處理器方面剛剛注入了巨大的額外動(dòng)力。這將每個(gè)插槽的內(nèi)核數(shù)量增加了50%。頂級(jí)CPU現(xiàn)在提供96個(gè)核心,使雙插槽服務(wù)器能夠提供192個(gè)核心。雖然這使散熱設(shè)計(jì)功耗比同等的64核第三代AMD EPYC處理器提高了近30%,但由于核心數(shù)增加了50%,計(jì)算功耗比將會(huì)下降,從而使這一HPC平臺(tái)更加環(huán)保。
大中型企業(yè)正在經(jīng)歷一個(gè)協(xié)調(diào)一致的數(shù)字化轉(zhuǎn)型時(shí)期,這一時(shí)期沒(méi)有減弱的跡象。AI/ML和數(shù)據(jù)分析在業(yè)務(wù)實(shí)踐中的使用越來(lái)越多,對(duì)HPC計(jì)算基礎(chǔ)架構(gòu)的需求也隨之增加。超級(jí)計(jì)算革命以GPU加速、密度和功耗為重點(diǎn),展示了前進(jìn)的方向。通過(guò)借鑒世界上最快的計(jì)算機(jī),大中型企業(yè)可以確保以最環(huán)保、最經(jīng)濟(jì)的方式應(yīng)對(duì)數(shù)字化轉(zhuǎn)型。
- 上一篇
中小企業(yè)能從超級(jí)計(jì)算革命中學(xué)到什么
曾幾何時(shí),超級(jí)計(jì)算機(jī)與商業(yè)中使用的日常系統(tǒng)非常不同。它們?nèi)匀皇欠浅I(yè)的機(jī)器,但現(xiàn)在規(guī)模大于核心技術(shù)。即使是世界上最快的超級(jí)計(jì)算機(jī)和第一個(gè)Exascale系統(tǒng)Frontier,也是基于與高端游戲PC相差不遠(yuǎn)的硬件。
- 下一篇
超越安全:在企業(yè)環(huán)境中利用視頻數(shù)據(jù)
自發(fā)明以來(lái),視頻監(jiān)控?cái)z像機(jī)主要用于安全應(yīng)用。然而,視頻分析和人工智能(AI)的出現(xiàn)為視頻數(shù)據(jù)在各種其他應(yīng)用中的使用鋪平了道路,從過(guò)程控制到測(cè)量占用率,再到分析客戶流量趨勢(shì)。