在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 一文看懂特斯拉Dojo的江湖地位及獨門秘籍

            一文看懂特斯拉Dojo的江湖地位及獨門秘籍

            發(fā)布人:傳感器技術(shù) 時間:2021-08-25 來源:工程師 發(fā)布文章

            近日特斯拉亮相的D1 芯片宣稱擁有500億個晶體管,超過了AMD擁有395.4億個晶體管的Epyc Rome,落后于NVIDIA的GA100 Ampere SoC的540億個晶體管的記錄。

            現(xiàn)在,特斯拉不僅是個汽車公司、AI公司,還是個芯片公司。在AI訓(xùn)練芯片界,用于訓(xùn)練AI模型的芯片供應(yīng)商,除了英特爾、英偉達和Graphcore,現(xiàn)在還有特斯拉。

            近日特斯拉亮相的D1 芯片宣稱擁有500億個晶體管,超過了AMD擁有395.4億個晶體管的Epyc Rome,落后于NVIDIA的GA100 Ampere SoC的540億個晶體管的記錄。

            D1 芯片總共有645mm2,每mm2上集成7750萬個晶體管的有效晶體管密度,僅次于移動芯片蘋果M1,功率密度高于Nvidia A100 GPU。

            D1使用 7nm工藝,推測是由三星或臺積電代工,考慮到三星也制造了特斯拉的HW3芯片,所以前者代工D1的可能性更大一些。

            25個D1芯片組成一個Training Tile(訓(xùn)練片,EDN沒有看到官方翻譯,根據(jù)Tile的原意”瓦片”和它的外觀暫且譯為”訓(xùn)練片”吧);然后12個訓(xùn)練片可以組成一個服務(wù)器機柜,共108 PFlops;幾個機柜再組成Dojo超級計算機。

            圖:每個服務(wù)器機柜超過 100,000 個功能單元、400,000 個定制內(nèi)核和132GB SRAM。

            Dojo的江湖地位

            特斯拉曾經(jīng)采用NVIDIA GPU構(gòu)建的超級計算機上過Top10榜單,性能僅略低于中國的太湖之光:

            從排名上看起來Dojo并不是計算能力最強的超級計算機,這是Dojo的設(shè)計目的只是針對一項非常具體的任務(wù),即:基于大量360度視頻訓(xùn)練神經(jīng)網(wǎng)絡(luò)。所有代碼都是專門為在此硬件上理想工作而編寫的。

            相比之下,其他超級計算機的構(gòu)建都考慮到了靈活性,以便能夠適應(yīng)大量不同的任務(wù)。當然,如果真的要在視頻訓(xùn)練上一決高下,即使是最強大的 Fugaku (富岳),也很可能是比Dojo慢的。

            何況巨大的Fugaku是由256 個機柜組成,Dojo僅由10個機柜組成,因此在尺寸方面Dojo也是最小的超級計算機。

            如果特斯拉在Dojo中增加54個機柜,Dojo就能超過Fugaku。

            Dojo沒有 RAM,沒有共享緩存

            智能手機和特斯拉的HW3都是有SoC之外的RAM 芯片的。即使是最快的最厲害的硬盤驅(qū)動器也做不到和RAM一樣的隨機存取,無法取代RAM。

            理論上,最新的PCIe 4技術(shù)只能達到0.5~3GB/s,比消費類計算機標準DDR4 RAM的20~25GB/s差太多,更別提高達50GB/s的下一代 DDR5 RAM。

            智能手機和消費電腦通常使用 4-32GB的RAM,專業(yè)工作站的RAM甚至可以達到512GB。

            那么,如果特斯拉的訓(xùn)練芯片沒用RAM,那用的是啥?

            它內(nèi)部是有一個更快的隨機內(nèi)存層,稱為緩存。當 SoC/CPU 調(diào)用DRAM時,響應(yīng)時間約為 60納秒;而L3緩存或片上 SRAM 的響應(yīng)時間可低至10納秒。

            英特爾目前最大的L3緩存是57MB,IBM的記錄是120MB,AMD最強大的處理器有256MB的L3緩存,而特斯拉在 2019 年宣布的 HW3 芯片有 64 MB 的 SRAM。

            特斯拉的訓(xùn)練節(jié)點帶有1.25MB的SRAM,354個節(jié)點組成的計算陣列,也就是這個SoC算下來就是424.8 MB的緩存,這超過了所有其他處理器?!@有可能都不是L3緩存,而是更快的 L2了。

            Dojo處理器之間通信采用定制協(xié)議

            通常SoC是通過引腳把信號發(fā)送到主板上再進行傳輸,但特斯拉并沒有把SoC從晶圓上割下來,而是把留在一片晶圓上的所有SoC連接起來。

            新 PCI-e Gen 4 連接的最新 SSD 的理論限制為 64 GB/s,特斯拉的每個連接器能達到900 GB/s的速度,推測是他們定制了自己的連接方式

            Dojo采用液體冷卻訓(xùn)練片 

            每個 D1 芯片的功耗僅400 W,25個芯片組成的MCM訓(xùn)練片的功耗為15千瓦。訓(xùn)練片是液體冷卻的,據(jù)說用了10公斤液體,但特斯拉沒說是水冷。

            在Tesla的訓(xùn)練片中,有SoC的一側(cè)與常規(guī)處理器一樣是暴露著的,可以直接冷卻。另一側(cè)被穩(wěn)壓器蓋住了,如上圖所示。

            那么穩(wěn)壓器直接蓋在處理器有啥好處?

            常見的處理器的電源都是裝在處理器旁邊的主板上,電流需要通過主板、插座、引腳和SoC;而Dojo訓(xùn)練片的電源可以直接傳輸?shù)絊oC,減少了散發(fā)的熱量。

            最后,看起來特斯拉現(xiàn)在已經(jīng)掌握著摩爾定律的衣缽,馬斯克表示,“We should have Dojo operational next year”。明年值得期待。

            來源:EDN電子技術(shù)設(shè)計


            *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



            關(guān)鍵詞: 特斯拉

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉