在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<s id="cmphk"><label id="cmphk"></label></s>
    <span id="cmphk"><var id="cmphk"></var></span>
    <dfn id="cmphk"><var id="cmphk"></var></dfn>
    <menu id="cmphk"><thead id="cmphk"></thead></menu>

    <address id="cmphk"></address>

      <dfn id="cmphk"></dfn>
      
      
      <span id="cmphk"></span>

      <object id="cmphk"><tt id="cmphk"></tt></object>
      1. 新聞中心

        EEPW首頁(yè) > 智能計(jì)算 > 業(yè)界動(dòng)態(tài) > 摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

        摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

        作者: 時(shí)間:2025-03-05 來(lái)源:快科技 收藏

        科研團(tuán)隊(duì)近日發(fā)布了一項(xiàng)新的研究成果《Round Attention:以輪次塊稀疏性開辟多輪對(duì)話優(yōu)化新范式》,使得端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎,kv-cache占用節(jié)省最多82%。

        本文引用地址:http://www.biyoush.com/article/202503/467631.htm

        摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

        近年來(lái),大型語(yǔ)言模型的進(jìn)步,推動(dòng)了語(yǔ)言模型服務(wù)在日常問(wèn)題解決任務(wù)中的廣泛應(yīng)用。

        然而,長(zhǎng)時(shí)間的交互暴露出兩大顯著問(wèn)題:

        首先,上下文長(zhǎng)度的快速擴(kuò)張因自注意力機(jī)制的平方級(jí)復(fù)雜度而導(dǎo)致巨大的計(jì)算開銷;

        其次,盡管鍵值(KV)緩存技術(shù)能緩解冗余計(jì)算,但顯著增加的GPU內(nèi)存需求,導(dǎo)致推理批處理規(guī)模受限,同時(shí)GPU利用率低下。

        摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

        為此,提出了Round Attention,以解決這些問(wèn)題。

        首先,提出以輪次為分析單元研究Attention規(guī)律:

        Round Attention專為多輪對(duì)話場(chǎng)景推理需求設(shè)計(jì),以輪次為自然邊界劃分KV緩存。研究發(fā)現(xiàn),輪次粒度的Attention分布存在兩個(gè)重要規(guī)律。

        其次,摩爾線程提出了Round Attention推理流水線;

        基于發(fā)現(xiàn)的兩個(gè)規(guī)律,將稀疏性從Token級(jí)提升至塊級(jí),選取最相關(guān)的塊參與attention計(jì)算,減少attention計(jì)算耗時(shí),并將不相關(guān)的塊卸載到CPU內(nèi)存,以節(jié)省占用。

        這在保持推理精度的情況下,減少了推理耗時(shí),降低了占用。

        摩爾線程認(rèn)為,輪次塊稀疏性有三大優(yōu)勢(shì):自然邊界的語(yǔ)義完整性、分水嶺層的注意力穩(wěn)定性、端到端的存儲(chǔ)與傳輸優(yōu)化。

        測(cè)試顯示,Round Attention的端到端延遲低于現(xiàn)在主流的Flash Attention推理引擎, kv-cache顯存占用則節(jié)省55-82%,并且在主觀評(píng)測(cè)和客觀評(píng)測(cè)兩個(gè)數(shù)據(jù)集上,模型推理準(zhǔn)確率基本未受影響。

        摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%

        摩爾線程新方法優(yōu)化AI交互:顯存節(jié)省最多82%



        關(guān)鍵詞: 摩爾線程 顯存 AI

        評(píng)論


        相關(guān)推薦

        技術(shù)專區(qū)

        關(guān)閉