不僅僅是我們：AI 模型也在與過度思考作斗爭

—— 在推理模型中過度思考與計(jì)算成本增加有關(guān)

作者：時間：2025-03-07 來源：IEEE

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

大型語言模型（LLM）的最新進(jìn)展極大地提高了它們通過提示答案進(jìn)行推理的能力。但事實(shí)證明，隨著他們的推理能力提高，他們越來越多地成為一個相關(guān)問題的受害者：分析癱瘓。

本文引用地址：http://www.biyoush.com/article/202503/467750.htm

來自一個大型團(tuán)隊(duì)的最新預(yù)印本論文，其中包括來自加州大學(xué)伯克利分校的作者;蘇黎世聯(lián)邦理工學(xué)院;卡內(nèi)基梅隆大學(xué);和伊利諾伊大學(xué)厄巴納香檳分校發(fā)現(xiàn)，具有推理能力的法學(xué)碩士容易過度思考。

換句話說，模型陷入了自己的頭腦中。

想得太多是什么意思？

這篇關(guān)于過度思考的論文尚未經(jīng)過同行評審，它將過度思考定義為“模型偏愛擴(kuò)展的內(nèi)部推理鏈而不是環(huán)境交互的現(xiàn)象”。

加州大學(xué)伯克利分校的研究學(xué)者、該論文的合著者亞歷杭德羅·夸德隆（Alejandro Cuadrón）將決策這一非常人性化的問題進(jìn)行了類比，而決策結(jié)果卻沒有確定性。

“當(dāng)我們真的沒有足夠的信息時會發(fā)生什么？”“如果你問自己越來越多的問題，只是自言自語......在最好的情況下，我會意識到我需要更多信息。在最壞的情況下，我會得到錯誤的結(jié)果。

為了測試最新的 AI 模型如何處理這種情況，Cuadrón 和他的同事們讓領(lǐng)先的推理 LLM（也稱為大型推理模型，簡稱 LRM），例如 OpenAI 的 o1 和 DeepSeek-R1，在流行的軟件工程基準(zhǔn)測試中解決問題。模型必須使用 OpenHands 代理平臺查找錯誤并設(shè)計(jì)解決方案。

Cuadrón 說，結(jié)果表明，模型的一般智能水平與其成功推理解決問題的能力之間存在聯(lián)系。

結(jié)果如何雖然最好的推理模型總體表現(xiàn)良好，但發(fā)現(xiàn)推理模型過度思考的頻率幾乎是非推理模型的三倍。模型越是思考過度，它解決的問題就越少。平均而言，推理模型在過度思考方面每增加一個單位的成功率就會降低 7.9%。

基于參數(shù)相對較少的 LLM 的推理模型，例如阿里巴巴的 QwQ-32B（有 320 億個參數(shù)），特別容易過度思考。QwQ、DeepSeek-R1 32B 和 Sky-T1-R 的過度思考得分最高，它們在解決任務(wù)方面并不比非推理模型更成功。

Cuadrón 說，這表明模型的總體智能水平與其成功推理解決問題的能力之間存在聯(lián)系。

“我認(rèn)為模型大小是關(guān)鍵因素之一，因?yàn)槟Ｐ痛笮?dǎo)致了'智能性'，可以這么說，”Cuadron 說?！盀榱吮苊膺^度思考，模型必須與環(huán)境交互并理解環(huán)境，并且必須了解其輸出。”

想得太多是一個代價高昂的錯誤

從人類的角度來看，AI 過度思考是一個有趣的問題，因?yàn)樗从沉宋覀兘?jīng)常掙扎的心理狀態(tài)。但 LLM 當(dāng)然是計(jì)算機(jī)系統(tǒng)，這意味著過度思考會產(chǎn)生不同的后果。

最明顯的是計(jì)算成本增加。推理 LLM 本質(zhì)上是促使自己對問題進(jìn)行推理，這反過來又會產(chǎn)生更多的令牌，并使昂貴的硬件（例如 GPU 或張量處理單元）保持占用。理由越多，成本就越高。

Cuadrón 和他的同事發(fā)現(xiàn)，以高推理工作量運(yùn)行 OpenAI 的 o1 可能成本高達(dá) 1,400 美元，而低推理配置則使成本降至 800 美元。盡管存在這一差距，但這些模型在軟件工程基準(zhǔn)測試中的表現(xiàn)幾乎相同。OpenAI o1-high 解決了 29.1% 的問題，而 o1-low 解決了 27.3% 的問題。

研究人員還發(fā)現(xiàn)，多次運(yùn)行 o1-low 并選擇最佳輸出的效果優(yōu)于 o1-high，但事實(shí)證明更具成本效益。低推理模型的較低成本意味著與 o200-high 相比，該技術(shù)節(jié)省了 1 美元。

這些結(jié)果表明，優(yōu)化推理模型的空間很大，而對問題進(jìn)行更多推理并不總是最佳解決方案。

還有更多需要考慮

有趣的是，該論文發(fā)現(xiàn)，與其他測試的推理模型不同，DeepSeek-R1 671B 相對于 R1 所基于的非推理模型 DeepSeek-V3 671B 并沒有過度思考。這使 R1 取得了健康的結(jié)果。它擊敗了 DeepSeek-V3，在所有測試的模型中達(dá)到了第三高的成功率，并在推理模型中獲得了第二高的分?jǐn)?shù)。

Cuadrón 推測，這一結(jié)果是由于 DeepSeek 如何訓(xùn)練模型。雖然大規(guī)模強(qiáng)化學(xué)習(xí)是其訓(xùn)練的關(guān)鍵，但該技術(shù)并未專門用于訓(xùn)練軟件工程任務(wù)的模型?！斑@意味著，當(dāng)模型面臨軟件工程任務(wù)時，它不會有太多的推理，而是更愿意與環(huán)境進(jìn)行更多交互，”他說。

該論文明確指出，當(dāng) LRM 僅使用成功完成任務(wù)所需的推理時，它們的效率會更高。但是，究竟如何訓(xùn)練模型在各種任務(wù)中使用恰到好處的推理呢？

這仍有待解決。該論文的合著者希望他們可以通過將評估框架和數(shù)據(jù)集開源來幫助更廣泛的研究界解決 LLM 中的過度思考問題。完整的數(shù)據(jù)集以及用于量化過度思考的方法可在 GitHub 上找到。