ChatGPT 慘遭嫌棄，Llama 2 開(kāi)源春風(fēng)得意、OpenAI 表示不服！

發(fā)布人：AI科技大本營(yíng) 時(shí)間：2023-08-03 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

既開(kāi)源又免費(fèi)的 Llama 2 一經(jīng)發(fā)布頗有席卷之勢(shì)，成了最火爆的開(kāi)源 ChatGPT 替代，國(guó)內(nèi)外不少開(kāi)發(fā)者及企業(yè)都跟風(fēng)進(jìn)行模型的研究和商業(yè)開(kāi)發(fā)，比如這幾天 OpenAI 傳奇科學(xué)家 Andrej Karpathy 就用純 C 語(yǔ)言打造了一個(gè)輕量版的 Llama 2 模型。而反觀被稱為大模型天花板的 GPT-4 則很不如意，深陷智商下降漩渦。

ChatGPT 什么時(shí)候不聰明了？

自今年三月 GPT-4 發(fā)布后，已經(jīng)有不少的開(kāi)發(fā)者和用戶在 OpenAI 論壇提到使用 ChatGPT 時(shí)會(huì)出現(xiàn)不連貫性、非自然語(yǔ)言、以及推理等問(wèn)題。其核心癥結(jié)眾說(shuō)紛紜，有學(xué)者懷疑是 OpenAI 的系統(tǒng)修改和升級(jí)導(dǎo)致，通過(guò)削弱運(yùn)算性能從而實(shí)現(xiàn)降本增效。然而由于 ChatGPT 閉源的屬性，我們很難確定其背后的真正原因。

OpenAI社區(qū)討論GPT-4性能的帖子尤其熱鬧

圍繞 GPT 智商下降的討論在 “How is ChatGPT's Behavior Changing Over Time?” 論文的發(fā)布之下被推向了頂峰，來(lái)自斯坦福大學(xué)和加州大學(xué)伯克利分校的學(xué)者 Lingjiao Chen、Matei Zaharia 和 James Zou 對(duì) 3 月和 6 月不同版本的 GPT-3.5 和 GPT-4 進(jìn)行了任務(wù)測(cè)試，結(jié)果發(fā)現(xiàn)不同版本的結(jié)果出現(xiàn)顯著的表現(xiàn)差異（漂移 drifting）。

首先是程序員們最為關(guān)心的代碼生成能力。即使在明確聲明不要注釋的前提下，新版 GPT-3.5 和 GPT-4 仍然添加了更多的非代碼文本和注釋，使回答變得繁雜冗長(zhǎng)。同時(shí)，代碼質(zhì)量下降使得直接可執(zhí)行代碼生成的比例更低（GPT-4 從 3 月的 52%下降到 6 月的 10%）。這對(duì)于程序員們而言，可能在用 LeetCode 刷題時(shí)，自己答對(duì)的概率比 ChatGPT 還能高不少。

而在解決數(shù)學(xué)問(wèn)題方面，GPT-4 識(shí)別質(zhì)數(shù)的能力從 3 月份幾乎全對(duì)下降到 2.4%，而 GPT-3.5 的成功率暴漲至 86.8%。作者懷疑 GPT-3.5 相比較 GPT-4 更好地遵循了鏈?zhǔn)剿季S指示（Chain-Of-Thought），而新版 GPT-4 可能會(huì)在推理過(guò)程思維斷裂而出錯(cuò)。

在回答敏感問(wèn)題方面，新版 GPT-3.5 較 3 月版更大膽，回答率從 4%增加到 8%。而新版 GPT-4 則更保守，從 21%下降到 5%。同時(shí)，GPT-4 的生成字符長(zhǎng)度從 600 多個(gè)下降到大約 140 個(gè)，在拒絕回答時(shí)更簡(jiǎn)潔，提供的解釋也更短。GPT-3.5 也發(fā)生了類似的現(xiàn)象。這表明新版 ChatGPT 的答案可能會(huì)更安全，但是也更慫、更不愿意解釋。

最后的任務(wù)是視覺(jué)推理。新版 GPT-4 和 GPT-3.5 的整體性能較三個(gè)月前有小幅提升，但依舊不高：GPT-4 的正確率為 27.4%，GPT-3.5 為 12.2%。值得注意的是，盡管整體性能更好，但 GPT-4 在之前沒(méi)有犯的錯(cuò)誤反而在新版里出現(xiàn)了，凸顯了對(duì)于關(guān)鍵應(yīng)用漂移監(jiān)測(cè)的必要性。

在論文中，作者并沒(méi)有明確提及新版 ChatGPT 比較舊版性能有降級(jí)，僅僅是將觀察到的漂移現(xiàn)象描述出來(lái)，并強(qiáng)調(diào)了持續(xù)評(píng)估 LLM 在生產(chǎn)應(yīng)用程序中的行為的必要性，并建議用戶和公司實(shí)施與上述四個(gè)任務(wù)類似的監(jiān)控分析以保證其運(yùn)行順暢。Zou：“我們不完全了解是什么導(dǎo)致了 ChatGPT 響應(yīng)的這些變化，因?yàn)檫@些模型是不透明的。調(diào)整模型以提高其在某些領(lǐng)域的性能可能會(huì)產(chǎn)生意想不到的副作用，使其在其他任務(wù)上變得更糟?！?/span>李飛飛的學(xué)生、英偉達(dá)資深 AI 科學(xué)家 Jim Fan 也表達(dá)了他對(duì)于這篇論文和 ChatGPT“反向”升級(jí)的觀點(diǎn)。他認(rèn)為，OpenAI 從 3 月到 6 月花了大部分精力做減負(fù)，導(dǎo)致了一些功能的損失。但同時(shí)，安全對(duì)齊（Safety Alignment）使編程變得冗余而讓開(kāi)發(fā)者徒增煩惱，削減成本可能會(huì)影響模型性能。OpenAI 回應(yīng)：GPT 沒(méi)有智商下降！
面對(duì)如此多的討論，OpenAI 否定了 ChatGPT 性能倒退的說(shuō)法。OpenAI 產(chǎn)品副總裁 Peter Welinder 在一條推文中說(shuō)：“我們并沒(méi)有讓 GPT-4 變得愚蠢。恰恰相反：我們使每個(gè)新版本都比前一個(gè)版本更智能?！彼岢隽艘粋€(gè)猜想，“你用得越多，越能注意到以前沒(méi)有看到的問(wèn)題，”并鼓勵(lì)大家把覺(jué)得 GPT 退化的截圖發(fā)給他用以分析。

從 OpenAI 發(fā)布的信息來(lái)看，新版本只是每三月一次例行的更新，以保證開(kāi)發(fā)者一直能使用最好的模型。但同時(shí) OpenAI 也發(fā)現(xiàn)，每三月一次的更新過(guò)于頻繁，即使有三個(gè)月的延期，開(kāi)發(fā)者仍然來(lái)不及升級(jí)他們的應(yīng)用。因此，OpenAI 將最新的 OpenAI API 中對(duì) gpt-3.5-turbo-0301 和 gpt-4-0314 模型的支持延長(zhǎng)到一年后的 2024 年 6 月 13 日，并表示部分情況會(huì)遇到模型回歸的問(wèn)題，可以通過(guò)發(fā)送更詳細(xì)的 prompt 來(lái)解決。

與此同時(shí)，OpenAI 也在集中改進(jìn)被社區(qū)反饋的問(wèn)題。例如，OpenAI 技術(shù)發(fā)言人 Logan Kilpatrick 剛剛宣布新版 ChatGPT 被提問(wèn)時(shí)將不再一直以“作為一個(gè)由 OpenAI 訓(xùn)練的大語(yǔ)言模型，得到下面的結(jié)論...”為開(kāi)頭，這對(duì)于開(kāi)發(fā)者們而言，能夠更直接地獲得反饋，同時(shí)對(duì)于 ChatGPT 來(lái)說(shuō)，也從一定程度上減少了系統(tǒng)負(fù)擔(dān)。

開(kāi)源才是答案？
有趣的是，Chen 等人對(duì) ChatGPT 測(cè)試的論文與 Llama 2 幾乎同時(shí)發(fā)表，無(wú)論用途和用戶，向所有人開(kāi)放免費(fèi)下載使用。“OSS LLM 不會(huì)這么保密。我們可以作為一個(gè)社區(qū)嚴(yán)格版本化和跟蹤回歸、診斷和修復(fù)所有這些問(wèn)題，”Fan 在推文中提到。自 ChatGPT 橫空出世之后，人人都在呼喚、渴求它的開(kāi)源，然而終究是石沉大海。哪怕是當(dāng) OpenAI 創(chuàng)始人 Sam Altman 被直接問(wèn)到關(guān)于開(kāi)源的問(wèn)題時(shí)，他的回答依然很巧妙地規(guī)避了 GPT 是否會(huì)開(kāi)源，只是說(shuō)“我們未來(lái)會(huì)有更多開(kāi)源大模型，但沒(méi)有具體模型和時(shí)間表”。這也是為什么 Llama 2 火速收獲全球開(kāi)發(fā)者及企業(yè)喜愛(ài)的關(guān)鍵所在。而對(duì)于搭建像 ChatGPT 一樣封閉式的大語(yǔ)言模型，對(duì)于安全的不確定性、更持續(xù)透明的信息同步和維護(hù)依然是開(kāi)發(fā)者最為迫切的需求。參考鏈接：https://twitter.com/DrJimFan/status/1681716564335394817https://arxiv.org/abs/2307.09009https://www.theregister.com/2023/07/20/gpt4_chatgpt_performance/?td=rt-3ahttps://community.openai.com/t/experiencing-decreased-performance-with-chatgpt-4/234269https://twitter.com/OfficialLoganK https://twitter.com/OpenAI

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

ChatGPT 慘遭嫌棄，Llama 2 開(kāi)源春風(fēng)得意、OpenAI 表示不服！

相關(guān)推薦

技術(shù)專區(qū)

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

ChatGPT 慘遭嫌棄，Llama 2 開(kāi)源春風(fēng)得意、OpenAI 表示不服！

相關(guān)推薦

技術(shù)專區(qū)

ChatGPT 慘遭嫌棄，Llama 2 開(kāi)源春風(fēng)得意、OpenAI 表示不服！