OpenAI GPT-4o和谷歌Astra誰更強?前者音頻更逼真,后者視覺更先進(jìn)
本周,谷歌和 OpenAI 都宣布,他們已經(jīng)構(gòu)建了“超級”人工智能助手。這些工具可以實時與你交談,并允許你隨時打斷它們,還能通過實時視頻分析你的周圍環(huán)境,并即時翻譯對話。
當(dāng)?shù)貢r間 5 月 13 日,OpenAI 首次展示了其最新旗艦?zāi)P?GPT-4o。
在現(xiàn)場演示中,它能閱讀睡前故事并幫助解決數(shù)學(xué)問題,所用的聲音聽起來就像電影《她》(Her)里華金·菲尼克斯(Joaquin Phoenix)的人工智能女友。
顯然,OpenAI 的 CEO 山姆·奧特曼(Sam Altman)一直惦記著電影中的這一點。
當(dāng)?shù)貢r間 5 月 14 日,谷歌宣布了一系列新的人工智能工具,包括一款名為 Gemini Live 的對話助手,它能做的事情和 GPT-4o 相似。
谷歌還透露,它正在構(gòu)建一種“無所不能”的人工智能代理,目前正在開發(fā)中,但要到 2024 年晚些時候才會發(fā)布。
很快,你將能夠自己探索這些工具,看看是否會像開發(fā)者所希望的那樣,在日常生活中使用這些工具,或者它們是不是更像那些早晚會失去吸引力的小把戲。
以下是你應(yīng)該了解的關(guān)于如何訪問這些新工具、使用它們的目的以及相關(guān)費用的信息。
OpenAI 的 GPT-4o
它的功能:該模型可以實時與你交談,響應(yīng)延遲約 320 毫秒,OpenAI 表示這與人類的自然對話不相上下。
你可以讓該模型解釋你用手機攝像頭拍攝的任何東西,它可以幫助你完成寫代碼或翻譯文本等任務(wù)。它還可以匯總信息,生成圖像、字體和 3D 渲染。
如何訪問:OpenAI 表示,它將開始在網(wǎng)頁和 GPT 應(yīng)用程序中推出 GPT-4o 的文本和視覺功能,但日期尚未公布。該公司表示,將在未來幾周內(nèi)增加語音功能,但也尚未確定具體日期。
開發(fā)人員現(xiàn)在可以通過官方 API 使用文本和視覺功能,但語音模式最初只對“一小部分”開發(fā)人員開放。
費用:使用 GPT-4o 將是免費的,但 OpenAI 將設(shè)置使用上限,用戶可以通過訂閱來增加上限。
對于那些加入 OpenAI 訂閱計劃(每月 20 美元起)的人,GPT-4o 的消息容量將增加五倍。
谷歌的 Gemini Live
什么是 Gemini Live?這是谷歌直接與 GPT-4o 競爭的產(chǎn)品,你可以與之實時對話。谷歌表示,在 2024 年晚些時候,你還可以使用該工具通過視頻進(jìn)行交流。
該公司承諾,它將成為一個有用的對話助手,用于準(zhǔn)備面試或練習(xí)演講。
如何訪問:Gemini Live 將在未來幾個月加入谷歌的高級人工智能計劃 Gemini Advanced。
費用:Gemini Advanced 提供兩個月的免費試用期,此后每月費用為 20 美元。
那么 Astra 項目是什么?Astra 是一個構(gòu)建無所不能的人工智能代理的項目。谷歌在 I/O 大會上演示了該項目,但要到 2024 年晚些時候才會發(fā)布。
谷歌 DeepMind 研究副總裁奧里奧爾·維尼亞爾斯(Oriol Vinyals)告訴《麻省理工科技評論》,人們將能夠通過智能手機和臺式電腦使用 Astra,但該公司也在探索其他選擇,例如將其嵌入智能眼鏡或其他設(shè)備。
(來源:STEPHANIE ARNETT/MITTR | GOOGLE, OPENAI)?
哪個更好?
就目前來看,我們還無法體驗這些模型的完整版本,所以很難判斷哪個更好。谷歌通過一段精心制作的視頻展示了 Astra 項目,而 OpenAI 選擇通過看似更真實的現(xiàn)場演示展示了 GPT-4o。
但在這兩種情況下,模型都被要求做開發(fā)者可能已經(jīng)練習(xí)了很多次的事情。真正的考驗將在它們首次面向數(shù)百萬有獨特需求的用戶時到來。
也就是說,如果你將 OpenAI 發(fā)布的視頻與谷歌的視頻進(jìn)行比較,這兩個領(lǐng)先的工具看起來非常相似,至少在易用性方面是如此。
整體上看,GPT-4o 似乎在音頻方面略微領(lǐng)先,展示了逼真的聲音、對話,甚至是唱歌。而 Astra 則展示了更先進(jìn)的視覺能力,比如能夠“記住”你把眼鏡忘在哪里了。
OpenAI 可能會更快地推出新功能,這意味著它的產(chǎn)品一開始會比谷歌的產(chǎn)品得到更多的使用,而谷歌要到 2024 年晚些時候才能完全推出其產(chǎn)品。
現(xiàn)在判斷哪個模型產(chǎn)生“幻覺”或虛假信息的頻率較低,哪個模型能產(chǎn)生更有用的回應(yīng)還為時過早。
它們安全嗎?
OpenAI 和谷歌都表示,它們的模型經(jīng)過了很好的測試。OpenAI 表示,GPT-4o 由 70 多位錯誤信息和社會心理學(xué)等領(lǐng)域的專家進(jìn)行了評估。
谷歌表示,Gemini“擁有迄今為止谷歌人工智能模型中最全面的安全評估,包括偏見和毒性?!?br />
但這些公司正在構(gòu)建一個未來,讓人工智能模型搜索、審查和評估真實世界的信息,為我們提供問題的答案。與相對簡單的聊天機器人相比,更明智的做法是對它們告訴你的信息保持懷疑。
運營/排版:何晨龍
*博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。