觀點(diǎn)丨DALL-E 2、AI研究的未來以及OpenAI的商業(yè)前景

發(fā)布人：大數(shù)據(jù)文摘時(shí)間：2022-04-20 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫查詢

大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實(shí)戰(zhàn)派
作者：Ben Dickson

譯者：青蘋果
因?yàn)镈ALL-E 2，OpenAI最近再次占領(lǐng)新聞?lì)^版。
這種ML模型，可以從文本描述生成令人驚嘆的圖像。DALL-E 2是以其前身DALL-E的成功為基礎(chǔ)，并得益于先進(jìn)的深度學(xué)習(xí)技術(shù)，極大提高了輸出圖像的質(zhì)量和分辨率。
在DALL-E 2發(fā)布的同時(shí)，OpenAI的工程師和首席執(zhí)行官 Sam Altman 也在社交媒體上發(fā)起了一場(chǎng)活動(dòng)，他在Twitter上分享了由生成機(jī)器學(xué)習(xí)模型創(chuàng)建的精彩照片。
當(dāng)然，DALL-E 2也揭示了AI研究社區(qū)在利用深度學(xué)習(xí)的力量和解決其局限性等方面所取得的進(jìn)展。除此之外，它還提供了生成式深度學(xué)習(xí)模型供個(gè)人使用的一些展望，比如如何最實(shí)現(xiàn)新的創(chuàng)意應(yīng)用程序等。
但與此同時(shí)，它的問世也提醒著我們，AI研究中仍存留著一些障礙和亟待解決的爭議。

DALL-E 2的驚人之處

DALL-E 2已經(jīng)發(fā)布了詳細(xì)的論文和交互式博客文章，詳盡展示了ML模型的工作原理。另外，還附加了概述該技術(shù)功能和局限性的視頻講解。
根據(jù)這些內(nèi)容我們都能知道，DALL-E 2不僅是一種“生成模型”，它可以創(chuàng)建復(fù)雜的輸出，而不是對(duì)輸入數(shù)據(jù)執(zhí)行預(yù)測(cè)或分類任務(wù)。簡單來說，只要你為DALL-E 2提供了一段文本描述，那么它便會(huì)直接生成符合該描述的圖像。
毋庸置疑，生成模型作為熱門的研究領(lǐng)域，隨著2014年生成式對(duì)抗網(wǎng)絡(luò)（GAN, Generative Adversarial Networks）而備受關(guān)注。近年來，該領(lǐng)域取得了巨大的進(jìn)步，而且目前生成模型已廣泛流行于各種各樣的任務(wù)，包括人臉生成、換臉技術(shù)、聲音合成等。
然而，DALL-E 2與其他生成模型的不同之處在于，它可以在創(chuàng)建的圖像中保持語義的一致性。
例如，以下圖片（源自DALL-E 2博客文章）是由描述“宇航員騎馬”生成的。其中一份描述以“鉛筆畫”結(jié)尾，另一份以“寫實(shí)風(fēng)格”收官。

該模型在繪制坐在馬背上的宇航員時(shí)，將其手放在前面，保持了一致性。當(dāng)然，這種一致性也在OpenAI分享的大多數(shù)例子中有所體現(xiàn)。
以下示例（也來自O(shè)penAI的網(wǎng)站）展示了DALL-E 2的另一個(gè)特性，即生成輸入圖像的變體。這里，你不是向DALL-E 2提供帶有文本描述，而是提供圖像，它會(huì)嘗試生成相同圖像的其他形式。而且，DALL-E可以做到保持圖片中各個(gè)元素之間的關(guān)系，包括女孩，筆記本電腦，耳機(jī)，貓，背景中的城市燈光以及掛有月亮和云彩的夜空。

其他例子也有力地表明，DALL-E 2似乎能夠理解深度和維度的概念，這對(duì)于處理2D圖像的算法而言，無疑是個(gè)巨大的挑戰(zhàn)。
即使OpenAI網(wǎng)站的例子是精心挑選的，它們也令人印象深刻。Twitter上分享的例子顯示，DALL-E 2似乎已經(jīng)找到了一種方法來表示和再現(xiàn)圖像中出現(xiàn)的元素之間的關(guān)系

DALL-E 2背后的學(xué)問

DALL-E 2利用了對(duì)比學(xué)習(xí)圖像預(yù)訓(xùn)練（CLIP, Contrastive Learning-Image Pre-training）和擴(kuò)散（diffusion）模型，這是過去幾年創(chuàng)建的兩種先進(jìn)的深度學(xué)習(xí)技術(shù)。但究其核心，它與所有其他深度神經(jīng)網(wǎng)絡(luò)具有相同的概念：表示學(xué)習(xí)。
考慮一個(gè)圖像分類模型。神經(jīng)網(wǎng)絡(luò)將像素顏色轉(zhuǎn)換成一組表示其特征的數(shù)字。此向量有時(shí)也被稱為輸入的“嵌入”。然后將這些特征映射到輸出層，該層包含模型應(yīng)檢測(cè)的每類圖像的概率分?jǐn)?shù)。在訓(xùn)練期間，神經(jīng)網(wǎng)絡(luò)會(huì)試圖學(xué)習(xí)區(qū)分類的最佳特征表示。
理想情況下，ML模型應(yīng)該能夠?qū)W習(xí)在不同光照條件、角度和背景環(huán)境下保持一致的潛在特征。
但正如我們經(jīng)?？吹降哪菢?，深度學(xué)習(xí)模型經(jīng)常學(xué)習(xí)錯(cuò)誤的表征。例如，神經(jīng)網(wǎng)絡(luò)可能認(rèn)為綠色像素是“綿羊”類的特征，因?yàn)樗谟?xùn)練中看到的所有綿養(yǎng)的圖像都包含大量的青草。另一個(gè)以夜間拍攝的蝙蝠照片為訓(xùn)練數(shù)據(jù)的模型，可能會(huì)認(rèn)為黑暗才是所有蝙蝠照片的重要特征，并對(duì)白天拍攝的蝙蝠照片產(chǎn)生錯(cuò)誤分類。其他模型可能會(huì)對(duì)位于圖像中心并放置在某種類型背景前面的對(duì)象變得敏感。
學(xué)習(xí)錯(cuò)誤的表征是神經(jīng)網(wǎng)絡(luò)脆弱、對(duì)環(huán)境變化敏感，并且在訓(xùn)練數(shù)據(jù)之外泛化能力差的部分原因。這也是為什么針對(duì)一個(gè)應(yīng)用程序訓(xùn)練的神經(jīng)網(wǎng)絡(luò)需要針對(duì)其他應(yīng)用程序進(jìn)行微調(diào)的原因——神經(jīng)網(wǎng)絡(luò)的最后層通常具有高度特定于某些任務(wù)的特征，而導(dǎo)致無法推廣到其他應(yīng)用程序。
理論上，你可以創(chuàng)建一個(gè)規(guī)模龐大的訓(xùn)練數(shù)據(jù)集，其中包含神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠處理的各種數(shù)據(jù)變體。但是創(chuàng)建和標(biāo)記這樣的數(shù)據(jù)集需要大量的人力資源，而且?guī)缀跏遣豢赡軐?shí)現(xiàn)的。
這就是CLIP所要解決的問題。CLIP在圖像及其標(biāo)題上并行訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)。具體來說，其中一個(gè)網(wǎng)絡(luò)學(xué)習(xí)圖像中的視覺表征，另一個(gè)學(xué)習(xí)相應(yīng)地文本表征。在訓(xùn)練期間，兩個(gè)網(wǎng)絡(luò)嘗試不斷調(diào)整其參數(shù)，以便于相似的圖像和描述能夠產(chǎn)生相似的嵌入。

CLIP的主要優(yōu)勢(shì)之一是，它不需要為特定應(yīng)用程序標(biāo)記其訓(xùn)練數(shù)據(jù)。它可以在網(wǎng)絡(luò)中海量的圖像和松散的描述中進(jìn)行訓(xùn)練。
此外，沒有了經(jīng)典類別的嚴(yán)格邊界，CLIP可以學(xué)習(xí)更靈活的表示，并將其推廣到各種各樣的任務(wù)之中。例如，如果一幅圖片被描述為“一個(gè)男孩抱著一只小狗”，而另一幅圖片被描述為“一個(gè)男孩騎著一匹小馬”，那么模型將能夠更準(zhǔn)確地詮釋出“男孩”是什么，以及它與圖像中其他元素的關(guān)系。
CLIP已被證明對(duì)于零樣本學(xué)習(xí)（zero-shot learning）和少樣本學(xué)習(xí)（few-shot learning）非常有用，其中一種ML模型可以當(dāng)場(chǎng)演示，執(zhí)行其從未接受過訓(xùn)練的任務(wù)。
在DALL-E 2中使用的另一種ML技術(shù)是“擴(kuò)散”，這是一種生成模型，通過逐漸對(duì)訓(xùn)練示例加噪和去噪來學(xué)習(xí)創(chuàng)建圖像。擴(kuò)散模型類似于自動(dòng)編碼器，可以將輸入數(shù)據(jù)轉(zhuǎn)換為嵌入表示，然后從嵌入信息中再現(xiàn)原始數(shù)據(jù)。
DALL-E首先在圖像和標(biāo)題上訓(xùn)練CLIP模型，然后使用CLIP模型訓(xùn)練擴(kuò)散模型。基本上，擴(kuò)散模型使用CLIP模型為文本提示及其相應(yīng)的圖像生成嵌入，隨后再嘗試生成與文本對(duì)應(yīng)的圖像。

爭議所在

目前，DALL-E 2僅對(duì)已注冊(cè)候補(bǔ)名單的有限數(shù)量用戶開放。
自GPT-2發(fā)布以來，OpenAI一直不愿向公眾發(fā)布其AI模型。可以說，GPT-3是其最前沿的語言模型，但其局限卻始終未能打破，只能通過API接口使用，無法訪問模型的實(shí)際代碼和參數(shù)。
OpenAI不向公眾發(fā)布模型的政策并未得到AI社區(qū)的好評(píng)，甚至還引發(fā)了該領(lǐng)域一些知名人士的批評(píng)。
下圖便是特斯拉AI總監(jiān)Andrej Karpathy 的調(diào)侃：AI API的調(diào)用已經(jīng)從可以在你的電腦運(yùn)行變成了你需要在推特上讓作者幫你運(yùn)行。

與此同時(shí)，DALL-E 2長期以來對(duì)通用人工智能（AGI, Artificial General Intelligence）首選方法的分歧也浮出水面。
OpenAI的最新創(chuàng)新無疑已經(jīng)證明，通過正確的架構(gòu)和歸納偏見，你仍然可以從神經(jīng)網(wǎng)絡(luò)中擠出更多的知識(shí)。
純深度學(xué)習(xí)方法的支持者抓住這個(gè)機(jī)會(huì)，以對(duì)其批評(píng)者投向了輕視的目光，包括認(rèn)知科學(xué)家Gary Marcus最近發(fā)表的一篇題為 Deep Learning is Hitting a Wall的文章。Marcus支持一種將神經(jīng)網(wǎng)絡(luò)與符號(hào)系統(tǒng)結(jié)合起來的混合方法。

根據(jù)OpenAI團(tuán)隊(duì)分享的示例，DALL-E 2似乎展示了深度學(xué)習(xí)系統(tǒng)中長期以來一直缺失的某種常識(shí)能力。但這一常識(shí)和語義穩(wěn)定性的深度，以及DALL-E 2及其后繼版本將如何處理更復(fù)雜的概念，如組合性，仍有待觀察。
DALL-E 2論文提到了該模型在生成文本和復(fù)雜場(chǎng)景方面的一些局限性。在回應(yīng)推文時(shí)，Marcus曾指出，DALL-E 2論文實(shí)際上證明了他在論文和論文中提出的一些觀點(diǎn)。

一些科學(xué)家指出，盡管DALL-E 2的結(jié)果令人著迷，但AI的一些關(guān)鍵挑戰(zhàn)仍未解決。
圣達(dá)菲研究所（the Santa Fe Institute）復(fù)雜性研究教授、《人工智能：人類思考的指南》（Artificial Intelligence: A Guide For Thinking Humans）一書的作者梅拉妮·米歇爾（Melanie Mitchell）在Twitter上列出了一些重要問題。
其中，Mitchell提到了邦加德問題（Bongard problems），這是一組對(duì)概念理解的測(cè)試挑戰(zhàn)，如同一性、鄰接性、數(shù)量性、凹凸性和封閉性/開放性等等。

Mitchell在推特上寫道：“由于我們擁有基本概念的核心知識(shí)，以及靈活抽象和類比的能力，人類是能夠解決這些視覺難題的。”“如果創(chuàng)建出這樣一個(gè)AI系統(tǒng)，我會(huì)相信該領(lǐng)域正在朝著人類智能水平的方向取得真正的進(jìn)展。在那之前，我會(huì)由衷敬佩ML和大數(shù)據(jù)的這些令人震撼的產(chǎn)品，而不會(huì)將其再誤認(rèn)為是向通用智能的邁進(jìn)?！?/span>

DALL-E 2的商業(yè)案例

OpenAI從非營利轉(zhuǎn)向“有限盈利”（capped profit）結(jié)構(gòu)以來，一直在努力尋找科研和產(chǎn)品開發(fā)之間的平衡點(diǎn)。該公司與微軟的戰(zhàn)略合作伙伴關(guān)系為其部分技術(shù)的變現(xiàn)，包括GPT-3和Codex在內(nèi)，提供了堅(jiān)實(shí)的渠道。
在一篇博客文章中，Altman建議在夏季推出DALL-E 2產(chǎn)品。許多分析師已經(jīng)在為DALL-E 2應(yīng)用提出了建議，比如為文章創(chuàng)建圖形和對(duì)圖像進(jìn)行基本編輯。DALL-E 2將使更多的人能夠表達(dá)自己的創(chuàng)造力，而無需再借助工具的特殊技能。
Altman表示，AI的進(jìn)步正把我們帶向“一個(gè)嶄新的世界，在這個(gè)世界里，我們做事的極限取決于創(chuàng)意點(diǎn)，而非特定的技能。”
隨著越來越多的用戶對(duì)DALL-E進(jìn)行改進(jìn)升級(jí)，相信一批有趣的應(yīng)用程序也會(huì)不斷的涌現(xiàn)出來。例如，當(dāng)用戶開始使用GPT-3生成軟件源代碼時(shí)，Copilot和Codex的想法便會(huì)應(yīng)運(yùn)而生。
如果OpenAI像GPT-3那樣發(fā)布付費(fèi)API服務(wù)，那么更多地人將會(huì)選擇用DALL-E 2構(gòu)建應(yīng)用程序，或者將該技術(shù)集成到現(xiàn)有的應(yīng)用程序中。但與GPT-3的情況一樣，圍繞潛在的DALL-E 2產(chǎn)品建立商業(yè)模型將會(huì)形成獨(dú)特的挑戰(zhàn)。這在很大程度上取決于訓(xùn)練和運(yùn)行DALL-E 2的成本，具體細(xì)節(jié)尚未公布。
而且，作為GPT-3技術(shù)的獨(dú)家許可持有者，微軟將成為基于DALL-E 2構(gòu)建創(chuàng)新的主要贏家。原因在于，它可以用更高效且低成本的方式完成這項(xiàng)工作。
與GPT-3一樣，DALL-E 2也在給人們敲響了警鐘，隨著AI社區(qū)繼續(xù)傾向于在更大的訓(xùn)練數(shù)據(jù)集上創(chuàng)建更大規(guī)模的神經(jīng)網(wǎng)絡(luò)，那么不可避免地，話語權(quán)將繼續(xù)被少數(shù)的資金雄厚的公司所掌控，畢竟這些公司擁有AI研究所需的財(cái)政和技術(shù)資源。

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。