在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 觀點(diǎn)丨DALL-E 2、AI研究的未來以及OpenAI的商業(yè)前景

            觀點(diǎn)丨DALL-E 2、AI研究的未來以及OpenAI的商業(yè)前景

            發(fā)布人:大數(shù)據(jù)文摘 時(shí)間:2022-04-20 來源:工程師 發(fā)布文章
            大數(shù)據(jù)文摘授權(quán)轉(zhuǎn)載自數(shù)據(jù)實(shí)戰(zhàn)派
            作者:Ben Dickson

            譯者:青蘋果
            因?yàn)镈ALL-E 2,OpenAI最近再次占領(lǐng)新聞?lì)^版。
            這種ML模型,可以從文本描述生成令人驚嘆的圖像。DALL-E 2是以其前身DALL-E的成功為基礎(chǔ),并得益于先進(jìn)的深度學(xué)習(xí)技術(shù),極大提高了輸出圖像的質(zhì)量和分辨率。
            在DALL-E 2發(fā)布的同時(shí),OpenAI的工程師和首席執(zhí)行官 Sam Altman 也在社交媒體上發(fā)起了一場(chǎng)活動(dòng),他在Twitter上分享了由生成機(jī)器學(xué)習(xí)模型創(chuàng)建的精彩照片。
            當(dāng)然,DALL-E 2也揭示了AI研究社區(qū)在利用深度學(xué)習(xí)的力量和解決其局限性等方面所取得的進(jìn)展。除此之外,它還提供了生成式深度學(xué)習(xí)模型供個(gè)人使用的一些展望,比如如何最實(shí)現(xiàn)新的創(chuàng)意應(yīng)用程序等。
            但與此同時(shí),它的問世也提醒著我們,AI研究中仍存留著一些障礙和亟待解決的爭議。

            DALL-E 2的驚人之處


            DALL-E 2已經(jīng)發(fā)布了詳細(xì)的論文和交互式博客文章,詳盡展示了ML模型的工作原理。另外,還附加了概述該技術(shù)功能和局限性的視頻講解。
            根據(jù)這些內(nèi)容我們都能知道,DALL-E 2不僅是一種“生成模型”,它可以創(chuàng)建復(fù)雜的輸出,而不是對(duì)輸入數(shù)據(jù)執(zhí)行預(yù)測(cè)或分類任務(wù)。簡單來說,只要你為DALL-E 2提供了一段文本描述,那么它便會(huì)直接生成符合該描述的圖像。
            毋庸置疑,生成模型作為熱門的研究領(lǐng)域,隨著2014年生成式對(duì)抗網(wǎng)絡(luò)(GAN, Generative Adversarial Networks)而備受關(guān)注。近年來,該領(lǐng)域取得了巨大的進(jìn)步,而且目前生成模型已廣泛流行于各種各樣的任務(wù),包括人臉生成、換臉技術(shù)、聲音合成等。
            然而,DALL-E 2與其他生成模型的不同之處在于,它可以在創(chuàng)建的圖像中保持語義的一致性。
            例如,以下圖片(源自DALL-E 2博客文章)是由描述“宇航員騎馬”生成的。其中一份描述以“鉛筆畫”結(jié)尾,另一份以“寫實(shí)風(fēng)格”收官。
            圖片
            該模型在繪制坐在馬背上的宇航員時(shí),將其手放在前面,保持了一致性。當(dāng)然,這種一致性也在OpenAI分享的大多數(shù)例子中有所體現(xiàn)。
            以下示例(也來自O(shè)penAI的網(wǎng)站)展示了DALL-E 2的另一個(gè)特性,即生成輸入圖像的變體。這里,你不是向DALL-E 2提供帶有文本描述,而是提供圖像,它會(huì)嘗試生成相同圖像的其他形式。而且,DALL-E可以做到保持圖片中各個(gè)元素之間的關(guān)系,包括女孩,筆記本電腦,耳機(jī),貓,背景中的城市燈光以及掛有月亮和云彩的夜空。
            圖片
            其他例子也有力地表明,DALL-E 2似乎能夠理解深度和維度的概念,這對(duì)于處理2D圖像的算法而言,無疑是個(gè)巨大的挑戰(zhàn)。
            即使OpenAI網(wǎng)站的例子是精心挑選的,它們也令人印象深刻。Twitter上分享的例子顯示,DALL-E 2似乎已經(jīng)找到了一種方法來表示和再現(xiàn)圖像中出現(xiàn)的元素之間的關(guān)系
            圖片

            DALL-E 2背后的學(xué)問


            DALL-E 2利用了對(duì)比學(xué)習(xí)圖像預(yù)訓(xùn)練(CLIP, Contrastive Learning-Image Pre-training)和擴(kuò)散(diffusion)模型,這是過去幾年創(chuàng)建的兩種先進(jìn)的深度學(xué)習(xí)技術(shù)。但究其核心,它與所有其他深度神經(jīng)網(wǎng)絡(luò)具有相同的概念:表示學(xué)習(xí)。
            考慮一個(gè)圖像分類模型。神經(jīng)網(wǎng)絡(luò)將像素顏色轉(zhuǎn)換成一組表示其特征的數(shù)字。此向量有時(shí)也被稱為輸入的“嵌入”。然后將這些特征映射到輸出層,該層包含模型應(yīng)檢測(cè)的每類圖像的概率分?jǐn)?shù)。在訓(xùn)練期間,神經(jīng)網(wǎng)絡(luò)會(huì)試圖學(xué)習(xí)區(qū)分類的最佳特征表示。
            理想情況下,ML模型應(yīng)該能夠?qū)W習(xí)在不同光照條件、角度和背景環(huán)境下保持一致的潛在特征。
            但正如我們經(jīng)??吹降哪菢?,深度學(xué)習(xí)模型經(jīng)常學(xué)習(xí)錯(cuò)誤的表征。例如,神經(jīng)網(wǎng)絡(luò)可能認(rèn)為綠色像素是“綿羊”類的特征,因?yàn)樗谟?xùn)練中看到的所有綿養(yǎng)的圖像都包含大量的青草。另一個(gè)以夜間拍攝的蝙蝠照片為訓(xùn)練數(shù)據(jù)的模型,可能會(huì)認(rèn)為黑暗才是所有蝙蝠照片的重要特征,并對(duì)白天拍攝的蝙蝠照片產(chǎn)生錯(cuò)誤分類。其他模型可能會(huì)對(duì)位于圖像中心并放置在某種類型背景前面的對(duì)象變得敏感。
            學(xué)習(xí)錯(cuò)誤的表征是神經(jīng)網(wǎng)絡(luò)脆弱、對(duì)環(huán)境變化敏感,并且在訓(xùn)練數(shù)據(jù)之外泛化能力差的部分原因。這也是為什么針對(duì)一個(gè)應(yīng)用程序訓(xùn)練的神經(jīng)網(wǎng)絡(luò)需要針對(duì)其他應(yīng)用程序進(jìn)行微調(diào)的原因——神經(jīng)網(wǎng)絡(luò)的最后層通常具有高度特定于某些任務(wù)的特征,而導(dǎo)致無法推廣到其他應(yīng)用程序。
            理論上,你可以創(chuàng)建一個(gè)規(guī)模龐大的訓(xùn)練數(shù)據(jù)集,其中包含神經(jīng)網(wǎng)絡(luò)應(yīng)該能夠處理的各種數(shù)據(jù)變體。但是創(chuàng)建和標(biāo)記這樣的數(shù)據(jù)集需要大量的人力資源,而且?guī)缀跏遣豢赡軐?shí)現(xiàn)的。
            這就是CLIP所要解決的問題。CLIP在圖像及其標(biāo)題上并行訓(xùn)練兩個(gè)神經(jīng)網(wǎng)絡(luò)。具體來說,其中一個(gè)網(wǎng)絡(luò)學(xué)習(xí)圖像中的視覺表征,另一個(gè)學(xué)習(xí)相應(yīng)地文本表征。在訓(xùn)練期間,兩個(gè)網(wǎng)絡(luò)嘗試不斷調(diào)整其參數(shù),以便于相似的圖像和描述能夠產(chǎn)生相似的嵌入。
            圖片
            CLIP的主要優(yōu)勢(shì)之一是,它不需要為特定應(yīng)用程序標(biāo)記其訓(xùn)練數(shù)據(jù)。它可以在網(wǎng)絡(luò)中海量的圖像和松散的描述中進(jìn)行訓(xùn)練。
            此外,沒有了經(jīng)典類別的嚴(yán)格邊界,CLIP可以學(xué)習(xí)更靈活的表示,并將其推廣到各種各樣的任務(wù)之中。例如,如果一幅圖片被描述為“一個(gè)男孩抱著一只小狗”,而另一幅圖片被描述為“一個(gè)男孩騎著一匹小馬”,那么模型將能夠更準(zhǔn)確地詮釋出“男孩”是什么,以及它與圖像中其他元素的關(guān)系。
            CLIP已被證明對(duì)于零樣本學(xué)習(xí)(zero-shot learning)和少樣本學(xué)習(xí)(few-shot learning)非常有用,其中一種ML模型可以當(dāng)場(chǎng)演示,執(zhí)行其從未接受過訓(xùn)練的任務(wù)。
            在DALL-E 2中使用的另一種ML技術(shù)是“擴(kuò)散”,這是一種生成模型,通過逐漸對(duì)訓(xùn)練示例加噪和去噪來學(xué)習(xí)創(chuàng)建圖像。擴(kuò)散模型類似于自動(dòng)編碼器,可以將輸入數(shù)據(jù)轉(zhuǎn)換為嵌入表示,然后從嵌入信息中再現(xiàn)原始數(shù)據(jù)。
            DALL-E首先在圖像和標(biāo)題上訓(xùn)練CLIP模型,然后使用CLIP模型訓(xùn)練擴(kuò)散模型。基本上,擴(kuò)散模型使用CLIP模型為文本提示及其相應(yīng)的圖像生成嵌入,隨后再嘗試生成與文本對(duì)應(yīng)的圖像。
            圖片

            爭議所在


            目前,DALL-E 2僅對(duì)已注冊(cè)候補(bǔ)名單的有限數(shù)量用戶開放。
            自GPT-2發(fā)布以來,OpenAI一直不愿向公眾發(fā)布其AI模型。可以說,GPT-3是其最前沿的語言模型,但其局限卻始終未能打破,只能通過API接口使用,無法訪問模型的實(shí)際代碼和參數(shù)。
            OpenAI不向公眾發(fā)布模型的政策并未得到AI社區(qū)的好評(píng),甚至還引發(fā)了該領(lǐng)域一些知名人士的批評(píng)。
            下圖便是特斯拉AI總監(jiān)Andrej Karpathy 的調(diào)侃:AI API的調(diào)用已經(jīng)從可以在你的電腦運(yùn)行變成了你需要在推特上讓作者幫你運(yùn)行。
            圖片
            與此同時(shí),DALL-E 2長期以來對(duì)通用人工智能(AGI, Artificial General Intelligence)首選方法的分歧也浮出水面。
            OpenAI的最新創(chuàng)新無疑已經(jīng)證明,通過正確的架構(gòu)和歸納偏見,你仍然可以從神經(jīng)網(wǎng)絡(luò)中擠出更多的知識(shí)。
            純深度學(xué)習(xí)方法的支持者抓住這個(gè)機(jī)會(huì),以對(duì)其批評(píng)者投向了輕視的目光,包括認(rèn)知科學(xué)家Gary Marcus最近發(fā)表的一篇題為 Deep Learning is Hitting a Wall的文章。Marcus支持一種將神經(jīng)網(wǎng)絡(luò)與符號(hào)系統(tǒng)結(jié)合起來的混合方法。
            圖片
            根據(jù)OpenAI團(tuán)隊(duì)分享的示例,DALL-E 2似乎展示了深度學(xué)習(xí)系統(tǒng)中長期以來一直缺失的某種常識(shí)能力。但這一常識(shí)和語義穩(wěn)定性的深度,以及DALL-E 2及其后繼版本將如何處理更復(fù)雜的概念,如組合性,仍有待觀察。
            DALL-E 2論文提到了該模型在生成文本和復(fù)雜場(chǎng)景方面的一些局限性。在回應(yīng)推文時(shí),Marcus曾指出,DALL-E 2論文實(shí)際上證明了他在論文和論文中提出的一些觀點(diǎn)。
            圖片
            一些科學(xué)家指出,盡管DALL-E 2的結(jié)果令人著迷,但AI的一些關(guān)鍵挑戰(zhàn)仍未解決。
            圣達(dá)菲研究所(the Santa Fe Institute)復(fù)雜性研究教授、《人工智能:人類思考的指南》(Artificial Intelligence: A Guide For Thinking Humans)一書的作者梅拉妮·米歇爾(Melanie Mitchell)在Twitter上列出了一些重要問題。
            其中,Mitchell提到了邦加德問題(Bongard problems),這是一組對(duì)概念理解的測(cè)試挑戰(zhàn),如同一性、鄰接性、數(shù)量性、凹凸性和封閉性/開放性等等。
            圖片
            Mitchell在推特上寫道:“由于我們擁有基本概念的核心知識(shí),以及靈活抽象和類比的能力,人類是能夠解決這些視覺難題的。”“如果創(chuàng)建出這樣一個(gè)AI系統(tǒng),我會(huì)相信該領(lǐng)域正在朝著人類智能水平的方向取得真正的進(jìn)展。在那之前,我會(huì)由衷敬佩ML和大數(shù)據(jù)的這些令人震撼的產(chǎn)品,而不會(huì)將其再誤認(rèn)為是向通用智能的邁進(jìn)?!?/span>

            DALL-E 2的商業(yè)案例


            OpenAI從非營利轉(zhuǎn)向“有限盈利”(capped profit)結(jié)構(gòu)以來,一直在努力尋找科研和產(chǎn)品開發(fā)之間的平衡點(diǎn)。該公司與微軟的戰(zhàn)略合作伙伴關(guān)系為其部分技術(shù)的變現(xiàn),包括GPT-3和Codex在內(nèi),提供了堅(jiān)實(shí)的渠道。
            在一篇博客文章中,Altman建議在夏季推出DALL-E 2產(chǎn)品。許多分析師已經(jīng)在為DALL-E 2應(yīng)用提出了建議,比如為文章創(chuàng)建圖形和對(duì)圖像進(jìn)行基本編輯。DALL-E 2將使更多的人能夠表達(dá)自己的創(chuàng)造力,而無需再借助工具的特殊技能。
            Altman表示,AI的進(jìn)步正把我們帶向“一個(gè)嶄新的世界,在這個(gè)世界里,我們做事的極限取決于創(chuàng)意點(diǎn),而非特定的技能。”
            隨著越來越多的用戶對(duì)DALL-E進(jìn)行改進(jìn)升級(jí),相信一批有趣的應(yīng)用程序也會(huì)不斷的涌現(xiàn)出來。例如,當(dāng)用戶開始使用GPT-3生成軟件源代碼時(shí),Copilot和Codex的想法便會(huì)應(yīng)運(yùn)而生。
            如果OpenAI像GPT-3那樣發(fā)布付費(fèi)API服務(wù),那么更多地人將會(huì)選擇用DALL-E 2構(gòu)建應(yīng)用程序,或者將該技術(shù)集成到現(xiàn)有的應(yīng)用程序中。但與GPT-3的情況一樣,圍繞潛在的DALL-E 2產(chǎn)品建立商業(yè)模型將會(huì)形成獨(dú)特的挑戰(zhàn)。這在很大程度上取決于訓(xùn)練和運(yùn)行DALL-E 2的成本,具體細(xì)節(jié)尚未公布。
            而且,作為GPT-3技術(shù)的獨(dú)家許可持有者,微軟將成為基于DALL-E 2構(gòu)建創(chuàng)新的主要贏家。原因在于,它可以用更高效且低成本的方式完成這項(xiàng)工作。
            與GPT-3一樣,DALL-E 2也在給人們敲響了警鐘,隨著AI社區(qū)繼續(xù)傾向于在更大的訓(xùn)練數(shù)據(jù)集上創(chuàng)建更大規(guī)模的神經(jīng)網(wǎng)絡(luò),那么不可避免地,話語權(quán)將繼續(xù)被少數(shù)的資金雄厚的公司所掌控,畢竟這些公司擁有AI研究所需的財(cái)政和技術(shù)資源。


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

            液位計(jì)相關(guān)文章:磁翻板液位計(jì)原理




            關(guān)鍵詞: AI

            相關(guān)推薦

            技術(shù)專區(qū)

            關(guān)閉