Visual ChatGPT：Microsoft ChatGPT 和 VFM 相結(jié)合

發(fā)布人：ygtu 時間：2023-08-06 來源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢

推薦：使用NSDT場景編輯器助你快速搭建可二次編輯的3D應(yīng)用場景

什么是Visual ChatGPT？

Visual ChatGPT 是一個包含 Visual Foundation 模型（VFM）的系統(tǒng)，可幫助 ChatGPT 更好地理解、生成和編輯視覺信息。VFM 能夠指定輸入輸出格式，將視覺信息轉(zhuǎn)換為語言格式，并處理 VFM 歷史記錄、優(yōu)先級和沖突。

因此，Visual ChatGPT 是一種 AI 模型，它充當(dāng)了 ChatGPT 限制與允許用戶通過聊天進(jìn)行交流并生成視覺效果之間的橋梁。

ChatGPT 的局限性

在過去的幾周和幾個月里，ChatGPT 一直是大多數(shù)人的對話。但是，由于其語言訓(xùn)練功能，它不允許處理和生成圖像。

而你有視覺基礎(chǔ)模型，如視覺變壓器和穩(wěn)定擴(kuò)散，它們具有驚人的視覺功能。這就是語言和圖像模型的組合創(chuàng)造了Visual ChatGPT的地方。

什么是可視化基礎(chǔ)模型？

視覺基礎(chǔ)模型用于對計算機(jī)視覺中使用的基本算法進(jìn)行分組。他們采用標(biāo)準(zhǔn)的計算機(jī)視覺技能并將其轉(zhuǎn)移到AI應(yīng)用程序上，以處理更復(fù)雜的任務(wù)。

Visual ChatGPT 中的提示管理器由 22 個 VFM 組成，其中包括文本到圖像、控制網(wǎng)、邊緣到圖像等。這有助于 ChatGPT 將圖像的所有視覺信號轉(zhuǎn)換為語言，以便 ChatGPT 更好地理解。那么Visual ChatGPT是如何工作的呢？

Visual ChatGPT 如何工作？

Visual ChatGPT 由不同的組件組成，以幫助大型語言模型 ChatGPT 理解視覺對象。

Visual ChatGPT 的架構(gòu)組件

用戶查詢：這是用戶提交查詢的位置
提示管理器：這會將用戶的視覺查詢轉(zhuǎn)換為語言格式，以便 ChatGPT 模型可以理解。
Visual Foundation Models：它結(jié)合了各種VFM，例如BLIP（Bootstrapping Language-Image Pre-training），Stable Diffusion，ControlNet，Pix2Pix等。
系統(tǒng)原理：這提供了可視化聊天GPT的基本規(guī)則和要求。
對話歷史：這是系統(tǒng)與用戶進(jìn)行交互和對話的第一個點。
推理的歷史：這使用不同VFM過去具有的先前推理來解決復(fù)雜的查詢。
中間答案：通過使用 VFM，模型將嘗試輸出幾個邏輯上低估的中間答案。

Microsoft GitHub

有關(guān)提示管理器的更多信息

你們中的一些人可能認(rèn)為這是 ChatGPT 處理視覺效果的強(qiáng)制解決方法，因為它仍然將圖像的所有視覺信號轉(zhuǎn)換為語言。上傳圖像時，提示管理器會合成包含文件名等信息的內(nèi)部聊天歷史記錄，以便 ChatGPT 可以更好地了解查詢所指的內(nèi)容。

例如，用戶輸入的圖像的名稱將充當(dāng)操作歷史記錄，然后提示管理器將協(xié)助模型通過“推理格式”來確定需要對圖像執(zhí)行的操作。在 ChatGPT 選擇正確的 VFM 操作之前，您可以將此視為模型的內(nèi)部想法。

在下圖中，您可以看到提示管理器如何啟動可視 ChatGPT 的規(guī)則：

Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

開始使用可視化聊天GPT

要開始您的 Visual ChatGPT 之旅，您需要先運(yùn)行 Visual ChatGPT 演示：

# create a new environment
conda create -n visgpt python=3.8

# activate the new environment
conda activate visgpt

#  prepare the basic environments
pip install -r requirement.txt

# download the visual foundation models
bash download.sh

# prepare your private openAI private key
export OPENAI_API_KEY={Your_Private_Openai_Key}

# create a folder to save images
mkdir ./image

# Start Visual ChatGPT !
python visual_chatgpt.py

您還可以在Microsoft的Visual ChatGPT GitHub上了解更多信息。確保查看每個視覺基礎(chǔ)模型上的 GPU 內(nèi)存使用情況。

可視化聊天GPT的用例

那么Visual ChatGPT能做什么呢？

圖像生成

您可以要求Visual ChatGPT從頭開始創(chuàng)建圖像，并提供描述。您的圖像將在幾秒鐘內(nèi)生成，具體取決于可用的計算能力。其使用文本數(shù)據(jù)的合成圖像生成基于穩(wěn)定擴(kuò)散。

更改圖像背景

同樣，使用穩(wěn)定的擴(kuò)散，Visual ChatGPT可以改變您輸入的圖像的背景。用戶可以向助手提供他們希望將背景更改為什么的任何描述，穩(wěn)定的擴(kuò)散模型將繪制圖像的背景。

更改彩色圖像和其他效果

您還可以根據(jù)為應(yīng)用程序提供描述來更改圖像的顏色并應(yīng)用效果。Visual ChatGPT將使用各種預(yù)訓(xùn)練模型和OpenCV來更改圖像顏色，突出顯示圖像邊緣等。

對圖像進(jìn)行更改

Visual ChatGPT 允許您通過編輯和修改圖像中的對象來刪除或替換圖像的各個方面，并向應(yīng)用程序提供定向文本描述。但是，需要注意的是，此功能需要更多的計算能力。

Visual ChatGPT 的局限性

眾所周知，組織總需要努力解決某種形式的缺陷來改善其服務(wù)。

計算機(jī)視覺和大型語言模型的結(jié)合

Visual ChatGPT 嚴(yán)重依賴 ChatGPT 和 VFM，因此，這些各個方面的準(zhǔn)確性和可靠性會影響 Visual ChatGPT 的性能。使用大型語言模型和計算機(jī)視覺的組合需要大量的提示工程，并且可能難以實現(xiàn)熟練的性能。

隱私和安全

Visual ChatGPT能夠輕松插入和拔出VFM，這可能是一些用戶對安全和隱私問題的擔(dān)憂。Microsoft需要更多地研究敏感數(shù)據(jù)如何不被泄露。

自我校正模塊

Visual ChatGPT的研究人員遇到的限制之一是由于VFM的失敗和提示的多樣性而導(dǎo)致的生成結(jié)果不一致。因此，他們得出結(jié)論，他們需要研究一個自我更正模塊，以確保生成的輸出符合用戶的要求，并能夠進(jìn)行必要的更正。

需要大量 GPU

為了從Visual ChatGPT中受益并利用22個VFM，您將需要大量的GPU RAM，例如A100。根據(jù)手頭的任務(wù)，確保您了解有效完成任務(wù)所需的 GPU 量。

總結(jié)

Visual ChatGPT仍有其局限性，但這是同時使用大語言模型和計算機(jī)視覺的重大突破。如果您想了解有關(guān)Visual ChatGPT的更多信息，請閱讀本文：Visual ChatGPT：使用Visual Foundation Models進(jìn)行對話，繪圖和編輯

Visual ChatGPT 與 ChatGPT4 相似嗎？如果你嘗試過這兩種方法，你有什么看法？在下面發(fā)表評論！

原文鏈接：Visual ChatGPT：Microsoft ChatGPT 和 VFM 相結(jié)合 (mvrlink.com)

*博客內(nèi)容為網(wǎng)友個人發(fā)布，僅代表博主個人觀點，如有侵權(quán)請聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

Visual ChatGPT：Microsoft ChatGPT 和 VFM 相結(jié)合

相關(guān)推薦

技術(shù)專區(qū)