在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > 如何使用LLM實(shí)現(xiàn)文本自動(dòng)生成視頻

            如何使用LLM實(shí)現(xiàn)文本自動(dòng)生成視頻

            發(fā)布人:ygtu 時(shí)間:2023-08-21 來源:工程師 發(fā)布文章
            推薦:使用NSDT場(chǎng)景編輯器助你快速搭建可二次編輯的3D應(yīng)用場(chǎng)景
            介紹

            基于擴(kuò)散的圖像生成模型代表了計(jì)算機(jī)視覺領(lǐng)域的革命性突破。這些進(jìn)步由Imagen,DallE和MidJourney等模型開創(chuàng),展示了文本條件圖像生成的卓越功能。有關(guān)這些模型內(nèi)部工作的介紹,您可以閱讀本文。

            然而,Text-2-Video模型的開發(fā)提出了更艱巨的挑戰(zhàn)。目標(biāo)是在每個(gè)生成的幀之間實(shí)現(xiàn)連貫性和一致性,并保持從視頻開始到結(jié)束的生成上下文。

            然而,基于擴(kuò)散的模型的最新進(jìn)展也為文本2視頻任務(wù)提供了廣闊的前景。現(xiàn)在,大多數(shù)文本 2-視頻模型在預(yù)先訓(xùn)練的文本 2-圖像模型上采用微調(diào)技術(shù),集成動(dòng)態(tài)圖像運(yùn)動(dòng)模塊,并利用各種文本 2-視頻數(shù)據(jù)集,如 WebVid 或 HowTo100M。

            在本文中,我們的方法涉及利用HuggingFace提供的微調(diào)模型,該模型被證明有助于生成視頻。

            實(shí)現(xiàn)先決條件

            我們使用HuggingFace提供的Diffusers庫,以及一個(gè)名為Accelerate的實(shí)用程序庫,它允許PyTorch代碼在并行線程中運(yùn)行。這加快了我們的生成過程。

            首先,我們必須安裝依賴項(xiàng)并為代碼導(dǎo)入相關(guān)模塊。

            pip install diffusers transformers accelerate torch

            然后,從每個(gè)庫中導(dǎo)入相關(guān)模塊。

            import torch
            from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
            from diffusers.utils import export_to_video
            創(chuàng)建管道

            我們將ModelScope提供的Text-2-Video模型加載到HuggingFace中,在擴(kuò)散管道中。該模型具有 1 億個(gè)參數(shù),基于 UNet7D 架構(gòu),該架構(gòu)通過迭代去噪過程從純?cè)肼暽梢曨l。它分為三部分。模型首先從簡(jiǎn)單的英語提示符中執(zhí)行文本特征提取。然后將文本特征編碼到視頻潛在空間并進(jìn)行去噪。最后,將視頻潛在空間解碼回視覺空間并生成短視頻。

            pipe = DiffusionPipeline.from_pretrained(
            "damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
            
            
            pipe.scheduler = DPMSolverMultistepScheduler.from_config(
            pipe.scheduler.config)
            
            
            pipe.enable_model_cpu_offload()

            此外,我們使用 16 位浮點(diǎn)精度來降低 GPU 利用率。此外,還啟用了 CPU 卸載,可在運(yùn)行時(shí)從 GPU 中刪除不必要的部分。

            生成視頻
            prompt = "Spiderman is surfing"
            video_frames = pipe(prompt, num_inference_steps=25).frames
            video_path = export_to_video(video_frames)

            然后,我們將提示傳遞給視頻生成管道,該管道提供一系列生成的幀。我們使用 25 個(gè)推理步驟,以便模型將執(zhí)行 25 次去噪迭代。更多的推理步驟可以提高視頻質(zhì)量,但需要更多的計(jì)算資源和時(shí)間。

            然后使用擴(kuò)散器的實(shí)用程序功能組合單獨(dú)的圖像幀,并將視頻保存在磁盤上。

            然后,我們將提示傳遞給視頻生成管道,該管道提供一系列生成的幀。然后使用擴(kuò)散器的實(shí)用程序功能組合單獨(dú)的圖像幀,并將視頻保存在磁盤上。

            結(jié)論

            足夠簡(jiǎn)單!我們得到了蜘蛛俠沖浪的視頻。雖然這是一個(gè)質(zhì)量不高的短視頻,但它仍然象征著這個(gè)過程的前景,它很快就會(huì)達(dá)到與Image-2-Text模型類似的結(jié)果。盡管如此,測(cè)試你的創(chuàng)造力和使用模型仍然足夠好。

            原文鏈接:如何使用LLM實(shí)現(xiàn)文本自動(dòng)生成視頻 (mvrlink.com)


            *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



            關(guān)鍵詞: LLM

            技術(shù)專區(qū)

            關(guān)閉