在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

<menu id="6qfwx"><li id="6qfwx"></li></menu>
    1. <menu id="6qfwx"><dl id="6qfwx"></dl></menu>

      <label id="6qfwx"><ol id="6qfwx"></ol></label><menu id="6qfwx"></menu><object id="6qfwx"><strike id="6qfwx"><noscript id="6qfwx"></noscript></strike></object>
        1. <center id="6qfwx"><dl id="6qfwx"></dl></center>

            博客專欄

            EEPW首頁 > 博客 > OpenAI采集了超一百萬小時的YouTube視頻來訓練GPT-4

            OpenAI采集了超一百萬小時的YouTube視頻來訓練GPT-4

            發(fā)布人:12345zhi 時間:2024-05-28 來源:工程師 發(fā)布文章

            近日,《華爾街日報》報道稱(https://www.wsj.com/tech/ai/ai-training-data-synthetic-openai-anthropic-9230f8d8),人工智能公司在收集高質量培訓數(shù)據方面遇到了困難?!都~約時報》詳細介紹了一些公司處理這一問題的方式。不出所料,它涉及到一些落入人工智能版權法模糊灰色地帶的事情。

            故事從OpenAI開始,據報道,OpenAI迫切需要訓練數(shù)據,開發(fā)了Whisper音頻轉錄模型來克服困難,轉錄了超過一百萬小時的YouTube視頻來訓練其最先進的大型語言模型GPT-4。據《紐約時報》報道,該公司知道這在法律上有問題,但認為這是合理使用的?!短┪钍繄蟆穼懙溃琌penAI總裁Greg Brockman親自參與了收集使用的視頻。

            OpenAI發(fā)言人Lindsay Held在一封電子郵件中告訴The Verge,該公司為每個模型策劃了“獨特”的數(shù)據集,以“幫助他們理解世界”,并保持其全球研究競爭力。Held補充道,該公司使用“許多來源,包括公開數(shù)據和非公開數(shù)據的合作伙伴關系”,并正在考慮生成自己的合成數(shù)據。

            《泰晤士報》的文章稱,OpenAI在2021年耗盡了有用的數(shù)據供應,并在耗盡其他資源后討論了轉錄YouTube視頻、播客和有聲讀物的可行性。此外,OpenAI使用了包括來自Github的計算機代碼、國際象棋走棋數(shù)據庫和來自Quizlet的作業(yè)內容。

            谷歌發(fā)言人Matt Bryant在一封電子郵件中告訴The Verge,該公司“看到了未經證實的關于OpenAI活動的報道”,并補充道,“我們的robots.txt文件和服務條款都禁止未經授權的抓取或下載YouTube內容”,這與該公司的使用條款相呼應。YouTube首席執(zhí)行官Neal Mohan對OpenAI使用YouTube訓練其Sora視頻生成模型的可能性表示了類似的看法。Bryant說,“當我們有明確的法律或技術依據時”,谷歌會采取“技術和法律措施”來防止這種未經授權的使用。

            *博客內容為網友個人發(fā)布,僅代表博主個人觀點,如有侵權請聯(lián)系工作人員刪除。



            關鍵詞: 人工智能 OpenAI

            相關推薦

            技術專區(qū)

            關閉