CVPR一次中66篇，大裝置一天訓(xùn)練完GPT-3，商湯準(zhǔn)備迎戰(zhàn)未來(lái)

發(fā)布人：機(jī)器之心時(shí)間：2021-06-25 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對(duì)面交流
  海量資料庫(kù)查詢

商湯的「既要…… 又要…… 還要……」

6 月 19 日，CVPR 2021 在線上拉開(kāi)帷幕。作為計(jì)算機(jī)視覺(jué)三大頂會(huì)之一，本屆 CVPR 大會(huì)一共接收了 7039 篇有效投稿，最終有1366 篇被接收為poster，295篇被接收為oral，接收率大概為 23.6%。

在前段時(shí)間公布的最佳論文候選名單中，我們發(fā)現(xiàn)，華人一作論文占據(jù)了半壁江山（16/32）。當(dāng)然，這一現(xiàn)象并非偶然。其實(shí)，早在九年前，華人學(xué)者就已經(jīng)憑借其創(chuàng)新精神在國(guó)際 CV 頂會(huì)上大放異彩，比如香港中文大學(xué)的湯曉鷗團(tuán)隊(duì)：2012 年 CVPR 大會(huì)僅有的兩篇深度學(xué)習(xí)文章均出自其實(shí)驗(yàn)室。2011—2013 年間，該實(shí)驗(yàn)室又在 ICCV 和 CVPR 上發(fā)表了 14 篇深度學(xué)習(xí)論文，占據(jù)全世界在這兩個(gè)會(huì)議上深度學(xué)習(xí)論文總數(shù)（29 篇）的近一半。

2014 年，湯曉鷗等人創(chuàng)辦了商湯科技，這種創(chuàng)新精神也被刻入商湯的基因并延續(xù)至今。

在今年的 CVPR 大會(huì)上，商湯共有 66 篇論文被接收，遠(yuǎn)高于業(yè)界平均水平。此外，在同期舉辦的挑戰(zhàn)賽中，商湯 - 南洋理工聯(lián)合實(shí)驗(yàn)室（S-Lab）團(tuán)隊(duì)一舉斬獲 CVPR 2021 NTIRE 視頻理解挑戰(zhàn)賽三項(xiàng)冠軍，包括視頻超分辨率、重度壓縮視頻質(zhì)量增強(qiáng)（固定量化參數(shù)，保真度）和重度壓縮視頻質(zhì)量增強(qiáng)（固定比特率，保真度）賽道。商湯研究院團(tuán)隊(duì)則摘得 CVPR 2021 ActivityNet 時(shí)序動(dòng)作檢測(cè)任務(wù)弱監(jiān)督學(xué)習(xí)賽道冠軍。

AI 領(lǐng)域發(fā)展到今天，如何保持創(chuàng)新活力、加快產(chǎn)業(yè)落地是所有企業(yè)面臨的共同問(wèn)題。在這一點(diǎn)上，商湯的態(tài)度是明確的「既要…… 又要…… 還要……」，即既要保持技術(shù)創(chuàng)新的領(lǐng)先，又要加快產(chǎn)業(yè)落地，同時(shí)還要建設(shè)面向整個(gè)生態(tài)、整個(gè)社區(qū)的 AI 基礎(chǔ)設(shè)施，推動(dòng) AI 進(jìn)入工業(yè)化發(fā)展階段。

從今年的 CVPR 和商湯最近的一些動(dòng)向中，我們可以看出這家公司為實(shí)現(xiàn)上述愿景所做的努力。在這篇文章中，我們就來(lái)聊聊這一話題。

技術(shù)創(chuàng)新不能落下

對(duì)于商湯今年在 CVPR 中取得的成績(jī)，該公司聯(lián)合創(chuàng)始人、香港中文大學(xué) - 商湯科技聯(lián)合實(shí)驗(yàn)室主任林達(dá)華評(píng)價(jià)說(shuō)，「對(duì)商湯來(lái)說(shuō)，AI 的研究和創(chuàng)新是刻在基因里的。從公司建立的第一天開(kāi)始，甚至在建立之前，我們的創(chuàng)始團(tuán)隊(duì)就一直把 AI 的基礎(chǔ)研究作為持續(xù)追求的理想。所以，盡管商湯的整個(gè)發(fā)展經(jīng)歷了很多階段，我們也把 AI 落地到了越來(lái)越多的產(chǎn)業(yè)中去，但我們始終沒(méi)有忘記，整個(gè) AI 產(chǎn)業(yè)發(fā)展的最初原動(dòng)力來(lái)自于技術(shù)的突破和創(chuàng)新。」

商湯的這種理念在歷年 AI 頂會(huì)中得到了很好的體現(xiàn)，今年的 CVPR 也不例外。從研究方向來(lái)看，該公司今年入選的論文分布在多個(gè)領(lǐng)域，包括長(zhǎng)尾目標(biāo)檢測(cè)、軌跡預(yù)測(cè)、3D 點(diǎn)云補(bǔ)全、3D 場(chǎng)景重建、激光雷達(dá) 3D 目標(biāo)檢測(cè)等，其中的 3D 點(diǎn)云補(bǔ)全、3D 場(chǎng)景重建等相關(guān)論文還被收錄為 Oral 論文。

3D 點(diǎn)云是 3D 場(chǎng)景和目標(biāo)的一種直觀表示。然而，由于遮擋等問(wèn)題的存在，掃描得到的 3D 點(diǎn)云通常是不完整的。因此，利用不完整的點(diǎn)云預(yù)測(cè)目標(biāo)的完整 3D 形狀成為一個(gè)重要問(wèn)題。但是，現(xiàn)有的點(diǎn)云補(bǔ)全方法傾向于生成全局形狀骨架，缺乏局部細(xì)節(jié)。而且，它們大多會(huì)學(xué)習(xí)一個(gè)確定性的部分到整體的映射，忽視人造物體中的結(jié)構(gòu)關(guān)系。

商湯的研究者認(rèn)為，點(diǎn)云補(bǔ)全應(yīng)從殘缺點(diǎn)云中學(xué)習(xí)關(guān)系性結(jié)構(gòu)屬性來(lái)恢復(fù)可信且高質(zhì)量的完整點(diǎn)云形狀。為了實(shí)現(xiàn)這一點(diǎn)，他們?cè)谡撐闹刑岢隽艘粋€(gè)兩階段的網(wǎng)絡(luò)：首先對(duì)殘缺點(diǎn)云做概率重建以恢復(fù)一個(gè)粗略的完整點(diǎn)云，再結(jié)合殘缺點(diǎn)云做關(guān)系性結(jié)構(gòu)增強(qiáng)達(dá)到高質(zhì)量的補(bǔ)全。實(shí)驗(yàn)顯示，該方法顯著提高了生成的完整點(diǎn)云質(zhì)量。這份研究可以結(jié)合很多單目深度感知傳感器（如激光雷達(dá)或深度相機(jī)）完成對(duì)未知形狀部分的恢復(fù)和預(yù)估。預(yù)估出的完整形狀可以有效輔助很多下游任務(wù)，如 3D 形狀分類、姿態(tài)檢測(cè)、避障和交互。

論文鏈接：https://arxiv.org/pdf/2104.10154.pdf

3D 場(chǎng)景重建是 3D 計(jì)算機(jī)視覺(jué)的一個(gè)核心任務(wù)。例如在增強(qiáng)現(xiàn)實(shí)（AR）應(yīng)用中，為了在 AR 效果和周?chē)奈锢憝h(huán)境之間形成自然、沉浸式的互動(dòng)，3D 重建需要非常精確、連貫，還要保持實(shí)時(shí)性。雖然使用 SOTA 視覺(jué)慣性 SLAM 系統(tǒng)可以精確跟蹤攝像機(jī)運(yùn)動(dòng)，但由于重建質(zhì)量低、計(jì)算要求高，基于圖像的實(shí)時(shí)密集重建仍然是一個(gè)具有挑戰(zhàn)性的問(wèn)題。

在一篇CVPR最佳論文候選論文中，商湯的研究者提出了一種新的基于神經(jīng)網(wǎng)絡(luò)的單目實(shí)時(shí)場(chǎng)景 3D 重建系統(tǒng)——NeuralRecon。不同于以往基于深度圖估計(jì)與融合的方法，NeuralRecon 直接基于圖像特征預(yù)測(cè)用 TSDF 表示的局部 3D 表面，并創(chuàng)新地提出了一個(gè)聯(lián)合 TSDF 重建與融合的框架。實(shí)驗(yàn)結(jié)果表明，該方法在準(zhǔn)確率和速度方面都優(yōu)于 SOTA 方法。

論文鏈接：https://arxiv.org/pdf/2104.00681.pdf

NeuralRecon的預(yù)訓(xùn)練模型在辦公區(qū)域場(chǎng)景實(shí)時(shí)重建的結(jié)果

在被 CVPR 接收的眾多論文中，我們發(fā)現(xiàn)，很多研究其實(shí)都是由應(yīng)用場(chǎng)景驅(qū)動(dòng)的，比如 3D 點(diǎn)云補(bǔ)全可能用于自動(dòng)駕駛、機(jī)器人，3D 場(chǎng)景重建可以用于增強(qiáng)現(xiàn)實(shí)（AR）等。這也解釋了商湯能夠長(zhǎng)期保持創(chuàng)新活力的重要原因。

林達(dá)華在采訪中表示，商湯擁有一個(gè)業(yè)務(wù)跟學(xué)術(shù)連接的環(huán)境，是產(chǎn)生新的學(xué)術(shù)問(wèn)題的肥沃土壤，「這些問(wèn)題帶給商湯很多激動(dòng)人心的研究機(jī)會(huì)，牽引著我們的技術(shù)創(chuàng)新。」

產(chǎn)業(yè)落地步伐加快

積累了那么多技術(shù)，終究是要拿出來(lái)用的。在前段時(shí)間舉辦的上海國(guó)際汽車(chē)工業(yè)展覽會(huì)上，商湯將多年積累的 AI 技術(shù)打包，一股腦地呈現(xiàn)在了多款智能汽車(chē)上。

這個(gè)打成的「包」就是 Sense Auto 智能汽車(chē)解決方案，包括 SenseAuto Pilot 智能駕駛和 SenseAuto Cabin 智能車(chē)艙。

在 SenseAuto Pilot 智能駕駛方案中，最引人關(guān)注的 SenseAuto Pilot-P 駕駛領(lǐng)航方案可實(shí)現(xiàn)高速公路場(chǎng)景下的車(chē)道跟隨、超車(chē)自動(dòng)變道、導(dǎo)航自動(dòng)變道、自動(dòng)上下匝道、匝道通行等多種 L2 + 級(jí)高級(jí)輔助駕駛功能；已裝在多個(gè)量產(chǎn)車(chē)型中的 SenseAuto Pilot-V 前視視覺(jué)感知方案可以提供 200m 前向有效探測(cè)，支持自動(dòng)緊急制動(dòng)、車(chē)道保持輔助、雙預(yù)警功能，還能有效應(yīng)對(duì)近距離行人 / 非機(jī)動(dòng)車(chē)橫穿等復(fù)雜場(chǎng)景。此外，車(chē)道分離 / 匯合點(diǎn)、路面標(biāo)識(shí)、交通燈形狀、施工區(qū)域錐形筒等長(zhǎng)尾場(chǎng)景元素的感知也在這套系統(tǒng)的能力范圍之內(nèi)。

整套系統(tǒng)背后涉及的技術(shù)包括激光雷達(dá)高精 3D 感知、點(diǎn)云噪聲識(shí)別、軌跡預(yù)測(cè)、長(zhǎng)尾目標(biāo)檢測(cè)等，這些都出現(xiàn)在了今年的 CVPR 接收論文中。商湯表示，該系統(tǒng)能夠在最大程度上發(fā)揮攝像頭、毫米波雷達(dá)、激光雷達(dá)等傳感器的感知優(yōu)勢(shì)，顯著提升 3D 目標(biāo)的檢測(cè)和跟蹤性能，提供智能的道路動(dòng)態(tài)目標(biāo)軌跡預(yù)測(cè)，支撐系統(tǒng)安全可靠地拓展至城市工況場(chǎng)景。

SenseAuto Pilot-P 駕駛領(lǐng)航方案可以精準(zhǔn)識(shí)別道路分離、合并點(diǎn)，幫助車(chē)輛在匝道內(nèi)進(jìn)行合理決策，實(shí)現(xiàn)自動(dòng)上下匝道的 L2 + 級(jí)高級(jí)輔助駕駛功能

SenseAuto Cabin 智能車(chē)艙解決方案同樣令人眼前一亮，涵蓋 SenseAuto Cabin-D 駕駛員感知系統(tǒng)、SenseAuto Cabin-O 座艙感知系統(tǒng) 、SenseAuto Cabin-K 智能進(jìn)入、SenseAuto Cabin-V 座艙域視覺(jué)控制器等模塊。這些功能可以為駕駛員提供無(wú)接觸的車(chē)艙交互，減少點(diǎn)觸操作頻率；對(duì)疲勞、分心以及接打手機(jī)等危險(xiǎn)行為進(jìn)行提醒；還能自動(dòng)感知是否有兒童被獨(dú)自遺留在車(chē)內(nèi)等。這背后離不開(kāi)成熟的目標(biāo)檢測(cè)、跟蹤、識(shí)別等視覺(jué)算法。

目前，商湯在智能車(chē)艙領(lǐng)域已經(jīng)和全球超過(guò) 30 家頭部企業(yè)展開(kāi)合作，定點(diǎn)量產(chǎn)項(xiàng)目數(shù)超過(guò) 30 個(gè)，覆蓋車(chē)輛總數(shù)超過(guò) 1300 萬(wàn)輛。

搭載了商湯 SenseAuto Cabin 智能車(chē)艙解決方案的 WEY 全新旗艦車(chē)型摩卡首次亮相上海車(chē)展。

從智能駕駛到智能車(chē)艙，可以看到商湯落地的步伐正在加快。這不僅得益于其與生俱來(lái)的創(chuàng)新能力，也離不開(kāi)豐富的算力資源和算法、數(shù)據(jù)等方面的積累。這些成果共同構(gòu)成了商湯正在建設(shè)的AI基礎(chǔ)設(shè)施——SenseCore商湯AI大裝置。林達(dá)華透露，這個(gè) AI 大裝置不僅幫助商湯縮短了創(chuàng)新驗(yàn)證的周期，還將成為未來(lái)十年重要的 AI 基礎(chǔ)設(shè)施，逐漸提供開(kāi)放服務(wù)，演變成一個(gè)面向整個(gè)生態(tài)、整個(gè)社區(qū)的具有公共性質(zhì)的設(shè)施。

AI 大裝置蓄勢(shì)待發(fā)

在上海臨港新片區(qū)，一座宛如芯片的建筑群將在今年年底投入使用。這是商湯正在建設(shè)的人工智能計(jì)算中心（Artificial Intelligence Data Center，AIDC），全部建成后 AI 計(jì)算峰值速度將達(dá)到 3740 Petaflops（1 petaflop 等于每秒 1 千萬(wàn)億次浮點(diǎn)運(yùn)算），可以在一天之內(nèi)把人類石器時(shí)代到現(xiàn)在所有時(shí)間錄成的視頻計(jì)算完成，也能在一天之內(nèi)完整訓(xùn)練 OpenAI 的千億參數(shù)模型 GPT-3。

但是，AIDC 僅僅是商湯 AI 大裝置的一部分，而遠(yuǎn)非全部。從結(jié)構(gòu)上看，整個(gè)大裝置共分為三層：

一是算力層。該層以 AIDC 為基礎(chǔ)，兼容 AI 芯片和 AI 傳感器的強(qiáng)大能力。

二是平臺(tái)層。這一層融合了商湯的數(shù)據(jù)平臺(tái)、高性能計(jì)算引擎、深度學(xué)習(xí)訓(xùn)練框架（SenseParrots）以及模型生產(chǎn)平臺(tái)等，打造了創(chuàng)新的人工智能通用算法開(kāi)發(fā)平臺(tái)，實(shí)現(xiàn)從數(shù)據(jù)存儲(chǔ)、標(biāo)注到模型訓(xùn)練、生產(chǎn)、部署、測(cè)試的全鏈路、批量化過(guò)程。

三是算法層。這一層包含各種算法工具箱，不僅有城市交通、園區(qū)等高頻應(yīng)用場(chǎng)景算法，還有火災(zāi)、垃圾檢測(cè)等長(zhǎng)尾低頻的算法。截止目前，商湯已經(jīng)推出 13000 多個(gè)技術(shù)模型，以及 17000 多個(gè)商業(yè)模型。同時(shí)他們也推出了 OpenMMLab 開(kāi)源算法體系，該體系已在 Github 上獲得 3 萬(wàn)多顆星。

建設(shè)這么一個(gè) AI 大裝置需要投入大量的精力（AIDC 總投資高達(dá) 56 億元），但在商湯看來(lái)，這是面向未來(lái)必須邁出的一步。

「在經(jīng)歷了幾年的產(chǎn)業(yè)化之后，AI 已經(jīng)到了一個(gè)全新的階段，可以說(shuō)一些簡(jiǎn)單的問(wèn)題已經(jīng)基本上被解決了。下一步就是要深入到更廣泛的行業(yè)里面，需要新一輪的突破和創(chuàng)新?！沽诌_(dá)華說(shuō)道。

GPT-3 等超大模型的出現(xiàn)讓商湯看到了實(shí)現(xiàn)下一個(gè)突破的希望：「以前我們都是針對(duì)一些具體的問(wèn)題或者高度定制化的場(chǎng)景去生產(chǎn)一些中小模型。但隨著 AI 落地推演到越來(lái)越廣的領(lǐng)域，成千上萬(wàn)的具體問(wèn)題（長(zhǎng)尾問(wèn)題）開(kāi)始涌現(xiàn)。如果每個(gè)問(wèn)題都有很多的研究人員投入進(jìn)去，那么我們就很難深化 AI 的進(jìn)一步落地。這個(gè)時(shí)候，整個(gè)行業(yè)需要通用性更強(qiáng)的模型，用一個(gè)模型支撐更多的任務(wù)。一方面，這種模型能夠讓 AI 的研發(fā)、落地效率得到一個(gè)質(zhì)的提升；另一方面，它們能夠更好地去回應(yīng)綜合場(chǎng)景的問(wèn)題，比如智慧城市、智慧醫(yī)療等。這些任務(wù)都需要通過(guò)多個(gè)任務(wù)綜合解決?！?/p>

但是，模型的通用性越強(qiáng)，需要的數(shù)據(jù)、算力往往也越多，這便是商湯建設(shè) AI 大裝置的底層邏輯。

當(dāng)然，AI 大裝置也不是一朝一夕就建成的。其實(shí)早在 2018 年 4 月，商湯就已經(jīng)開(kāi)始布局人工智能計(jì)算原型機(jī)研制項(xiàng)目，雖然當(dāng)時(shí)并不被看好。但好在，后續(xù)出現(xiàn)的一些大模型已經(jīng)顯示出了解決長(zhǎng)尾問(wèn)題的巨大潛力。

如今，這個(gè) AI 大裝置已經(jīng)開(kāi)始發(fā)揮它的作用。林達(dá)華透露說(shuō)，「我們幾乎所有的研究工作都是在這個(gè)大裝置的基礎(chǔ)上進(jìn)行的。」「它為做算法研究的同學(xué)提供了充足的算力，使他們能夠快速地進(jìn)行實(shí)驗(yàn)試錯(cuò)。」此外，大裝置中所積累的實(shí)用工具也縮短了創(chuàng)新的驗(yàn)證周期。

借助大裝置，商湯已經(jīng)在超大模型技術(shù)研究方面取得一定成績(jī)。例如在計(jì)算機(jī)視覺(jué)的卷積神經(jīng)網(wǎng)絡(luò)（CNN）領(lǐng)域，通常模型參數(shù)都在 1 億以下，但商湯的 AI 框架 SenseParrots 能支持 50 億參數(shù)超大視覺(jué)模型的訓(xùn)練。AIDC 完全投入使用后，計(jì)劃支持的超大視覺(jué)模型訓(xùn)練參數(shù)可達(dá)更高的數(shù)量級(jí)。

由于可以顯著降低 AI 落地的門(mén)檻，商湯的 AI 大裝置對(duì)于推動(dòng)整個(gè)人工智能行業(yè)的發(fā)展也有著重要的戰(zhàn)略意義。林達(dá)華表示，「從整個(gè)社會(huì)的角度來(lái)說(shuō)，AI 基礎(chǔ)設(shè)施將逐漸從一個(gè)企業(yè)內(nèi)部的平臺(tái)，發(fā)展為逐漸提供開(kāi)放服務(wù)，并最終演變成一個(gè)面向整個(gè)生態(tài)、整個(gè)社區(qū)的具有公共性質(zhì)的設(shè)施。這些設(shè)施的構(gòu)建能夠有效地支撐整個(gè)生態(tài)，最終使得整個(gè) AI 人才的基礎(chǔ)變得更加寬廣，從而進(jìn)一步推動(dòng) AI 產(chǎn)業(yè)的深化。」

*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀點(diǎn)，如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

CVPR一次中66篇，大裝置一天訓(xùn)練完GPT-3，商湯準(zhǔn)備迎戰(zhàn)未來(lái)

相關(guān)推薦

技術(shù)專區(qū)

在线看毛片网站电影-亚洲国产欧美日韩精品一区二区三区,国产欧美乱夫不卡无乱码,国产精品欧美久久久天天影视,精品一区二区三区视频在线观看,亚洲国产精品人成乱码天天看,日韩久久久一区,91精品国产91免费

博客專欄

CVPR一次中66篇，大裝置一天訓(xùn)練完GPT-3，商湯準(zhǔn)備迎戰(zhàn)未來(lái)

相關(guān)推薦

技術(shù)專區(qū)

CVPR一次中66篇，大裝置一天訓(xùn)練完GPT-3，商湯準(zhǔn)備迎戰(zhàn)未來(lái)