MemryX AI 加速卡結(jié)合 Rockchip RK3588 多路物體檢測(cè)解決方案
信息革命的浪潮正快速推進(jìn)!隨著科技日新月異的發(fā)展,人工智能(AI)
的應(yīng)用已悄然融入人們的日常生活,無(wú)論是 Google 的搜索引擎、Facebook 的推薦系統(tǒng),還是電商平臺(tái)的銷售排行,AI
技術(shù)正潛移默化地改變著我們的生活方式。這些科技成果的普及,使得低成本、高效能的解決方案成為當(dāng)下的關(guān)鍵需求。
同時(shí),視覺(jué)相關(guān)的AI應(yīng)用正在改變著我們的世界,無(wú)論是在車用、工業(yè)還是醫(yī)療領(lǐng)域,都展現(xiàn)出其無(wú)可替代的價(jià)值。未來(lái),隨著視覺(jué)AI技術(shù)的進(jìn)一步發(fā)展,更多的創(chuàng)新應(yīng)用將逐步落地,徹底重塑我們的日常生活與工作方式。應(yīng)用于以下領(lǐng)域:
◆ 智能監(jiān)控:可實(shí)現(xiàn)實(shí)時(shí)目標(biāo)檢測(cè)、行為分析及入侵預(yù)警,為智慧城市的安全提供保障。
◆ 智慧零售:通過(guò)顧客行為分析與智能貨架管理,優(yōu)化購(gòu)物體驗(yàn)并提升銷售效率。
◆ 醫(yī)療影像分析:協(xié)助醫(yī)生進(jìn)行精準(zhǔn)診斷,例如腫瘤檢測(cè)分析以提升醫(yī)療效率與準(zhǔn)確性。
◆ 工業(yè)質(zhì)檢:利用視覺(jué)AI快速識(shí)別產(chǎn)品瑕疵,確保生產(chǎn)質(zhì)量,提高生產(chǎn)效率。
◆ 自動(dòng)駕駛:車載AI能夠通過(guò)視覺(jué)處理分析道路環(huán)境、行人和障礙物,實(shí)現(xiàn)即時(shí)決策,提升駕駛安全性。
其中,邊緣計(jì)算(Edge Computing) 將是推動(dòng)這項(xiàng)技術(shù)的關(guān)鍵指標(biāo)隨著 神經(jīng)運(yùn)算處理芯片(Neural Processing Unit, NPU) 的誕生,運(yùn)算性能實(shí)現(xiàn)了指數(shù)級(jí)的飛躍,使機(jī)器學(xué)習(xí)與人工智能應(yīng)用得以廣泛應(yīng)用于移動(dòng)設(shè)備、傳感器等多種硬件中,將智能計(jì)算更貼近人們的日常生活。因此MemryX 推出 MX3 AI 芯片能夠提供每瓦 5 TOPS 的算力性能,并且支持 浮點(diǎn)數(shù)(Brain Floating Point) 運(yùn)算來(lái)確保用戶的模塊準(zhǔn)確度。每顆芯片內(nèi)建 10.5 MB 的 靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM) 用于訪問(wèn)模塊,不會(huì)占用主系統(tǒng)的資源,并且最多可以串聯(lián) 16 顆芯片來(lái)擴(kuò)展性能。
圖1 MemryX AI芯片規(guī)格示意圖
2024年,MemryX 重磅推出外掛式 MemryX MX3 AI 推理加速卡,采用 PCIe Gen3 M.2 M-Key 接口,具備高達(dá) 20 TOPS 的卓越計(jì)算性能,為各類工業(yè)電腦帶來(lái)即插即用的便捷體驗(yàn)。該解決方案以“平臺(tái)升級(jí),迎接AI智能時(shí)代”為設(shè)計(jì)理念助力企業(yè)與開發(fā)者輕松邁向人工智能領(lǐng)域。本方案特別結(jié)合了 Orange Pi 5 Plus (Rockchip RK3588) 與 MemryX AI 加速卡,構(gòu)建出一套高性價(jià)比的智能解決方案。憑借 MemryX 提供的豐富軟件資源及對(duì)主流深度學(xué)習(xí)框架 (如 TensorFlow、PyTorch、ONNX) 的支持,即便是新手也能快速上手,輕松部署 AI 模型,實(shí)現(xiàn)智能應(yīng)用開發(fā)。
圖2 基于 MemryX AI 加速卡結(jié)合 Rockchip RK3588 多路物體檢測(cè)解決方案優(yōu)勢(shì)示意圖
憑借 MemryX 的強(qiáng)大運(yùn)算能力,能夠輕松 實(shí)現(xiàn)多路(Multi-Streamer) 的 物體檢測(cè)(Object Detection) 應(yīng)用。只需要使用普通的USB攝像頭或通過(guò)網(wǎng)絡(luò)來(lái)源串聯(lián),即可適用于市面上常見(jiàn)的停車場(chǎng)管理系統(tǒng)、智慧停車柱、智慧交通監(jiān)控、商場(chǎng)人流檢測(cè)、居家無(wú)死角意外檢測(cè)等應(yīng)用?,F(xiàn)在就加入我們,體驗(yàn)人工智能的無(wú)限魅力!讓 AI 助力您的創(chuàng)新,開創(chuàng)屬于您的智能應(yīng)用時(shí)代!
圖3 多路物件檢測(cè)解決方案應(yīng)用示意圖
搭配 MemryX 所構(gòu)建的開發(fā)環(huán)境 Developer Hub,開發(fā)者能夠簡(jiǎn)單且快速地上手將 TensorFlow Lite、ONNX、Pytorch、Keras 等熱門深度學(xué)習(xí)框架的模塊轉(zhuǎn)換為 MemryX MX3+ 芯片所需的 DFP 框架。并通過(guò)原廠豐富的示例應(yīng)用與公共工具,即可一步步實(shí)現(xiàn) AI 應(yīng)用。
圖4 MemryX 開發(fā)環(huán)境示意圖
▼ 編譯器(Compiler)
神經(jīng)編譯器 提供多種功能,如多模型整合(Multi-Model)、模型剪枝(Model
Cropping)、多路流輸入單一應(yīng)用(Multiple Input Streams)、單路流輸入多個(gè)應(yīng)用(Shared Input
Stream)、混合精度權(quán)重(Mixed-Precision Weights)、模塊資源使用情況顯示(Resources
Utilization)。通過(guò)簡(jiǎn)單的命令行指令,能夠幫助開發(fā)者。快速轉(zhuǎn)換模塊將 Pytorch、Keras、Tensorflow、Tensorflow Lite、ONNX 等模型轉(zhuǎn)換為 MemryX DFP 模組格式。
▼ 運(yùn)行時(shí)(Runtime)
提供優(yōu)化的用戶體驗(yàn),利用 Benchmark 搭配模型庫(kù)能夠幫助開發(fā)者快速評(píng)估其硬件性能與準(zhǔn)確度,并且提供多種開源示例 DEMO (MemryX_Example) 與簡(jiǎn)潔有力的 API 能夠幫助開發(fā)者快速實(shí)現(xiàn)與部署AI應(yīng)用。
基準(zhǔn)測(cè)試(Python,C/C++)
加速器 API(Python,C/C++)
▼ 公用工具(Utility Tools)
模擬器 (Simulator) : 為 MemryX 提供一套軟件,以解決手頭沒(méi)有 MX3 芯片的開發(fā)者進(jìn)行性能評(píng)估的問(wèn)題。
可視化工具(Viewer) : 為 MemryX 提供的 GUI 界面,包含上述編譯器、模擬器、加速器。
檢查器(DFP Inspect) : 為 MemryX 提供的一套檢查 DFP 文件的工具。
如下圖所示,展示了更多實(shí)際的應(yīng)用,如物體檢測(cè)、語(yǔ)義分割、車輛識(shí)別、深度估算、肢體識(shí)別、虛擬畫筆、人臉識(shí)別、車牌識(shí)別、表情檢測(cè)、圍欄警示等。都可以通過(guò)你的想象力與創(chuàng)造力,開發(fā)出更具潛力的殺手級(jí)應(yīng)用!這里還提供了實(shí)際應(yīng)用數(shù)據(jù),大多數(shù)應(yīng)用都能輕松達(dá)到每秒 30 幀以上的推理速度!并主打浮點(diǎn)數(shù)運(yùn)算 (BF16),確保模型的準(zhǔn)確性!潛力無(wú)限!
圖5 MemryX 實(shí)際應(yīng)用示意圖
圖6 MemryX M3+ 芯片性能數(shù)據(jù)表
?場(chǎng)景應(yīng)用圖
?展示板照片
?方案方塊圖
?核心技術(shù)優(yōu)勢(shì)
◆ 采用浮點(diǎn)數(shù) BF16 進(jìn)行計(jì)算,確保模塊準(zhǔn)確度: 模塊設(shè)計(jì)以 BF16(Brain Floating Point 16)為基礎(chǔ)進(jìn)行運(yùn)算,相較于傳統(tǒng)的浮點(diǎn)數(shù)格式,BF16 能夠在大幅減少內(nèi)存使用量的同時(shí),仍然提供接近 FP32 的計(jì)算準(zhǔn)確度。這使其特別適合用于人工智能和深度學(xué)習(xí)模型的推理與訓(xùn)練場(chǎng)景,確保結(jié)果的精確性。 ◆ 不占用系統(tǒng)內(nèi)存: 模塊運(yùn)行時(shí)采用了獨(dú)立內(nèi)存的架構(gòu),無(wú)需占用主系統(tǒng)的 RAM 資源,有效降低對(duì)系統(tǒng)整體性能的影響。這種設(shè)計(jì)特性確保模塊在高效運(yùn)行的同時(shí),仍然能為其他應(yīng)用程序預(yù)留足夠的系統(tǒng)資源。 ◆ 高度可擴(kuò)展性: 支持連接多達(dá) 16 個(gè)模塊,通過(guò)模塊化設(shè)計(jì)實(shí)現(xiàn)高擴(kuò)展性。這使得系統(tǒng)能夠根據(jù)需求靈活擴(kuò)展計(jì)算能力,以應(yīng)對(duì)不同場(chǎng)景的計(jì)算需求,例如需要更高性能的數(shù)據(jù)中心或邊緣計(jì)算。 ◆ 最佳數(shù)據(jù)流優(yōu)化,最大限度減少數(shù)據(jù)移動(dòng): 模塊內(nèi)部針對(duì)數(shù)據(jù)流進(jìn)行了高度優(yōu)化設(shè)計(jì),通過(guò)智能路由和緩存機(jī)制,能夠最大程度地減少數(shù)據(jù)在運(yùn)行過(guò)程中的移動(dòng)頻率,從而提升處理性能并降低延遲。此外,這樣的設(shè)計(jì)也有助于降低能耗,進(jìn)一步增強(qiáng)系統(tǒng)的運(yùn)行效率。 ◆ 高性價(jià)比與低功耗解決方案: 將主平臺(tái) Orange Pi 5 Plus 搭配 MemryX MX+ 的 AI 芯片,即可無(wú)痛升級(jí)為更高階的 AI 平臺(tái),每秒能夠運(yùn)行約 480 幀(YOLOv8)的物體檢測(cè);且 MX3+ 擁有 5 TOPS/W 的性能表現(xiàn),整套多路物體檢測(cè)解決方案僅耗電約 14 W。 ◆ 多路應(yīng)用的新概念: 相較于近年來(lái)興起的邊緣計(jì)算,將其概念套用到區(qū)域性場(chǎng)景或許是一個(gè)新穎且能夠大幅降低成本的解決方案。利用輕松易得的攝像頭,再搭配一臺(tái)智能工業(yè)主機(jī),即可實(shí)現(xiàn)許多應(yīng)用,并且能夠?qū)η岸说臄z像頭進(jìn)行任意更換與配置。
?方案規(guī)格
◆ 主平臺(tái)開發(fā)板采用 RockChip RK3588 平臺(tái)為基礎(chǔ),搭載四顆 Cortex-A76 處理器與四顆 Cortex-A55 處理器,并提供高性能圖像處理器 Arm Mali-G610 與神經(jīng)運(yùn)算處理器 NPU 等強(qiáng)大核心架構(gòu)。 ◆ I/O Board 開發(fā)板提供強(qiáng)大的周邊配置,如 Gigabit Ethernet 千兆以太網(wǎng)、USB Type A/C 3.0 通用串行總線接口、HDMI 高清多媒體接口、M.2 E-Key 傳輸接口、M.2 M-Key 傳輸接口,并能夠通過(guò)擴(kuò)展的 40 pin 針腳來(lái)模擬常用的 UART、I2C、SPI、CAN 等信號(hào)。 ◆ MemryX MX3+ 芯片提供強(qiáng)大的 AI 運(yùn)算能力(20 TOPS),以 PCIe Gen3 M.2 2280 M-Key 接口為主,其 M.2 加速卡搭載四顆 MX3+ 芯片,每顆芯片能夠提供 5 TOPS/W 的性能,并內(nèi)置 10.5 MB 的靜態(tài)隨機(jī)存取存儲(chǔ)器用于存取模塊。支持 Linux 與 Windows 兩大操作系統(tǒng),并提供豐富的軟件資源供開發(fā)者使用,能夠直接移植 Tensorflow、ONNX、Pytorch、Keras 等熱門的深度學(xué)習(xí)框架。
評(píng)論