座艙大模型為啥成了雞肋?
超導(dǎo)、核聚變、量子計(jì)算和人工智能被譽(yù)為可以主宰人類文明走向的四大技術(shù)前沿。前三大技術(shù)目前基本上處于實(shí)驗(yàn)室預(yù)研階段,人工智能則在這一二十的時(shí)間里得到了長(zhǎng)足進(jìn)步的發(fā)展。芯片方面,從可以做并行計(jì)算、擅長(zhǎng)做乘加運(yùn)算的GPU,到可以針對(duì)各類AI算子進(jìn)行定向優(yōu)化加速的NPU,到可以通過(guò)級(jí)聯(lián)的方式形成大規(guī)模訓(xùn)練集群的高端訓(xùn)練芯片,算法方面,從可以提取圖像特征的卷積神經(jīng)網(wǎng)絡(luò)到可進(jìn)行時(shí)空對(duì)齊、初步具備上下文理解能力的Transformer,從各式各樣的小模型到LLM大語(yǔ)言模型,各類創(chuàng)新層出不窮,不斷推進(jìn)著人工智能發(fā)展的無(wú)盡前沿。
本文引用地址:http://www.biyoush.com/article/202409/462562.htm當(dāng)電動(dòng)汽車走入智能化競(jìng)爭(zhēng)的下半場(chǎng),人工智能技術(shù)在汽車上的應(yīng)用場(chǎng)景得到了大大拓展,最近這段時(shí)間最引人注目的進(jìn)展有二。一個(gè)發(fā)生在智能駕駛領(lǐng)域,在特斯拉之后,蔚小理華們已經(jīng)實(shí)質(zhì)性地開(kāi)啟了向端到端智駕技術(shù)路線的切換,一眾傳統(tǒng)車企也在口頭上實(shí)現(xiàn)了分段式端到端智駕方案。另外一個(gè)發(fā)生在智能座艙領(lǐng)域,大模型陸陸續(xù)續(xù)上車,問(wèn)界、智界、享界車型接入華為的盤古大模型,極越、長(zhǎng)安接入百度的文心一言大模型,騰勢(shì)、江淮接入科大訊飛的星火大模型,以智能化技術(shù)見(jiàn)長(zhǎng)的頭部新勢(shì)力車企蔚小理也紛紛上線了自研的GPT。
和各個(gè)車企在自動(dòng)駕駛領(lǐng)域鋪天蓋地地宣傳端到端形成鮮明對(duì)比的是,大家對(duì)座艙GPT的宣傳都不咸不淡,以至于這些GPT沒(méi)有引起太大的波瀾,很快就歸于沉寂了。何以然?原因很簡(jiǎn)單,端到端智駕不僅可以提高性能的天花板,還可以節(jié)省和錢相掛鉤的算力資源,但現(xiàn)在的座艙大模型卻處于一種比較尷尬的局面。
要明白大模型加持的座艙GPT怎么就成了食之無(wú)肉、棄之有味的雞肋,只需要搞清楚三個(gè)問(wèn)題:
● 現(xiàn)在的座艙GPT能干啥?
● 用戶在期待啥?
● GPT為什么實(shí)現(xiàn)不了用戶的期待?
1 座艙GPT能干啥?
目前,車企搬進(jìn)智能座艙的GPT大模型主打功能有四:灌注了汽車知識(shí)的用車助手、壓縮了文旅知識(shí)的出行助手、可查詢影音知識(shí)的娛樂(lè)助手、可聯(lián)網(wǎng)找答案的百科知識(shí)問(wèn)答。乍看起來(lái),這些車載GPT上知天文、下知地理,可以給被迫活到老、學(xué)到老的現(xiàn)代人提供專家系統(tǒng)支持,聊天機(jī)器人之前中看不中用,現(xiàn)在可以做到以自然語(yǔ)言的形式與用戶進(jìn)行溝通和交互,雖然很多時(shí)候也是牛頭不對(duì)馬嘴,讓人產(chǎn)生“究竟是錯(cuò)付了”的荒誕感,但畢竟有了大幅度改觀。
圖片來(lái)源:江淮汽車
但是,在大多數(shù)可以在手機(jī)和PC端體驗(yàn)通義千問(wèn)、文心一言、豆包、星火這些重量級(jí)大模型的消費(fèi)者的眼中,這些座艙大模型并沒(méi)有跨過(guò)“能用”到“好用”的邊界。本質(zhì)上,這些功能都是對(duì)用戶需求的被動(dòng)式回應(yīng)。即便你能通過(guò)它的內(nèi)容生成能力在車機(jī)大屏上畫一個(gè)胸有成竹的男人,博君一笑之后靜下心來(lái)想一想,又有什么意義呢?
圖片來(lái)源:文心一言
說(shuō)到根上,按照中國(guó)汽車工程協(xié)會(huì)的座艙智能等級(jí)劃分標(biāo)準(zhǔn),在沒(méi)有接入車載GPT大模型之前,智能座艙毫無(wú)疑問(wèn)地處于“L1感知智能座艙”階段,但在接入形形色色的車載GPT之后,座艙的智能化等級(jí)依然沒(méi)有進(jìn)化到可以主動(dòng)感知駕乘人員需求并主動(dòng)執(zhí)行任務(wù)的“L2部分認(rèn)知智能座艙”階段。拋開(kāi)浮云遮望眼,這是各家車企上線座艙GPT之后用戶體驗(yàn)沒(méi)有出現(xiàn)斷代式跨越的根本原因。
2 用戶在期待什么?
人們把自動(dòng)駕駛劃分成5個(gè)等級(jí),并將可以全面感知車輛周圍環(huán)境、可在任何場(chǎng)景下執(zhí)行駕駛?cè)蝿?wù)的L5作為自動(dòng)駕駛的終極目標(biāo)。同樣,如中國(guó)汽車工程協(xié)會(huì)制定的智能座艙智能化等級(jí)分類標(biāo)準(zhǔn)所示,人們對(duì)智能座艙的終極期待是它可以全場(chǎng)景主動(dòng)感知用戶的需求,并通過(guò)調(diào)用應(yīng)用、服務(wù)、工具和系統(tǒng)設(shè)備,主動(dòng)滿足用戶的需求。
圖片來(lái)源:網(wǎng)絡(luò)
現(xiàn)代社會(huì),人們經(jīng)常經(jīng)歷的委屈是“他不懂我”或者“他不給我”,簡(jiǎn)簡(jiǎn)單單兩句誅心之語(yǔ),背后涉及到理解需求和響應(yīng)需求的能力。也許他是個(gè)榆木腦袋,對(duì)需求理解不夠,或者信奉羅老師那種“彪悍的人生不需要解釋”的生存哲學(xué),不具備同理心,做不到“懂你 ”;又或許是他響應(yīng)需求的能力不足,他不是不知道你的委屈,但是,搬起磚就沒(méi)法空出手來(lái)抱你,擁你入懷就無(wú)法搬磚,確實(shí)無(wú)法“給你”。
再返回用戶期待智能座艙發(fā)揮的價(jià)值,主動(dòng)感知用戶需求對(duì)應(yīng)的是理解能力-“我懂你”,自主執(zhí)行任務(wù)對(duì)應(yīng)的是生成能力-“我給你”,用戶對(duì)智能座艙的期待就是“我懂你”、“我給你”!
3 座艙GPT為何不能滿足用戶期待?
理論上來(lái)講,大模型帶來(lái)了理解和生成兩個(gè)關(guān)鍵能力的根本性提升,似乎可以滿足用戶對(duì)智能座艙的期待,但實(shí)際表現(xiàn)卻并非如此。是因?yàn)榇笳Z(yǔ)言模型的底層架構(gòu)不合適?還是因?yàn)檐嚻髠儧](méi)有發(fā)揮出大模型的潛力?
圖片來(lái)源:華為
都不是。智能系統(tǒng)(包括手機(jī)、平板等智能終端和智能座艙、自動(dòng)駕駛系統(tǒng)等)的理解能力和生成能力雖然是對(duì)人機(jī)交互至關(guān)重要的兩種能力,但是,大模型的理解能力帶來(lái)的人機(jī)交互方式的突破并不足以建立對(duì)用戶需求的真正理解能力。
因?yàn)椋@種理解能力雖然可以將目前的單模態(tài)感知升級(jí)為觸控、語(yǔ)音、視覺(jué)信息相融合的多模態(tài)感知,但也僅此而已,它只能捕捉很短一段時(shí)間內(nèi)用戶的手勢(shì)、眼神、聲音、按鍵和觸控動(dòng)作,它所建立的連續(xù)時(shí)空認(rèn)知對(duì)于一個(gè)活了半輩子的人來(lái)說(shuō)太短了!我們一路走來(lái),穿越人生的風(fēng)雨,內(nèi)心早已千瘡百孔,座艙大模型如果不能通過(guò)一次又一次記憶并分析用戶的數(shù)據(jù),慢慢走近用戶的內(nèi)心,它怎么和用戶真正地共情,給出的反應(yīng)又怎么可能真正符合用戶的心思?
也就是說(shuō),智能座艙必須具備情感引擎,學(xué)習(xí)、分析用戶的數(shù)據(jù),樹(shù)立跟該用戶一致的人生觀、價(jià)值觀和世界觀,建立起在這個(gè)不太溫暖的人類社會(huì)中有些缺乏的共情能力,才能嚴(yán)絲合縫地給出用戶想要的輸出或反饋,實(shí)現(xiàn)有溫度的情感陪伴。
圖片來(lái)源:蔚來(lái)汽車
要做到這一點(diǎn),或許需要大模型底層技術(shù)繼續(xù)進(jìn)化,真正產(chǎn)生意識(shí)并發(fā)展出類人的情感,這樣或許可以降低對(duì)學(xué)習(xí)用戶數(shù)據(jù)的需求。如果在當(dāng)前的技術(shù)架構(gòu)上做情感引擎,出于對(duì)個(gè)人隱私的保護(hù),數(shù)據(jù)不能出車,大模型不能在云端訓(xùn)練,如果在車端訓(xùn)練,以車端推理芯片做模型訓(xùn)練,這種方式不大常見(jiàn),應(yīng)該非常難。
4 寫在最后
倘若座艙大模型真能大幅度改善消費(fèi)者與汽車之間的交互,影響用戶的生活和人生體驗(yàn),想必大家伙兒不至于把它晾在一邊。但是,對(duì)于一項(xiàng)新技術(shù),既不要高估它的短期表現(xiàn),也不要忽略它的長(zhǎng)期進(jìn)展。正如ChatGPT、GPT-4、GPT-4o,上下文從32K提高到了128K,從只接受文本發(fā)展到可以接受圖像和照片在內(nèi)的多模態(tài)輸入,每一次版本的更新都會(huì)帶來(lái)能力的進(jìn)步,座艙大模型的未來(lái)也是可以期待的!
(本文登于EEPW 2024年9月期)
評(píng)論