多模態大模型推動“以人為本”的智慧汽車交互革新商湯絕影亮相WAIC 2024-國際在線

多模態大模型推動“以人為本”的智慧汽車交互革新商湯絕影亮相WAIC 2024

2024-07-07 11:59:35來源：中央廣電總台國際在線責編：鄭思雯

　　2024世界人工智能大會暨人工智能全球治理高級別會議(WAIC 2024)于7月4日-7月7日在上海舉行。商湯絕影攜多款基於全新發佈的商湯“日日新5.5”原生多模態大模型打造的智慧駕駛和智慧座艙産品亮相本屆WAIC，推動“以人為本”的智慧汽車交互革新。

　　作為加速智慧汽車駛入AGI時代的戰略合作夥伴，商湯絕影展示了可解釋、可交互的自動駕駛大模型DriveAGI，同時還發佈了行業首個車載生成式交互介面“隨心介面”(FlexInterface)、“隨意操控”(AgentFlow)等車載AI Agent應用。此外，商湯絕影自動駕駛小巴也亮相本屆WAIC，並成為大會唯一承擔接駁任務的L4級別自動駕駛小巴。

　　在7月5日由WAIC 2024戰略合作夥伴商湯科技召開的“大愛無疆·向新力”人工智能論壇上，商湯科技發佈模型“日日新5o”，實時流式多模態交互體驗對標GPT-4o，展現採用混合端雲協同專家架構的商湯“日日新5.5”大模型的強大實力。商湯科技聯合創始人、首席科學家、絕影智慧汽車事業群總裁王曉剛表示，“原生多模態大模型是打開AGI大門的鑰匙，商湯絕影正在激發AGI創造力，推動多模態大模型與智慧汽車的深度融合，打造一系列全新的車載智慧化産品，加速智慧汽車向超級智慧體進化，引領一場“以人為本”的智慧汽車交互的變革。”

多模態大模型引領「以人為本」的智慧汽車交互革新商湯絕影亮相WAIC 2024_fororder_image001

王曉剛在“大愛無疆·向新力”論壇分享商湯絕影最新的技術和産品進展

　　真·“以人為本” 商湯絕影多模態大模型引領智慧汽車交互革新

　　多模態大模型能夠將語音、文字、圖像、手勢、視頻等各種模態進行高效且深度地融合，提供更加豐富且自然的人機交互體驗。

　　過去許多模型處理不同模態信息是先把語音等輸入轉化為文字，文字和圖像結合進行分析，輸出反饋也是先生成文字，根據文字再生成語音輸出，會有大量信息丟失和很高的延遲。

　　由“日日新5.5”體系支持的全新商湯多模態大模型是一種端到端的模型，也就是文字、語音、視頻等模態一同輸入，模型統一處理後輸出相應模態的信息，相較于過去的方案，多模態融合的技術難度是幾何倍數的提升。

　　技術上的高難度是商湯的原生多模態能力的直接體現。今年4月發佈的“日日新5.0”是對標GPT-4 Turbo的國産大模型，“日日新5.5”體系更是全面升級，數學推理、英文能力和指令跟隨等能力明顯增強，交互效果和多項核心指標實現對標GPT-4o。

　　此前GPT-4o的發佈為消費者展示了多模態實時交互的方式，讓更多人領略多模態感知和交互的魅力，也開始幫助釋放多模態大模型的商業落地想像空間。

　　相較于手機，智慧汽車才是更適合承載多模態大模型的落地場景。因為智慧汽車內外的各種攝像頭是常開的，用戶可以實時跟汽車通過多模態的方式進行交互。同時，智慧汽車的保有量不斷增加，能夠産生豐富的終端用戶反饋和數據信息，讓模型不斷迭代成長。

　　這些因素綜合展現了一個令人激動的未來智慧汽車發展方向：從智慧汽車正在進化為超級智慧體，多模態大模型則是這一進程的核心驅動力。

　　和OpenAI等公司相比，商湯絕影是智慧汽車的核心供應商，在智慧駕駛和智慧座艙領域具備豐富的量産經驗，將以多模態大模型為核心加速“以人為本”的智慧汽車交互革新。

　　智慧汽車的人機交互正在從“以車為中心”向“以人為中心”轉型。在這個轉型中，現階段用戶仍需用文本或語音給智慧汽車提供信息和數據以獲取被動式的服務，其他的信息都丟失了，尚未真正做到主動服務用戶。商湯絕影正在用多模態大模型打造真·“以人為中心”的智慧汽車交互方式，這種交互覆蓋了座艙、汽車周邊的環境，讓有關於“人”的信息不會被忽視，甚至它還突破了空間的限制，實現艙內用戶與更廣闊的物理和數字世界的聯接。

多模態大模型引領「以人為本」的智慧汽車交互革新商湯絕影亮相WAIC 2024_fororder_image002

商湯絕影實現原生多模態大模型的車端部署

多模態大模型引領「以人為本」的智慧汽車交互革新商湯絕影亮相WAIC 2024_fororder_image003

商湯絕影車載端側8B多模態模型性能

　　車端模型部署能力是智慧汽車交互革新不可或缺的技術保障，商湯絕影能夠以雲側、端雲結合、端側等全棧方式靈活部署多模態大模型，讓商湯原生多模態能力能夠快速落地智慧汽車。

　　在本屆WAIC上，商湯絕影實現原生多模態大模型的車端部署，並對外展示了在3個不同算力平臺上運行2.1B或8B端側多模態大模型的適配能力。相較于動輒就有幾秒鐘延遲的雲上部署方案，商湯絕影車載端側8B多模態模型可以實現首包延遲低至300毫秒以內，推理速度40Tokens/秒，為“以人為本”的智慧汽車交互革新保駕護航。

　　DriveAGI可解釋、可交互多模態讓端到端智駕安全可信賴

　　2022年底，商湯及其聯合實驗室提出了感知決策一體化自動駕駛通用模型UniAD，並在次年榮獲2023年國際計算機視覺與模式識別會議(CVPR)最佳論文，今年北京車展，商湯絕影展示了UniAD的實車上路成果，持續引領端到端自動駕駛的創新潮流。

　　北京車展以來，UniAD穩步前行，通過持續的數據採集、真值生産、模型訓練、實車測試，UniAD系統穩定性大幅增強，體驗連續性和舒適性不斷提升。在本屆WAIC上，商湯絕影展示了只搭載7個攝像頭的UniAD，在無圖情況下實現城區複雜道路、鄉村小路等場景一鏡到底的實車演示，端到端智駕模型持續迭代進化。

　　UniAD顯著提升了智駕系統的駕駛能力，但純粹的端到端自動駕駛模型不是自動駕駛的最終答案，進一步具備對開放世界的感知、推理、決策及交互能力，將是智慧汽車走向超級智慧體的重要標誌。因此，商湯絕影開創性地研發了首個應用於駕駛決策規劃的智駕大模型，即基於多模態大模型打造的DriveAGI，讓端到端智駕可解釋、可交互。

　　DriveAGI增強了端到端系統的可解釋性，不僅讓車輛能夠更像人一樣理解複雜的現實世界，洞察各類交通參與者的行為動機，快速學習各種交通規則，掌握瞬息萬變的道路信息，還能向用戶解釋駕駛決策的推理過程。

　　目前，商湯絕影DriveAGI智駕大模型能在無限寬標識的道路上，安全順利穿過兩個石墩形成的狹窄通道；它還能準確辨識並理解包括公交車道、潮汐車道及施工車道等各類交通標識，並自主進行變道或規避，甚至當後方有救護車接近時，DriveAGI會進行思考推理，最終進行及時變道避讓。

　　多模態大模型還賦予了DriveAGI強大的可交互性，用戶不僅可以通過問詢讓DriveAGI解釋自己的決策過程，還能通過語音或手勢指令來控制自動駕駛行為。例如，未來在自動駕駛狀態下，導航指示車輛需在下個路口調頭以抵達目的地，但駕駛員知曉可在前方有近路可以直接轉彎，那麼他只需對系統説出“直接左拐”，系統便會根據當前路況來執行這一指令。

　　UniAD和DriveAGI智駕大模型的表現依賴於商湯絕影強大的模型能力，同時也需要大量的高品質數據支持學習和訓練。作為新質生産力，以多模態為代表的大模型極大提高了端到端智駕訓練、迭代的生産效率。

　　以真實的多模態數據為基礎，商湯絕影的世界模型、交通流倣真大模型等一系列雲端大模型源源不斷生産出高品質數據，同時通過各個大模型之間相互協同，實現場景生産、交通流倣真、真值生産、系統診斷等能力，打造出智駕大模型時代的端到端數據閉環，為端到端自動駕駛方案的落地與進化提供有力的保障。

　　多模態融入智慧座艙讓智慧汽車成為你的專屬“賈維斯”

　　今天的智慧汽車配備了豐富且強大的硬體，能夠為用戶打造一個獨立的交互環境，它是AGI落地的最佳場景。面向智慧座艙，商湯絕影充分釋放多模態大模型強大感知和交互能力，激發更多想像空間。

　　依靠行業領先的多模態能力，商湯絕影正在打造多模態大模型引擎産品“座艙大腦”(CockpitBrain)，構建一系列AI大模型座艙産品矩陣，讓鋼鐵俠的人工智能幫手“賈維斯”走進智慧汽車，成為每一個用戶的AI出行夥伴。

　　在本屆 WAIC上，商湯絕影正式發佈生成式交互介面産品“隨心介面”(FlexInterface)以及“隨意操控”(AgentFlow)等多個車載AI Agent，旨在通過AI技術，徹底改變用戶與車載系統的交互方式。

　　依託于AI大模型的即時生成和修改交互介面的能力，FlexInterface在大模型解析用戶需求的基礎上，結合設計系統的框架和範式，實現高度動態和個性化的介面生成。無論是天氣、時間、節日、紀念日，還是周圍環境變化，FlexInterface 都能自動變換介面風格，提供最佳用戶體驗。

　　AgentFlow 通過大模型的推理能力，模擬人類點擊操作，實現對APP和網站的直接操作。用戶只需使用自然語言，就能讓AI自主選擇多個工具完成複雜任務，無需主機廠進行額外的研發適配。這種能力不僅提升了操作的便捷性，還極大地擴展了車載系統的功能範圍。例如，用戶能讓AgentFlow自動搜索並預約適合看球的酒吧，提供從搜索到預訂的一站式服務。

　　在商湯絕影的現場演示中，用戶通過FlexInterface生成了一個歐洲盃風格的主題，大模型自動生成具備歐洲盃元素的中控螢幕桌面和圖標；同時，用戶還能通過AgentFlow隨時播放歐洲盃或足球相關的音樂，展示了這些創新産品在實際應用中的強大能力和靈活性。

多模態大模型引領「以人為本」的智慧汽車交互革新商湯絕影亮相WAIC 2024_fororder_image004

FlexInterface通過大模型生成的歐洲盃主題的車載介面

　　除此之外，本屆WAIC上，商湯絕影在傳統智慧汽車“哨兵模式”的基礎上打造了“多模態哨兵”，能夠全面理解並應對開放世界中可能對車輛造成損害的各種潛在隨機危險行為，諸如劃車、噴塗車身、拍打砸車、拉拽門把手、撬門以及踹車等，確保車輛安全無死角。

　　量産全面開花開闢出行新範式加速駛入AGI時代

　　作為加速智慧汽車駛入AGI時代的戰略合作夥伴，商湯絕影不只是在大模型技術上領航新時代，産品化量産落地也已經全面開花。

　　在智慧座艙領域，商湯絕影的大模型産品已經在多家主流汽車製造企業的量産車型中得到廣泛應用。例如，商湯的大模型已全面助力小米SU7的小愛語音助手車載語音場景應用。

　　6月25日，翼真L380正式上市，最新版本商湯“日日新”大模型實現量産上車，基於“商量”大語言模型和“秒畫”文生圖模型，商湯絕影為翼真L380定制化打造了“AI閒聊”“美圖壁紙”“童話繪本”“AI問診”等AI大模型座艙産品和功能，助力“陸地空客”升維智慧座艙體驗。

　　在智慧駕駛領域，商湯絕影的量産智駕産品已落地包括廣汽埃安LX Plus、合眾哪吒S、廣汽昊鉑GT、紅旗等品牌及車型，高速NOA等功能也開始落地，同時絕影還在推進更多車型交付，已具備了從感知到規控的全棧智駕技術量産交付能力。6月初，廣汽和一汽入選國內首批L3試點項目，商湯絕影為他們提供面向L3的感知演算法。不止如此，商湯絕影目前的多個量産智駕方案在未來均可升級為端到端架構。

　　更高階的L4自動駕駛領域，商湯絕影自動駕駛小巴成為WAIC 2024唯一承擔接駁任務的L4級別自動駕駛小巴，提供多個地點之間的需求響應式自動駕駛巴士出行體驗。

　　這背後是商湯絕影硬核的技術實力和強大的落地運營能力。目前，絕影L4級別的自動駕駛小巴的測試與運營總里程累計已超3,000,000公里，並在江蘇無錫、陝西西鹹新區等多地開展自動駕駛接駁服務。

　　在上海臨港，絕影L4級自動駕駛小巴已經面向公眾進行日常運營。商湯絕影與上海臨港新片區公共交通有限公司共同打造的智慧網聯公交場景，採用“響應式公交”模式按需響應，已實際投入的醫療專線和上海海洋大學專線，預約乘坐人數累計已超過16,000人次。（資料來源：商湯絕影）