理想汽車發佈下一代自動駕駛基礎模型MindVLA-o1 向具身智慧通用模型進化-國際在線

理想汽車發佈下一代自動駕駛基礎模型MindVLA-o1 向具身智慧通用模型進化

2026-03-17 17:36:38來源：中央廣電總臺國際在線責編：楊蕓菲

　　3月17日，理想汽車基座模型負責人詹錕出席NVIDIA GTC 2026，發表主題演講《MindVLA-o1：開啟全能範式——下一代統一視覺-語言-動作自動駕駛大模型探索》，發佈下一代自動駕駛基礎模型MindVLA-o1。MindVLA-o1通過五大技術創新，構建了面向物理世界智慧的自動駕駛基礎模型，讓自動駕駛看得更遠、想得更深、行得更穩、進化更快、部署更高效。

　　詹錕表示：“當我們把視覺、語言和行動統一到一個模型中時，它已不再只是自動駕駛模型，而是在逐漸演化為面向物理世界的通用智慧體。基於同一套VLA模型，不僅可以控制車輛，也能夠擴展到機器人。因此，自動駕駛只是物理AI的起點，未來這類基礎模型將驅動新的具身智慧範式。”

　　從規則時代到AI時代理想輔助駕駛持續演進

　　自2021年啟動輔助駕駛自研以來，理想輔助駕駛技術架構經歷了多輪關鍵迭代，持續的技術探索與工程實踐，為理想汽車在軟硬體一體化研發領域積累了深厚的基礎研究能力與研發實力。2024年是理想輔助駕駛的重要分水嶺，隨著端到端+VLM（視覺語言模型）雙系統架構量産交付，輔助駕駛首次真正具備了跨場景、跨任務的統一理解能力。2025年，理想汽車進一步將空間理解、語言理解與行動決策統一到同一模型框架，構建了基於VLA、世界模型與強化學習三大技術棧的VLA司機大模型，並於8月隨理想i8交付正式推送，9月向AD Max用戶全量推送。

　　截至2025年底，VLA司機大模型月使用率達到80%，VLA指令累計使用1225.4萬次；春節期間理想輔助駕駛總里程達2.5億公里，VLA指令使用次數達130.3萬次。規模化的用戶驗證與持續積累的真實場景數據，為理想汽車推進下一代自動駕駛技術演進提供了堅實基礎。

　　MindVLA-o1五大技術創新：看得更遠、想得更深、行得更穩、進化更快、部署更高效

　　理想汽車提出下一代統一架構——MindVLA-o1。該架構以原生多模態MoE Transformer為核心，通過五大技術創新——3D空間理解、多模態思考、統一行為生成、閉環強化學習（Closed-loop RL）和軟硬體協同設計（Hardware–Software Co-Design），構建了面向物理世界智慧的自動駕駛基礎模型。

　　在感知層面，理想汽車採用以視覺為核心的 3D ViT Encoder（3D視覺模型編碼器），並利用鐳射雷達點雲作為三維幾何提示，引導模型理解真實空間結構，使其在單一表示中同時具備語義理解與三維感知能力。同時引入前饋式3DGS表示（Feedforward 3D Representation），將場景拆分為靜態環境與動態物體分別建模，並通過下一幀預測（Next-state prediction）作為自監督信號，使模型同時學習深度信息、語義結構與物體運動，最終形成融合空間結構與時間上下文的高品質3D表示。具備3D空間理解能力，使模型看得更遠。

　　在思考層面，自動駕駛既要理解當前環境，也要預測未來幾秒的場景演化。在語言模型承擔語義理解、常識知識和交互能力的基礎上，理想汽車還引入了預測式隱世界模型，在隱空間中高效模擬未來。訓練分三階段：第一，用海量視頻數據預訓練Latent World Token（隱世界詞元），構建未來表徵；第二，在MindVLA-o1中持續世界模型的推演，形成隱空間的未來推理能力；第三，將世界模型、多模態推理能力及駕駛行為進行聯合訓練與對齊。由此，模型不僅能理解當前場景並進行邏輯判斷，還能在隱空間中提前“想像”未來畫面，將駕駛決策具象化。理想汽車將這種能力定義為多模態思考（Generative Multimodal Thinking）。擁有多模態思考能力，讓模型想得更深。

　　在行為層面，理想汽車構建了統一行為生成（Unified Action Generation）機制。首先，MindVLA-o1使用VLA-MoE（混合專家模型）架構，並引入專門的Action Expert（動作專家），從3D場景特徵、導航目標、駕駛指令等多維輸入中提取信息，並結合多模態思考生成高精度駕駛軌跡。其次，為滿足實時性要求，系統採用並行解碼（Parallel Decoding），同時生成所有軌跡點，大幅提升效率。最後，引入Discrete Diffusion（離散擴散）進行多輪迭代優化，類似逐步去噪，確保軌跡空間連續、時間穩定，並符合車輛動力學約束。形成統一行為生成機制，使模型行得更穩。

　　在模型迭代層面，理想汽車構建了閉環強化學習框架，讓模型不僅能從真實數據學習，還能在世界模擬器（World Simulator）中持續探索和優化策略。為此，理想汽車將傳統逐步優化式重建升級為Feed-forward（前饋）場景重建，使系統能夠暫態生成大規模、高保真駕駛場景，支持大規模並行訓練。同時，結合生成式模型（Generative Models），模擬環境可擴展、編輯並生成全新場景。為支持大規模模擬與訓練，理想汽車開發了統一的3D Gaussian Splatting（3D高斯潑濺）渲染引擎和分佈式訓練框架，渲染速度提升近2倍，整體訓練成本降低約75%，實現低成本、高效率的強化學習閉環。在閉環強化學習框架下，模型實現更快進化。

　　為解決傳統端側大模型部署耗時長、調試頻繁的問題，理想汽車提出面向端側大模型的軟硬體協同設計定律，將模型結構與驗證損失建模，並結合Roofline模型刻畫硬體計算能力與記憶體頻寬限制，在模型性能與硬體約束之間建立統一的分析框架。理想汽車基座模型團隊評估了近2000種模型架構配置，在英偉達Orin與Thor平臺上完成驗證，找到了模型精度與推理延遲之間的Pareto Front（帕累托前沿），將架構探索時間從數月縮短至數天，大幅提升端側VLA模型的設計與部署效率。在軟硬體協同設計定律下，模型部署更高效。

　　自動駕駛只是起點為具身智慧構建“數字大腦”

　　MindVLA-o1是理想汽車面向物理世界智慧核心AI框架的重要組成部分。這套AI框架由四大核心模組組成：MindData，統一的VLA數據引擎，負責大規模數據的採集、清洗和自動標注；MindVLA-o1，統一的原生多模態VLA模型，可以理解環境、進行推理，並生成駕駛行為；MindSim，可控的多模態世界模型，用於生成複雜駕駛場景並支持大規模閉環訓練；RL Infra（強化學習基礎設施），通過獎勵模型和策略學習，使系統在倣真與真實環境中自我進化。

　　四部分協同形成完整閉環，使AI能夠感知、理解並在物理世界中自主行動，並持續學習。從結構上看，這套系統如同一個“數字大腦”：感知層對應視覺皮層，推理與規劃如前額葉，場景生成似運動皮層，強化學習則類似多巴胺反饋，實現了感知、理解、行動和持續優化的完整閉環。

　　該框架不僅服務於汽車，也可擴展至機器人及各種物理系統。對理想汽車而言，車是最大號的機器人，其本質是在構建硅基生命體的軀幹與大腦。

　　理想汽車在持續推進技術創新的同時，在人工智能領域頂級學術會議和期刊發表了大量研究成果，其中MindVLA-o1相關的多篇論文已在CVPR、ICLR、ICRA、AAAI等國際頂會上發表。未來，理想汽車將繼續以用戶價值為導向，投入前沿研究以及核心技術自研，持續構建面向物理世界智慧的完整AI系統，堅定邁向全球領先的具身智慧企業。（資料來源：理想汽車）