10月17-19日,由工業和信息化部、交通運輸部、北京市人民政府聯合主辦的2024世界智慧網聯汽車大會在北京亦莊正式召開,理想汽車智慧駕駛研發副總裁郎鹹朋出席並現場分享了理想汽車智慧駕駛技術的創新應用與未來規劃,向與會各方展示了端到端、VLM、世界模型等理想當前階段最新智駕研發成果,吸引全場關注。
郎鹹朋表示:“在過去的一年時間裏,理想汽車智慧駕駛進行了三代技術迭代,NPN(先驗信息)、無圖、端到端+VLM雙系統,完成了從追趕、持平到領先的超越。NPN(先驗信息)使理想汽車具備了全場景NOA的能力,連通了高速和城市場景;無圖方案將城市NOA的使用範圍擴展到了全國;而最新的端到端+VLM雙系統的方案則使智駕的AI能力獲得了再次提升。目前端到端+VLM正處於萬人內測階段,預計將在本季度開啟全量用戶推送。”
理想汽車智慧駕駛研發副總裁郎鹹朋現場發言
全球首創端到端+VLM雙系統架構
理想汽車全球首創的端到端+VLM雙系統架構,靈感來源於諾貝爾獎獲得者丹尼爾·卡尼曼提出的雙系統理論,在自動駕駛領域模擬人類的思考和決策過程,形成更智慧、更擬人的駕駛解決方案。
系統1由端到端模型實現,善於處理簡單任務,具備高效快速響應能力,主要負責應對駕駛車輛時95%的常規場景,感測器輸入後,直接輸出軌跡用於控制車輛。系統2由VLM視覺語言模型實現,具備邏輯推理、複雜分析和計算能力,在駕駛車輛時用於解決複雜甚至未知的交通場景,佔日常駕駛的約5%,其接收感測器輸入後,經過邏輯思考,輸出決策信息給到系統1。系統1和系統2相互配合,分別確保大部分場景下的高效率和少數場景下的高上限。雙系統構成的智慧駕駛能力還將在雲端利用世界模型構建的虛擬環境進行訓練和驗證。世界模型結合重建和生成兩種路徑,構建的測試場景既符合真實規律,也兼具優秀的泛化能力。
端到端模型實現高效決策
端到端模型的輸入主要由攝像頭和鐳射雷達構成,多感測器特徵經過CNN主幹網絡的提取、融合,投影至BEV空間。為提升模型的表徵能力,記憶模組的加入使模型兼具時間和空間維度的記憶能力。在模型的輸入中,理想汽車還加入了車輛狀態信息和導航信息,經過Transformer模型的編碼,與BEV特徵共同解碼出動態障礙物、道路結構和通用障礙物,並規劃出行車軌跡。多任務輸出在一體化的模型中得以實現,中間沒有規則介入,因此端到端模型在信息傳遞、推理計算、模型迭代上均具有顯著優勢。在實際駕駛中,端到端模型展現出更強大的通用障礙物理解能力、超視距導航能力、道路結構理解能力,以及更擬人的路徑規劃能力。
VLM模型衝擊高上限
系統2VLM視覺語言模型的演算法架構由一個統一的Transformer模型組成,將Prompt(提示詞)文本進行Tokenizer(分詞器)編碼,並將前視相機的圖像和導航地圖信息進行視覺信息編碼,再通過圖文對齊模組進行模態對齊,最終統一進行自回歸推理,輸出對環境的理解、駕駛決策和駕駛軌跡,傳遞給系統1輔助控制車輛。
理想汽車在端側部署的VLM視覺語言模型已擁有22億參數量,對物理世界的複雜交通環境具有更擬人的理解能力,即使面對首次經歷的未知場景也能自如應對。VLM模型可以識別路面平整度、光線等環境信息,提示系統1控制車速,確保駕駛安全舒適。VLM模型也具備更強的導航地圖理解能力,可以配合車機系統修正導航,預防駕駛時走錯路線。同時,VLM模型可以理解公交車道、潮汐車道和分時段限行等複雜的交通規則,在駕駛中作出合理決策。目前,理想汽車通過突破性的技術創新與優化,已經將部署在車端量産晶片的模型推理速度從0.24Hz提升到3.34Hz,基本做到了準實時。
世界模型:重建+生成實現高效迭代
對於雙系統架構的訓練以及安全驗證,理想汽車的世界模型結合了重建和生成兩種技術路徑,將真實數據通過3DGS(3D高斯濺射)方法進行重建,並使用生成模型補充新視角。在場景重建時,其中的動靜態要素將被分離,靜態環境得到重建,動態物體則進行重建和新視角生成。再經過對場景的重新渲染,形成3D的物理世界,其中的動態資産可以被任意編輯和調整,實現場景的部分泛化。相比重建,生成模型具有更強的泛化能力,天氣、光照、車流等條件均可被自定義改變,生成符合真實規律的新場景,用於評價自動駕駛系統在各種條件下的適應能力。
重建和生成兩者結合所構建的場景為自動駕駛系統能力的學習和測試創造了更優秀的虛擬環境,使系統具備了高效閉環的迭代能力,確保系統的安全可靠。
技術創新厚積薄發 模型迭代與落地快速推進
從2021年至今,理想汽車研發團隊已在世界頂級會議發表多篇論文,在國際競賽獲得多個第一。端到端+VLM雙系統也在公測階段推送給了分佈在334個城市的10924名用戶,累計行駛里程達195萬公里。
對於以大模型為基礎的智慧駕駛系統架構,高品質數據的在訓練及驗證數據中尤為重要。郎鹹朋表示:“隨著模型訓練數據的增長,我們發現智慧駕駛模型的性能提升規律也體現出了Scaling Law。數據的規模與品質已經成為模型性能的決定因素,接下來理想汽車智慧駕駛系統會繼續擴大高品質數據的規模,以獲得更好的模型效果。”
在産品端的落地應用方面,基於雙系統的技術架構,理想汽車已經實現了車位到車位的全場景智慧駕駛出行體驗。能夠銜接高速、城市、園區內部道路,達到接近人類司機的駕駛智慧,覆蓋跨層地庫、園區閘機、交通博弈等複雜場景。
訓練數據與算力 技術創新落地的核心基礎
在大模型訓練層面,郎鹹朋表示:“雙系統等智慧駕駛技術及産品的創新落地,離不開兩個最核心的基礎設施,即訓練數據和訓練算力。”
當前,理想汽車智慧駕駛的訓練里程已達25億公里,預計今年年底將突破30億公里;訓練算力已達5.39EFlops,預計年底將達到8EFlops。
在不斷迭代研發智慧駕駛技術的同時,理想汽車也同樣十分重視安全。郎鹹朋表示:“模型安全的訓練和驗證非常關鍵,理想汽車的目標是讓智慧駕駛的安全里程達到人類的10倍,這會遠超絕大多數用戶一生的駕駛里程。”
關於未來規劃,郎鹹朋表示:“理想汽車的願景是在2030年成為全球領先的人工智能企業,而其中智慧駕駛會是最核心的方向之一。理想汽車希望通過智慧駕駛領域的技術創新與應用,助力推進智慧網聯汽車産業的持續發展,也共同加速和期待自動駕駛時代的到來。”(資料來源:理想汽車)
1、“國際在線”由中國國際廣播電臺主辦。經中國國際廣播電臺授權,國廣國際在線網絡(北京)有限公司獨家負責“國際在線”網站的市場經營。
2、凡本網註明“來源:國際在線”的所有信息內容,未經書面授權,任何單位及個人不得轉載、摘編、複製或利用其他方式使用。
3、“國際在線”自有版權信息(包括但不限于“國際在線專稿”、“國際在線消息”、“國際在線XX消息”“國際在線報道”“國際在線XX報道”等信息內容,但明確標注為第三方版權的內容除外)均由國廣國際在線網絡(北京)有限公司統一管理和銷售。
已取得國廣國際在線網絡(北京)有限公司使用授權的被授權人,應嚴格在授權範圍內使用,不得超範圍使用,使用時應註明“來源:國際在線”。違反上述聲明者,本網將追究其相關法律責任。
任何未與國廣國際在線網絡(北京)有限公司簽訂相關協議或未取得授權書的公司、媒體、網站和個人均無權銷售、使用“國際在線”網站的自有版權信息産品。否則,國廣國際在線網絡(北京)有限公司將採取法律手段維護合法權益,因此産生的損失及為此所花費的全部費用(包括但不限于律師費、訴訟費、差旅費、公證費等)全部由侵權方承擔。
4、凡本網註明“來源:XXX(非國際在線)”的作品,均轉載自其它媒體,轉載目的在於傳遞更多信息,豐富網絡文化,此類稿件並不代表本網贊同其觀點和對其真實性負責。
5、如因作品內容、版權和其他問題需要與本網聯繫的,請在該事由發生之日起30日內進行。