數據短缺具身智慧遭遇“成長的煩惱”-國際在線

數據短缺具身智慧遭遇“成長的煩惱”

2026-05-14 09:49:46來源：科技日報責編：楊蕓菲

　　讓機器人開一顆核桃，它像磕雞蛋一樣把核桃砸向桌面；從冰箱裏拿瓶礦泉水，機器人耗時10分鐘才完成；讓機器人疊衣服，它煞有介事不斷瞄準、糾偏，最後還是揉成一團……

　　在成為“舞蹈演員”和“長跑健將”之後，機器人被要求做更多“務實”工作，卻帶來了很多令人哭笑不得的翻車場景。

　　“機器人要做到實用，必須面對豐富的物理世界，這需要大量的具身智慧數據來學習訓練。”復旦大學長聘特聘教授、飛捷科思智慧科技（上海）有限公司創始人張立華告訴科技日報記者，“據不完全統計，全球範圍內研發端對高品質數據的需求量約為120萬小時，而全行業每月數據産出量僅為25萬—30萬小時。高品質具身智慧數據稀缺已成為具身智慧機器人發展的關鍵瓶頸之一。”

　　2026年被業界稱為具身智慧數據元年，具身智慧機器人行業從演算法驅動轉向數據驅動，高品質數據正成為行業競逐的基礎性戰略資源。

　　現有數據嚴重不足

　　近年來，人工智能大語言模型靠互聯網上的海量文本數據學會了生成語言，發展突飛猛進。基於同樣的邏輯，具身智慧機器人需要依靠海量的人類動作數據，才能學會在真實世界裏幹活。

　　“用手撿起幹木耳”這個對人來説輕而易舉的動作，機器人需要調動物體材質辨識、空間姿態匹配等多個技能。“臺上一分鐘”穩定可靠的執行，需要台下億萬真實、高品質的人類動作數據作為支撐。

　　然而，機器人不像孩子一樣“有樣學樣”。它們的學習數據集裏，需要位置的坐標、力矩的量化、觸覺反饋的標注等。因此，互聯網上海量的文本、視頻因缺乏動作數據並不能直接“喂”給機器人。

　　“大語言模型使用的文本數據或影音數據，本質上都是‘觀察者視角’的靜態數據，但具身智慧需要‘交互者視角’的數據。一個符合要求的抓取動作數據，不僅要包含視覺信息，還應包含實時的力反饋、觸覺感知以及電機扭矩的連續變化。”張立華向科技日報記者介紹説，目前互聯網上幾乎不存在現成的、能夠直接映射到機器人感知與控制鏈路上的“多模態指令—動作”數據集，“我們面臨的不是數據的優化，而是從零開始的原始積累”。

　　“完成一個高品質模型的訓練，至少需要一千萬小時量級的數據。”京東雲産品經理蔡晨表示，當前市場上成熟的具身智慧數據集只有幾十萬小時，遠遠不能支撐行業訓練出高品質、通用的具身大模型。

　　在大語言模型領域，Token（詞元）是通用的；但在具身智慧領域，數據具有極強的硬體依賴性。由於機器人構型的限制，數據難以在不同機器人之間復用，這種“交流”困境，使得目前採集的數據極其碎片化，難以形成規模效應。

　　“舉個例子，同樣是機器人，身高1.2米和1.8米體態差異顯著，即便抓取同等高度的物體，機械臂的運動行程也完全不同，因此1.2米機器人的有效數據很難直接遷移到1.8米機型上。”蔡晨告訴科技日報記者，無法讓一份數據發揮十份的效能，也是具身智慧數據短缺的一個重要因素。

　　與此同時，機器人模型的飛速發展亦使得數據短缺愈發明顯。

　　具身智慧機器人通常被劃分為“大腦”“小腦”與“本體”三個核心組成部分，機器人“大腦”的核心是具身智慧大模型。機器人處理的任務越複雜精細，具身智慧大模型的結構就越複雜、參數規模也越大。模型參數好比機器人的知識記憶單元，參數數量越多，機器人的學習能力和智慧程度就越高。

　　“現在機器人的模型參數規模已從幾百萬提升到幾億量級，數據短板問題日漸突出。”上海新時達電氣股份有限公司具身智慧高級研究員叢正告訴科技日報記者，以前幾百萬參數的模型，拿較少的數據就能訓練達標。現在幾億參數的複雜模型，需要極大的數據量才能保障模型訓練達標、實操穩定。

　　存在“不可能三角”

　　一隻黑色的機械手穩穩夾住奶瓶，採集員操作另一隻機械手舀入適量奶粉，不遠處一個假娃娃正嗷嗷待哺……這不是沉浸式劇本館裏的角色扮演，而是北京人形機器人創新中心數據基地中，工作人員正在進行的數據採集工作。

　　“數據基地是機器人的‘知識生産者’。我們採用真機遙操作方式，按照採集、清洗、脫敏、檢查、標注、質檢等系列規範流程生産高品質數據。”北京人形機器人創新中心數據運營負責人孔超告訴科技日報記者，該基地日産能達600小時，已積累4萬小時高品質具身智慧數據，合格率穩定在95%以上。

　　目前，相較于通過爬蟲程式大規模獲取的互聯網文本，高品質具身數據的獲取手段極其繁瑣且成本高昂。

　　中國科學院自動化研究所副研究員、北京中科慧靈機器人技術有限公司具身操作中心負責人周明才告訴科技日報記者，不同於大語言模型處理離散的Token，具身智慧機器人需要連續的關節力矩、末端位姿和觸覺反饋，這種毫秒級的精細操作數據依賴高精度的物理交互獲得，因此採集門檻極高。

　　當前，具身智慧數據的採集方式主要包括四類：真機遙操作、動作捕捉採集、人類行為視頻和倣真合成數據。

　　真機遙操作，即人佩戴外骨骼設備或操控機器人進行“手把手”教學。這種方式物理交互強、數據品質高，但成本高、效率低，且會受到機器人本體和場景的限制。

　　除了“手把手”教學，也可以在人身上穿戴很多感測器，進行動作捕捉採集。這種採集方式在成本上低於真機遙操作，便於規模化採集，但因為人體和機器人構型存在差異，需要進行人機動作重定向處理。

　　人類行為視頻，是在人們幹活時拍攝視頻，解析每個動作在空間的具體位置，供機器人學習。這種方式採集成本低、規模大，但缺乏位姿、觸覺、力矩等精確標注，機器人難以學會精細動作。

　　出於成本考量，倣真合成數據也是當前具身智慧數據的一大類別。倣真合成數據有點像打電子遊戲，在一個虛擬環境裏完成各種動作。這種採集方式可控可擴展，可覆蓋各種危險場景，但存在倣真與現實的真實性鴻溝。“由於物理引擎很難100%還原真實世界的物體形變、摩擦力及細微物理特性，倣真數據往往存在偏差，直接遷移到機器人上時會出現‘水土不服’。”周明才坦言。

　　在孔超看來，當前具身智慧數據存在一個“不可能三角”，即高品質、大規模、低成本三大要素無法同時兼得。

　　張立華對此表示認同：“‘不可能三角’確實是當前行業的核心矛盾。真機遙操作數據品質高，但面對需要數億級樣本才能實現泛化的大模型，一對一的採集方式無異於杯水車薪。普通視頻、低保真倣真或粗標注數據等低成本數據，規模容易做大，但往往缺乏物理屬性、動作可執行性和可遷移性，直接用於訓練很容易造成模型‘看起來會、做起來不穩’。”

　　具身智慧的數據稀缺，不是單純的“量少”，而是能夠支撐複雜物理推演的高品質、多模態、可對齊的數據極度匱乏。“這種短缺本質上是技術演進的必然階段，誰能率先在數據自動化採集、異構數據歸一化以及Sim-to-Real（倣真到真實）的高效遷移上取得突破，誰就將掌握下半場競爭的主動權。”張立華説。

　　多元數據融合互補

　　在江蘇宿遷，京東機器人數據採集中心正源源不斷地接收和分析來自快遞分揀員、超市理貨員的工作視頻數據。“他們戴在頭上的第一視角採集終端，可以精準標注手指的位置、彎曲度等信息。”蔡晨介紹，京東計劃2年內完成1000萬小時的視頻數據採集，包括物流、零售、家庭等多場景。

　　隨著硬體成本的下探和人形機器人進入小規模試産，業界越來越意識到，單純靠堆人力去“教”機器人是不可持續的，行業共識正在從“單點採集”走向“多源融合”。

　　京東雲通過數據的全鏈路處理，能夠“一站式”實現人類行為視頻、倣真合成與真機操作三類數據的價值轉化與泛化擴增，從而整體提升訓練效率。據蔡晨介紹，終端採集到的人類行為視頻數據匯入AI數據湖平臺後，依託PB級處理能力可自動完成清洗、對齊、轉換及預標注，成為高品質訓練數據的重要組成部分；構建倣真模型，批量生成高逼真度的倣真合成數據；同時，操控機器人完成任務獲取的真機操作數據，也會回流至平臺。

　　隨著模型能力和視頻識別提取能力的增強，第一視角的人類行為視頻數據被大量用於機器人預訓練。

　　“用大量視頻可以訓練機器人跳舞演出，但要實現工廠裏的實際操作，還是會用真機遙操作的真實數據。因為機器人的手在空間中的真實位置和精細動作，用視頻是訓練不出來的。”叢正進一步解釋道，比如擰螺絲，是一個相對精細的動作。不是每個螺絲都能正對著螺絲孔，可能會偏左或偏右，人擰的時候會知道傾斜一點用力，但讓機器人完成這件事就需要用大量的真機遙操作數據去訓練。這就是機器人的泛化能力。

　　“目前行業主流採用的是混合訓練策略。企業不再單一依賴某一種數據源，而是將多種來源的數據按特定比例融合。這種組合既保證了動作的精準度，又兼顧了場景的泛化能力，是目前破解數據難題的最有效手段。”周明才説。

　　張立華也表示，單一技術路線很難同時滿足規模、成本、精度和泛化要求，行業正在形成“人類視頻注入通用物理常識、倣真合成覆蓋長尾邊界、輕量化採集擴充真實交互、高精度遙操作適配垂直場景微調”的融合路徑。

　　孔超給記者舉了個例子。“小孩有一定認知能力開始學東西時，你不用教得很具體，給他看大量東西，他自己也能慢慢認識不少。然後，再進行一些具體的糾偏，他就能做得很好。”

　　對於具身智慧機器人企業而言，多元數據融合互補確實是當前最有效的路徑。業內不少企業都採用從海量視頻數據到高價值真機遙操作數據的遞進式訓練路徑，先用低成本、大規模的視頻數據打底，讓機器人了解要幹什麼，再用高保真倣真模型生成大量可控數據，幫助機器人熟悉各種場景、泛化拓展，最後用高價值、小體量的真機遙操作數據進行糾偏和校準，讓機器人完成精細動作。這樣，高成本的真機遙操作數據無需承擔全部訓練任務，而是成為驗證模型能力、修正偏差的關鍵錨點。

　　亟待統一標準規範流程

　　由於具身智慧産業的發展高度依賴數據驅動，近年來，數據採集賽道吸引一眾企業競相入場、各顯神通：有的研發升級採集設備，有的持續迭代物理倣真模型，還有的加大重資産投入，佈局多構型真機遙操作採集……

　　高品質數據從來不是簡單採集就可以形成的，而是需要一整套規範的流程作為保障。科技日報記者走訪的多個企業都構建了自有的數據採集體系，然而不同企業和機構的數據存儲格式、元數據形態、標注顆粒度都有差異，企業間的數據流通幾乎成為奢望，一座座“數據孤島”由此形成。在各自為戰的模式下，大量資源被重復投入到相似的數據採集與技術研發中，造成嚴重浪費。

　　“當前行業最緊迫的需求不是單純增加採集設備或者增加倣真場景，而是建立一套貫穿‘採集、生成、標注、清洗、訓練、評測、反饋’各環節的行業通用數據標準。”張立華表示，統一具身智慧數據標準的難點在於，它不是靜態數據，必須與任務、機器人本體、物理環境和模型能力緊密耦合。沒有統一的數據格式、物理屬性標簽、任務定義和品質評價標準，不同企業之間的數據很難流通共享。

　　機器人技術路線的分散是另一大障礙。不同構型的機器人在自由度、連桿長度、感測器分佈和減速器的精度上各不相同，導致採集的數據很難遷移利用。

　　僅北京人形機器人創新中心數據基地，就採購了7個品牌120台不同構型的機器人開展真機遙操作數據採集，只為適配不同機器人企業的不同數據要求。

　　“跨本體的數據如何復用，也是個問題。”孔超進一步解釋道，現在機器人種類繁多，本體形態差異顯著，結構設計也多種多樣，比如靈巧手設計從兩指到五指不等。為一種機器人採集的數據，難以用於別的機器人，採集的數據難以共享不利於行業發展。“這不是數據採集行業的問題，而是機器人行業百花齊放的結果。如果要提高具身智慧數據的流通性，機器人本身的構型標準也要相對統一。”

　　除了統一數據標準之外，張立華認為還需要提高具身數據的高保真物理表達能力。“機器人最終要在真實世界工作，數據必須反映真實世界的接觸、力學、材質和因果關係。此外，數據評測也很重要，行業不能只看數據規模，而要看數據是否真正提升了模型在真實任務中的成功率、穩健性和安全性。”