三年前,人形機器人還處于陽春白雪的科研階段,這兩年發展迅猛。那么,人形機器人當前面臨的問題是什么?突破的方向在哪里?未來的應用在哪里?前不久,在上海2025人形機器人產業高質量發展論壇上,地方共建人形機器人創新中心(簡稱“國地中心”)席科學家江磊介紹了他的看法,并提出與產業鏈共同打造出四位一體生態的觀點。
人形機器人在各大證券市場已經有了概念股,從2024年1月開始,還是平平淡淡的發展,為什么到了8月,整個二J市場被急速拉動?
先,一定是人形機器人行業找到了一個技術突破、可發力的對象。
第二,政策方面,今年一開年,要設立相應的重大項目,原因可能是我們想緩解勞動力缺口,以及應對未來人口老齡化的挑戰。
第三,從產品端看,人形機器人迎來了GPT時刻。此時尤其令我們自豪的是,在這個高科技領域的起步階段,我國登上了世界舞臺,已有一些有代表性的企業和樣機。
第四,從行業角度看,千行百業都在關注。據統計,現在已有100家左右的整機公司,預計到今年年底會有200多家,還有數千家的核心零部件廠家,這構成了一個大生態。汽車行業、手機行業、制造行業、互聯網、國央企都在投入。一個共性原因是:在一個行業處于發展的高峰期或瓶頸期,內卷就開始出現,因此這五大行業、企業都找到了發力點:人形機器人,認為是破解行業規律性周期性難題的一個主要動因。國外也是如此,今年年初,蘋果、三星、現代等開始設立人形機器人的硬件團隊。今年阿里也在張江模力社區(注:“國地中心”搭建)設立了智能機器人的硬件團隊。
在此,“通用化”會成為一個經濟活動的名詞。過去人們會把通用化做成技術,所以業界一直在爭論:是做專用機器人,還是做通用機器人?其實這種爭論沒有什么意義,因為技術都是為場景服務的。所謂的場景驅動就是有沒有市場,廠家的產品能不能找到市場、銷售出去。所以“通用化”更重要的是在一個新興市場,單品能否過10萬臺的門檻。今年人形機器人單品可能會過1萬臺的門檻,但更期待未來是百萬臺、百億臺的產業規模。目前10萬臺將是一個重要的門檻。另一個角度,如果做一個產品,單品要10萬臺,它可用在哪些場景呢?這值得我們去深入思考,再從“通用化”來考慮產品定義和設計如何去做。
有一個高價值飛輪的理論。三年前,人形機器人是個萬億元的潛在賽道,因此發布了政策來加速促進人形機器人的發展,使其對于公眾來說不再陌生,不經意間,在電視節目或某個商場的轉角就能看到人形機器人,它正在形成一個巨大的產品市場。因此,今年是完成高價值飛輪的重要一年。那么能否實現規模和量產?高價值飛輪的核心驅動力還是來自于顛覆性的技術。
為什么2024年8月人形機器人的二J市場會被急速拉升?因為顛覆性技術起到了決定性的作用。
工信部提出了兩大革命:“機器人+革命”與“人工智能+革命”,它們對應的都是新質生產力。“機器人+”是新質硬件生產力,“人工智能+”是新質軟件生產力。可見,新質生產力是軟硬一體化的典型代表。在這樣的一個產業、技術、行業、規模、政策里,其中的線索一定是技術驅動了這次技術革命。
先,其背后的邏輯,以π0團隊為代表,去年8月Physical Intelligence次發布了通用人形機器人的視覺-語言-動作模型(VLA)。現在VLA已經成為一個事實標準。如果回到去年8月之前,相信90%的專家會認為機器人的操作還不屬于預訓練(注:語言/ChatGPT是大模型,是預訓練),我們雙手的操作不是預訓練,但是,從8月開始,π0團隊發現它也是一個大規模預訓練架構。大算力大模型也是大力出奇跡的一個行業,并被證明這種方式是可以的。
實際上,不僅π0發現,國內外同時十二個團隊用10萬的數據集、30萬的數據集、現在用80萬的數據集激勵了以后,整個任務達成率也是直線上升。
我們堅信規模法則與后訓練將會促進這一次人形機器人Z終的一個閉環。
當然還有一部分—智駕,例如,特斯拉的FSD V12幫助印證,現在也轉向VLA。而之前做汽車的人是做端側,發現VLA也很好用。
人們如果了解VLA的誕生,其完全不是為汽車設計的,是為谷歌的一款類人形機器人的構型設計,結果沒想到VLA也撐起了智駕的半邊天。
當然,還是要回到人形機器人,僅有VLA夠不夠?
去年Figure聯合OpenAI造出了Figure 01,可以看到大模型是在人形機器人的Z上層,是采用大腦、小腦+肢體的分層類人架構來實現的。去年我國在“世界人工智能大會(WAIC)”上也推出了我國自己的大腦、小腦、驅動架構,今年正進一步完善。
人形機器人有沒有一個通用的完全端到端的大模型?現在VLA解決了上層的,下層有一個控制模型是屬于分層架構,但能不能用一個分層實現完全端到端?有一篇論文支持了這樣的觀點。因此,三年前,語言進入了大模型(例如ChatGPT),去年雙手操作進入大模型(例如VLA),現在的問題是:下肢行走以及全身運動是不是一個大模型?堅信將來會有一個大模型,能夠讓人形機器人、四足機器人以及汽車來實現統一的駕駛。
人形機器人行業目前有四類:
汽車智駕的具身模型;
機器人上肢操作/VLA;
人形分層策略;
芯片/GPU。
整個具身智能產業正在爆發,所有路徑都需要大數據,所以在去年“國地中心”組建了訓練場來推動這件事。
“國地中心”的麒麟具身智能訓練場有五項功能,除了收集數據,訓練場的另外一個作用是對現在的大模型進行檢測與評定,提出大模型的benchmark,例如,做一個什么樣的大模型更適合人形機器人?現在需要一個行業的基準線。
目前人形機器人在跑得快、拿得準、訓得好、通用化方面都有代表性公司。Z近業界在爭論:是不是機器人都需要走跑跳?是不是應該進廠打工?實際上,目前有四類人在研究,跑得快的人不做抓取,做抓取的不做跑得快,做訓練的人大多數都是人工智能的人,做“通用化”的人是做基礎設施的。高動態的硬件平臺、準確抓取的具身智能、訓練的實訓場、通用泛化的數據集—這四件事,哪怕有一件事做不好,人形機器人的軟硬件的終極難題就落不了地,所以我們需要要發展生態。
回到發展的起點:人形機器人未來一定是進廠打工以及為我們養老。例如養老,還有八
項卡脖子技術沒有打通。人們面對未來的通用化,一定不是針對八個問題建立八個模型,甚至建立幾百個模型來解決,人們希望構造一個完全端到端的模型,來同時解決八項卡脖子技術,這樣才能實現Z終通用化的夢想。
江磊老師有個激進的預測:做硬件平臺的得去做小的機器人,這樣迭代的速度更快。做具身智能現在很火,但是千萬不要只做操作,行走大模型已成為今年國際競爭的熱點。“國地中心”等做實訓場的人一定要去做自己的世界模型,以及做數據集的人要用開源的方式來完成整個生態的構建。
人形機器人從當前的角度來看,四位一體的生態還沒有完全建立。“國地中心”希望跟業界共同打造出我國的四位一體生態。
今年人形機器人是可以量產的,但真正的大規模的應用還沒到來。我們加速建立四位一體的生態,才能加速人形機器人產業的到來。
![]() |
機器人底盤 Disinfection Robot 消毒機器人 講解機器人 迎賓機器人 移動機器人底盤 商用機器人 智能垃圾站 智能服務機器人 大屏機器人 霧化消毒機器人 展廳機器人 服務機器人底盤 核酸采樣機器人 智能配送機器人 導覽機器人 |