フィジカルAIを実機でどう評価するか DEXMALのRoboChallengeが目指すもの
2026年06月03日

高須 正和: 株式会社スイッチサイエンス Global Business Development/ニコ技深圳コミュニティ発起人
略歴
コミュニティ運営、事業開発、リサーチャーの3分野で活動している。中国最大のオープンソースアライアンス「開源社」唯一の国際メンバー。『ニコ技深センコミュニティ』『分解のススメ』などの発起人。MakerFaire 深セン(中国)、MakerFaire シンガポールなどの運営に携わる。現在、Maker向けツールの開発/販売をしている株式会社スイッチサイエンスや、深圳市大公坊创客基地iMakerbase,MakerNet深圳等で事業開発を行っている。著書に『プロトタイプシティ』(角川書店)『メイカーズのエコシステム』(インプレスR&D)、訳書に『ハードウェアハッカー』(技術評論社)など
medium.com/@tks/takasu-profile-c50feee078ac
2026年4月21日、北京でDEXMAL(原力霊機)のEmily Chen氏に会い、同社がHugging Faceなどと進めるオープンなフィジカルAIのプラットフォーム、RoboChallengeについて話を聞いた。
RoboChallengeの内容紹介
RoboChallengeは、エンボディドAI、あるいはフィジカルAIと呼ばれる分野において、実機ロボットを使ってAIモデルの性能を評価するためのプラットフォームである。DEXMAL側の資料(リンク)では、「Large Scale Real-Robot Evaluation for Embodied AI」と説明されている。従来のVLA(Vision-Language-Action)評価はシミュレーション中心で、実世界でのテスト機会は限られていた。RoboChallengeは、そこに実機評価を持ち込もうとしている。すでに公開されていて、誰でも試すことができる。(リンク)
RoboChallengeの公式サイト。ソフトウェアとデータ、そして検証結果が一体になったプラットフォームとなっている。(スクリーンショット)
現在の中心は「Table30」と呼ばれる30種類の卓上操作タスクである。これはDEXMALやRoboChallengeに閉じない一般的なものだ。ARX-5、ALOHA、Franka Panda、UR5など複数のロボット本体を対象に、物体をつかむ、ボウルを積む、靴をラックに置く、スイッチを押すといったタスクを実機で評価する。参加者は自分たちのGPU環境でモデルを訓練し、APIを通じてRoboChallenge側の実機評価環境に接続する。ロボット側にはカメラ、アクションキュー、観測バッファ、アクションバッファがあり、参加モデルが観測を受け取り、行動を返す構造になっている。
Emily氏の説明で印象的だったのは、RoboChallengeが単なるランキング表ではなく、タスク、ハードウェア、評価ログ、コミュニティ運営を含めた「共通基盤」を目指している点だ。評価結果はリーダーボードとして公開され、成功率だけでなく、部分的にどこまで進んだかを示すプロセススコアも扱う。資料には累積ロールアウト4万1969回、1日あたりピーク181ロールアウト、Table30データセットダウンロード1万7000件という数字も示されている。
ロボットAIは、動画ではすでに何でもできるように見える。しかし、実際に物をつかませ、置かせ、複数手順の作業をさせると、まだ成功率は高くない。RoboChallengeの資料では、トップモデルの成功率はおおむね60%程度で、VLAモデルはまだ非常に初期段階にあると整理されている。これは悲観的な数字ではなく、むしろ重要な出発点である。現実にどこまででき、どこで失敗するのかを共有しない限り、フィジカルAIの進歩は測れないからだ。
RoboChallengeを支える企業・大学・コミュニティ
RoboChallengeはDEXMALが中心となって進めているが、単一企業の自社評価システムとして作られているわけではない。米Hugging Faceをはじめ、智源研究院、智元機器人、Qwen、清華大学、西安交通大学、GOSIMなど、企業・大学・研究機関・オープンソースコミュニティが関わる形で組織委員会が構成されている。DEXMALの会社紹介資料でも、2025年11月にこれらのパートナーとRoboChallenge組織委員会を設立したことが示されている。
この構成が重要なのは、フィジカルAIの評価が、一社だけで完結しにくいからだ。ロボットAIの性能は、モデルだけでなく、使うロボット本体、タスク設定、初期条件、センサー、評価方法、人の介入範囲によって大きく変わる。したがって、評価基盤には、モデル開発者、ロボットメーカー、大学研究室、実機を保守するラボ、データセットやツールを公開するオープンソースコミュニティが同時に関わる必要がある。
RoboChallengeは、こうした関係者を同じ評価軸の上に乗せようとしている。DEXMALが提供しているのは、単にロボットを動かす場所ではなく、タスクを定義し、実機で試し、結果を記録し、リーダーボードとして公開し、次の研究開発に戻すための仕組みである。特定企業のデモ動画ではなく、複数の企業・大学が同じ条件で比較できる場を作ることに、この取り組みの意義がある。
フィジカルAIの現状とコンテストの意義
フィジカルAIは現在、期待と現実の差が非常に大きい分野である。SNS上では、ロボットが洗濯物をたたき、料理をし、棚から商品を取ってくるような動画が大量に流れている。一方で、実際に現場で動かすと、照明、物体の位置、摩擦、柔らかさ、失敗時の復帰、長い手順の記憶など、無数の問題が出てくる。
RoboChallengeの分析でも、硬い物体の単純な操作はかなり進んでいる一方、柔らかい物体や長期タスクはまだ難しいとされている。たとえばSimple-pickは85%、Manipulationは68.3%の成功率が示される一方、Softbodyは13.3%で最も難しい領域と整理されている。Emily氏との会話でも、ネックレスやハンカチのような柔軟物、コーヒー作りやサンドイッチ作りのような10ステップ前後の長期タスク、水を注ぐような連続動作が、現在のギャップとして挙がった。
このギャップを測るためにコンテストが必要になる。ロボットの世界では、同じ「できた」という言葉でも、意味が大きく違う。1回だけ成功したのか、10回中8回成功したのか。人が途中で直したのか。初期位置が固定されていたのか。別のロボット本体でも動くのか。RoboChallengeは、こうした条件をそろえて評価しようとしている。
Emily氏は、現在のRoboChallengeには清華大学、西安交通大学、研究機関、トップロボット企業などが関わっており、ワーキンググループとしてベンチマーク・タスク設計、ハードウェア寄付・メンテナンス、プラットフォーム開発、コミュニティエンゲージメントがあると説明していた。資料にも、Steering Committeeの下に複数のWorking Groupsがあり、Benchmark & Task Design、Lab Maintenance、Platform Development、Community Engagementが置かれている。
これは、北京ロボットハーフマラソンが歩行技術を公開実験化していたのと似ている。RoboChallengeは、ロボットの操作能力、認識能力、長期タスク能力を公開実験化している。しかもそれを、大学や企業が同じ評価軸で競える形にしているところに価値がある。
実際の学会、オープンソースとの連動の意義
RoboChallengeが面白いのは、単なる自社評価や宣伝イベントではなく、CVPRやICRAといったトップ学会、Hugging Face、GitHub、オープンソースコミュニティと連動している点である。RoboChallenge Annual Reportでは、2026年4月15日から5月15日までCVPR Track、5月8日から5月25日までICRA Trackが行われた。CVPRではTable30 v2として18の新しい双腕タスクを扱い、ICRAではAGIBOT Trackとして実際のスーパーマーケットシーンを扱う。
検証可能性を、学会とのコラボレーションでよりアピールしている。(スクリーンショット)
CVPR Trackには120以上のチームが関心を示し、96チームが登録、参加者は400人以上、大学68、企業28という数字も示されている。ICRA Trackでは50以上のチームが参加し、実際の小売棚、商品取得、人間のいる環境を含む「Real Supermarket」を扱う。これは、研究室内のテーブルトップ操作から、実際の商業環境に近い評価へ進もうとしていることを示している。
オープンソースコミュニティ開源社、学会、DEXMALスタートアップの融合
今回の訪問で筆者が特に面白いと感じたのは、DEXMALのRoboChallengeが、中国のオープンソース文化、ロボット競技文化、そして日本・中国・韓国にまたがる技術者コミュニティの接点にあることだった。
筆者は中国最大のオープンソースアライアンスである開源社(KaiYuanShe)に長く関わってきた。KaiYuanSheは、企業の宣伝団体ではなく、オープンソースに関わる開発者、研究者、企業人が自発的に参加するコミュニティである。中国では、オープンソースは単にコードを公開するだけではなく、教育、標準化、人材育成、産業化を同時に進める場になっている。
今回Emily氏を訪問するきっかけになったのも、彼女が開源社の代表理事である関係からだ。日中韓にまたがるオープンソースとコミュニティの基盤が、今後のロボット開発協力の土台になるという話になった。日本側では、ScrambleのようにRoboMasterの影響を受けながら、チームビルディング、メカニクス、AIを組み合わせたロボット競技を育てようとしている。中国側では、RoboChallengeが実機評価、リーダーボード、学会連動、オープンソースツールを組み合わせ、フィジカルAIの共通基盤を作ろうとしている。
この2つは、方向性がよく似ている。ロボットを「完成品」として見るのではなく、競技、評価、教育、コミュニティを通じて、作りながら学ぶ。成功だけでなく失敗を共有し、若い参加者や企業、研究者が同じ土俵で比較できるようにする。これは、中国のRoboMasterやROBOTACにも通じる文化であり、RoboChallengeはそのフィジカルAI版と言える。
もちろん、RoboChallenge自体もまだ始まったばかりである。評価タスクは増やす必要があるし、実機評価にはコストがかかる。ソフトボディ、長期タスク、異なる本体間の汎化、家庭や物流などの実環境への展開には、まだ大きな課題がある。DEXMAL自身も、すぐに利益が出る短期ビジネスというより、10年単位でフィジカルAIの基盤を作る戦略を語っていた。
だが、その「まだ完成していない」段階を、オープンにし、競技にし、学会やコミュニティと接続していることに大きな意味がある。フィジカルAIは、動画デモだけでは進歩しない。実機で測り、失敗を記録し、条件をそろえて比較し、世界中の研究者や開発者が参加できる形にする必要がある。
DEXMALの仕掛けるRoboChallengeは、ロボットAIの能力を誇示するためのイベントではなく、現時点で何ができて、何ができないかを共有するための装置である。そこにHugging Face、CVPR、ICRA、中国の大学や企業、KaiYuanSheのようなオープンソース文化、日本のロボット競技コミュニティが接続し始めている。これは、フィジカルAIの発展にとって非常に健全な方向だと感じた。
