「洗濯物を畳んでくれないかな」「食器洗いを任せられたら」、私たちの多くがそんな願いを持っているのではないでしょうか。
2024年の今、その夢が現実に近づいています。
現状の家庭用ロボット
これらが「特定の作業」しかできない理由は、ロボットの学習方法に大きな課題があったからです。
1. 膨大なコスト
2. 環境への適応力不足
MITが開発したHPT(Heterogeneous Pretrained Transformers)は、人間の学習方法に近い画期的な技術です。
出典:A faster, better way to train general-purpose robots
上記の問題を解決するため、HPTはGPTなどのLLMからヒントを得て少量のデータから事前学習し、適応性が高く低コストの新しい学習アーキテクチャを開発しました。
HPTの革新的な点は、カメラ映像、言語による指示、深度マップ、センサーからの位置情報など、異なる種類のデータをすべて同じ「言語」(トークン)に変換できることです。このシステムは、大規模言語モデル(GPT等)と同じトランスフォーマーの仕組みを採用し、視覚情報と自己受容性情報を統合的に処理します。
HPTの学習は大きく二段階に分かれています。まず事前学習段階では、52種類のデータセットと20万以上のロボット動作データを使用します。これにはシミュレーション、実機、人間のデモ映像が含まれます。
次に実際の使用段階では、ロボットの設計情報、セットアップ情報、実行したいタスクの情報という少量のデータを入力するだけで、事前学習で得た知識を活用できます。
HPTの特筆すべき点は、すべての入力を同じ数のトークンで表現し、視覚情報と自己受容性情報に同等の重要性を持たせていることです。この手法により、従来の方法と比べて20%以上の性能向上を達成し、必要なタスクごとの学習データ量を大幅に削減することに成功しました。さらに、未知の環境やタスクへの適応能力も著しく向上しています。
家庭内での活用
産業での活用
1. 労働市場の変化
2. 生活様式の変革
HPTは異なる種類のデータを効率的に統合し、ロボットの学習を革新的に改善する手法として注目を集めています。特に、事前学習したモデルを様々なタスクに転用できる点は、ロボット工学における大きなブレークスルーとなる可能性を秘めています。
今後、この技術の発展により、より柔軟で適応力の高いロボットシステムの実現が期待されます。まだ完璧な家事ロボットの実現までには時間がかかりますが、確実にその未来は近づいています。