本当の意味で人々の生活を変えるロボットは、冷静さを失うことなく、現実世界のあらゆる状況に対応できなければいけない。これはGoogleが言語処理AIとロボットを組み合わせる上で支持している考え方です。
そんな理念の下、Google Researchとロボット開発会社Everyday Robotsは、“SayCan”と呼ばれる現実世界で基礎訓練を受けた言語モデルと、Googleが誇る5400億ものパラメータを持つAI自然言語処理(NLP)モデル“PaLM(Pathways Language Model)”を統合した“PaLM-SayCan”を発表した。
この“PaLM-SayCan”を搭載したロボットは、人間が何を言いたいのか、どう返答すべきなのかをAIが判断し、より人間らしい自然なやり取りができるという。
出典:Fei Xia YouTube
PaLM-SayCanは抽象的な命令を実行できる
公開された動画では、ロボットに「飲み物をこぼしてしまった。手伝ってもらえる?」とインプットすると、他言語モデルの対応は「掃除機を使ってください」や「ごめんなさい。こぼすつもりはなかった」と答えた。
しかし、PaLM-SayCanロボットはスポンジを持ってきて、空になった缶をゴミ箱に捨てることを選択した。さらに今後、トレーニングを積み重ねることで、ロボット自身がテーブルを拭くようになるという。
動画では他にも、「コーラをこぼしてしまったから、何か掃除するものを持ってきてくれない?」に対し、PaLM-SayCanはスポンジを見つけ、拾い、それを飲み物をこぼした人のところに持っていった。
このような抽象的な命令に対し、タスクの実行を可能にしたのが、PaLM-SayCanの組み合わせだという。
まず、PaLMが言語理解に基づいてタスクへの対処法を提案し、SayCanがロボットが実行可能な動作(アフォーダンス)を同じように提案。そして、この二つが組み合わさったPaLM-SayCanが、その二つの提案を相互的に参照し、ロボットにとって最も良く達成可能なアプローチを特定する。
これまでGoogleのオフィス内で様々な101のタスクを要求し、84%の確率で適切な判断を下し、74%の確率で正常にタスクを実行したという。
PaLM-SayCanというアプローチは、人がロボットとコミュニケーションを容易にするだけではなく、ロボット自身のパフォーマンスや計画性、実行能力も向上すると期待されています。
出典:Google Research YouTube
Google Research 公式サイト
Everyday Robots 公式サイト
ARTICLE