NVIDIAは、世界的に人気を誇るサンドボックスゲーム『Minecraft』で、プロンプトからアクションを実行できるNVIDIAのAGI(Artificial General Intelligence: 汎用人工知能)エージェント「MineDojo」についての論文がNeurIPS 2022の「Outstanding Datasets and Benchmarks Papers」を受賞したことを発表した。
MineDojoは、Minecraftをプレイするために構築された人工知能フレームワークで、730,000本ものYouTube動画やMiecraft wikiからスクレイピングされた7,000のWebページ、Minecraftに関する340,000のReddit投稿、660,000のコメントなど、膨大なデータを学習させている。
また膨大なデータを学習する際、動画とテキストの関連性を学習するためのカスタム変換モデル「MineCLIP」が開発され、これはAIが人の助けを借りずに、YouTubeの動画からMinecraftの概念や動作を学習することができるもの。
例えば、「羊毛を入手するために羊の毛を刈って」と指示を出した場合、羊に近づくとAIエージェントに高いスコアを与え、エージェントがあてもなくさまよう場合は低いスコアを与えることで、動画とテキストの関連性を学ばせている。
そうして膨大なデータを学習させたMineDojoエージェントに「羊の毛を刈って」「ゾンビピッグマンと戦って」「ネザーポータルを見つけて」「床にカーペットを敷いて」といった自然言語による指示を出すことで、ゲーム上で指示通りの動作を行うことが可能になっている。
現段階でもプレイヤーが実際にするような何千というタスクやアクションをMineDojoエージェントは実行できるとしており、今後は音声認識技術を導入することで、近い将来、MineDojoエージェントと一緒にマルチプレイを楽し無事が可能になるという。
MineDojoは公式サイトで動作例をチェックすることができます。また、MineDojoとMineCLIPのコードはGitHubで公開されています。
MineDojo Webサイト
NVIDIA NVIDIA Wins NeurIPS Awards for Research on Generative AI, Generalist AI Agents
Announcing the NeurIPS 2022 Awards
OpenReview.net MineDojo: Building Open-Ended Embodied Agents with Internet-Scale Knowledge
ARTICLE