画像生成AIがSNSなどでトレンド入りする中、Googleの研究チームGoogle Researchは現地時間10月5日、自然言語から動画を生成するAIシステム「Imagen Video」をサンプルとともに公開した。
Imagen Videoの特設サイトでは、「A Panda is driving a car(車を運転するパンダ)」や「A bunch of autumn leaves falling on a calm lake to form the text ‘Imagen Video’(静かな湖に落ちた紅葉の葉束が“Imagen Video”の文字を象る)」といった短い文章から生成されたサンプル映像が公開されている。
Imagen Videoは、Googleが5月に発表した文章から画像を生成する「Imagen」に基づいたもので、その詳細についてのリサーチペーパー(英語)も公開されている。
そのリサーチペーパーによると、動画生成の大まかな流れは、まず入力された文章を自然言語処理AI「T5」で処理し、拡散モデルで24×48ピクセル、毎秒3フレームの16フレームの映像を生成する。
そして、これを「時間的超解像度(Temporal Super-Resolution)」と「空間的超解像(Spatial Super-Resolution)」というモデルでアップサンプリングして、最終的に1280×768ピクセル、毎秒24フレームで128フレーム(約5.3秒)の映像を生成するという。
また「Imagen Video」の大きな特徴として、紅葉で“Imagen Video”を象るような、テキストをそのスタイルでレンダリングすることができる点が挙げられている。さらに著名な芸術家の作風を反映させたり、映像内に3Dモデルを登場させることもできる。
しかし、Googleが披露した今回のサンプルにはまだ不自然な部分が多いと指摘されており、今後どのようにAIが進化を遂げるかが注目されています。
また、GoogleはImagenと同様に、露骨で暴力的なコンテンツが生成される懸念が軽減されるまでは、Imagen Videoのモデルおよびソースコードは公開しないとしている。
Imagen Video Webサイト
ARTICLE