IT MAGAZINE

NVIDIA、より高精度な画像を生成できるAI「eDiffi」を発表

投稿日 2022年11月9日
thumbnail

 

アメリカの半導体メーカーNVIDIAは、世界中で話題になっている画像生成AI「Stable Diffusion」や「DALLE・E 2」よりも高精度で画像を生成することができるAI「eDiffi」を発表した。

テキストから画像を生成するeDiffiは、Stable DiffusionやDALL・E 2同様、「拡散モデル」という画像生成プロセスが使用されており、ノイズだけの画像からノイズを除去する過程を反復することで、より綺麗な画像を人工知能が生成するというものです。

しかし、従来の画像生成AIとは異なり、eDiffiが持つ特徴として挙げられたのが、ノイズ除去プロセスにおいて単一のノイズ除去モデル(デノイザー)でトレニーングされているのではなく、ノイズ除去の段階ごとに異なるデノイザーでトレーニングされているという点である。

これにより、従来の画像生成AIより高精度な画像を生成できるとNVIDIAは説明している。

 

テキストベースによるより高精度で美しい画像

動画で最初に紹介される三つの画像は、それぞれ「美しい樹々が並ぶ神秘的な森にあるポータルのとても精細なデジタルペイント。扉の正面には人が立っている」、「お化け屋敷で魔法使いの帽子を被った魔女のような猫のとても精細でズームされているデジタルペイント。アートステーション」、「美しい海の風景画像。海の中心には大きな岩があり、背景には山がある。太陽は沈みかかっている」という英語のテキストが入力された出力結果で、どれもテキストを忠実に再現したものとなっている。

また、動画内ではStable DiffusionやDALL・E 2との比較画像が紹介されており、「There are two Chinese teapots on a table. One pot has a painting of a dragon. While the other pot has a painting of a panda.(テーブルの上に中国のティーポットが二つあり、一方には龍の絵が、一方にはパンダの絵が描かれている)」と入力した場合、パンダの絵がしっかり描かれているものはeDiffiのみだった。

また「A photo of a dog wearing a blue shirt and a cat wearing a red shirt in a park, photorealistic dsir(公園にいる青いシャツを着た犬と赤いシャツを着た猫の写真、フォトリアリスティック、デジタル一眼レフカメラ」の場合でも、青いシャツを着た犬を再現できたのはeDiffiのみだったという。

 

eDiffiのさまざまな機能

eDiffiには通常のText-to-Imageの画像生成方法意外にも、テキストと簡単なペイントによる指示から、画像を生成する機能がある。

「バーにいる赤いボクシンググローブをつけたリスと青いボクシンググローブをつけたリス」というテキストと“リス”や“グローブ”のだいたいの位置を指示するペイントを組み合わせることで、左のような画像を生成することもできる。

他にも、参考のスタイル画像を指定し、「道を歩いている二匹のパンダ」とテキストによる指示を出すことで、左のような画像を生成することも可能。

 

 

eDiffiのプロジェクトの詳細に関しては以下のサイトから確認することができます。

eDiffi Project: https://deepimagination.cc/eDiffi/

NVIDIA Webサイト

ARTICLE

アイコン

AIの記事一覧