スキップしてメイン コンテンツに移動

GoogleのAI画像生成「Imagen 3」がGeminiで

無料版でも作れるんだ。

XenoSpectrum にGoogleのAI画像生成「Imagen 3」がGeminiで利用可能に、無料版にも対応という記事が。

StableDiffusion とかでプロンプトを渡して画像生成するものは有りましたが、
テキスト生成系 AI で画像生成が出来るようになるとは。

Googleは、同社の最新AI画像生成モデル「Imagen 3」をGeminiアプリの全ユーザーに提供開始したことを発表した。この展開により、Gemini Advancedの有料ユーザーだけでなく、無料版のユーザーも高品質な画像生成機能を利用できるようになった。
これね、最初は英語でプロンプトを記述?って思ってましたが、
日本語で自然語で何の問題もないですね。

プロンプトは「海岸の砂浜、波打ち際近くまでラジコンの飛行機が近づいてきている画像を生成してください。」
と日本語記述。
Imagen 3 が画像を生成して、表示されたのがコレ。

10 秒程度でこのレベルを生成して来るってスゴイのですが。
しかもコレ、画像のダウンロードを選択すると、2048x2048 の解像度の画像がダウンロードされるんですよね。
無料で良いのか?って思ってしまいます。

Imagen 3の使用方法も直感的で、ユーザーは「描画」「生成」「作成」などのキーワードでプロンプトを開始し、希望するスタイル(例:フォトリアリスティックな水彩画やカートゥーンイラストなど)を指定することで、目的の画像を生成できる。
他にも試してみましたが、人間が生成されるプロンプトは受け付けてくれないですが、
それ以外ならかなり細かい指定をしてもそれに見合った画像を生成してくれますね。

最も顕著な違いは、人物を含む画像の生成機能である。現在、無料ユーザーは人物を含む画像を生成することができない。一方、Gemini Advanced、Business、およびEnterprise版のユーザーは、2024年5月から英語での人物画像生成機能を早期アクセスとして利用できるようになっている。
まさにですね。
犬猫のペット画像を生成は問題なく出来ますが、そこに一緒に散歩している人を含めようとしたら作成出来なくなるので、
この辺りは無料・有料の差別化ですね。

生成された画像にはSynthIDによるウォーターマークが施されている。これは、AIによって生成された画像であることを示すための措置であり、画像の出所を明確にするとともに、潜在的な悪用を防ぐ目的がある。
取得された、2048x2048 の画像にはウォーターマークは見当たらないので、
ファイル中の深部に ID 番号が記録されているって事ですかね。
まぁ、お手軽生成でこのレベルで画像が作られるので、
細かいプロンプト指定で生成画像との区別が付かない時にはこのウォーターマークが手がかりになりますね。

それにしても昨年の ChatGPT で、スゴイ!!て言ってた頃からまだ 1 年ちょっとしか経ってないのに、
こんな事が普通になるなんて、この界隈進化がエゲツないですね。

コメント