とある生成AIの画像生成 〜Imagen 3 の API を使ってみた〜
実は昨年から画像生成についてWatchしていて、その中でもImagen3はその性能に注目していました。APIがもうすぐ公開されるということでその時を心待ちにしていたのですが、1月末に確認した時には公開されていませんでした。その後、仕事に追われて少し目を離したすきに公開されていたのが分かったのは先週のことでした。
少し出遅れてしまいましたが、簡単な動作確認や他との比較を簡単に行いました。
Imagen3APIの使い方
APIは今のところ有償ユーザーに開放されているようです。
公式サイトにて公開されているコードをそのまま使うことができます。なお、GEMINI_API_KEYは別途取得する必要があります。既存のGemini呼び出しで使用していたもので大丈夫です。
from google import genai
from google.genai import types
from PIL import Image
from io import BytesIO
client = genai.Client(api_key='GEMINI_API_KEY')
response = client.models.generate_images(
model='imagen-3.0-generate-002',
prompt='Fuzzy bunnies in my kitchen',
config=types.GenerateImagesConfig(
number_of_images= 4,
)
)
for generated_image in response.generated_images:
image = Image.open(BytesIO(generated_image.image.image_bytes))
image.show()
ここでは、プロンプトがFuzzy bunnies in my kitchen
となっています。このまま実行すると次のような画像が生成されました


実際には4枚出力されたのですが、似たり寄ったりでほとんど変わらなかったので、2つだけ。
プロンプトに忠実な画像が出ています。
ただ、これではあまり面白みがないので、少し、画像作成に想像力を発揮するようなプロンプトで試してみます。
dancing bunny on the Moon
とかどうでしょうか?
.jpg?w=360&h=360)

なかなかいい感じではないでしょうか?
そういえば、『とある科学の超電磁砲』第4期という話を聞いたばかりだったので、ちょっと試してみたくなりました。
A Certain Scientific Railgun
.jpg?w=360&h=360)
.jpg?w=360&h=360)
いろいろプロンプトいじっていくとそれっぽくなるかな、と思ってたんですけど、なんか何もしなくてももうほとんどそのままですね。逆にこれをそのまま出力して大丈夫なのか心配になるレベルではないでしょうか。
英語入力が必須だと思い込んでましたが、日本語でも試してみます
とある科学の超電磁砲
.jpg?w=360&h=360)
.jpg?w=360&h=360)

日本語出来ましたね。
ちょっと出力にバリエーションが出たので3枚あげました。2枚目は磁石をそのまま張り付けるとかコントですね。キャラクターはなんとなく英語での出力に比べて実物より遠くなっているような気がします。
とはいえ、やはり、プロンプトを特にいじらなくても、ほとんどそのものが出てきたように思えます。
ちなみにプロンプトを 超電磁砲
単独にしても状況変わらずですが、railgun
にするとさすがに次のように変わりました。
.jpg?w=360&h=360)
ウサギやアニメではなく、人物を出力させるのはどうでしょうか。試してみます。
虎ノ門にオフィスのあるスタートアップで働くエンジニア
.jpg?w=360&h=360)
.jpg?w=360&h=360)
雰囲気出てます。弊社もこんな感じです。
A Japanese businessman being interviewed during his commute
.jpg?w=360&h=360)
.jpg?w=360&h=360)
.jpg?w=360&h=360)
よく見かける風景です。
日本語のプロンプト「通勤中にインタビューを受ける日本のサラリーマン
」を試すと、的外れを通り越して意味不明な画像しか生成されませんでした。
やはり、まだまだ日本語プロンプトでは複雑な表現での画像作成はむつかしいようです。現実的には英語プロンプトを使うべきのようです。
Grok3の場合
先週は、XのGrok3も公開されました。X上から使うことができます。(短期間の措置とのアナウンスもあるので、将来的に使用できるかは不明)
Grok3では画像生成もできます。やってみましょう。X上のGrok3で「〇〇の画像を作成」と指示します。
dancing bunny on the Moon

.png?w=360&h=270)
そう来ましたか。悪くないです。
A Certain Scientific Railgun
.png?w=360&h=270)
.png?w=360&h=270)
プロンプトが とある科学の超電磁砲
でも同じです。この髪型は、主人公じゃなくて相棒のほうに引きずられたのかもしれないです。
虎ノ門にオフィスのあるスタートアップで働くエンジニア
.png?w=360&h=270)
.png?w=360&h=270)
2枚目の画像、キー操作がおかしいような・・・、あっ、左手の指が・・・
通勤中にインタビューを受ける日本のサラリーマン
.png?w=360&h=270)
.png?w=360&h=270)
入力した要素のうち「日本のサラリーマン」しか残ってないですね。英語プロンプトにしても同様でした。
APIがないので、今回は出力結果の簡単な比較でしたが、品質的にはにImagen3に劣るように感じます。(左手の指のインパクトが大きすぎます)
ChatGPT(無償版)の場合
単純に比較のために試してみます。ChatGPTで「〇〇の画像を作成」と指示。
(User ) dancing bunny on the Moon の画像を作成
(System) 「dancing bunny on the Moon」の画像を作成するんですね!それは面白そうです。どんな雰囲気の画像をお探しですか?かわいらしいバニーが月で踊っている感じでしょうか?
(User ) はい
(System) こちらが、月で踊るかわいいウサギの画像です!ふわふわの白い毛並みで、楽しそうに踊っています。イメージ通りでしょうか?

おお、そう来ますか。これはこれで味がありますね。
(User ) とある科学の超電磁砲 の画像を作成
(System) 「とある科学の超電磁砲」は版権作品のため、直接画像を作成することはできません。ただし、オリジナルキャラクターや類似のスタイルでイメージを生成することは可能です。
例えば、「電撃を操る女子高生が、近未来の都市を背景にポーズを決めているアニメ風のイラスト」 という形でリクエストしていただければ、オリジナルのキャラクターで画像を作成できます!
どのようなイメージをご希望ですか?
いろいろやったんですが、期待する方向になりませんでした。
虎ノ門にオフィスのあるスタートアップで働くエンジニア の画像を作成
(User ) 虎ノ門にオフィスのあるスタートアップで働くエンジニア の画像を作成
(System) 虎ノ門にオフィスのあるスタートアップで働くエンジニアの画像を作成するためには、どのような画像が必要ですか?例えば、オフィス内で作業しているエンジニアのシーンや、チームでミーティングをしている様子など、具体的なイメージを教えていただけると、そのイメージに合った画像を作成することができます。
(User ) プログラミングしている画像
(System) こちらが虎ノ門のスタートアップオフィスでプログラミングをしているエンジニアの画像です。イメージに合っているか確認してください!

(User ) もっと実写的な画像
(System) より実写的な画像は現在生成できませんが、写真素材サイト(Unsplash、Pexels、Shutterstock など)で「エンジニア プログラミング オフィス 東京」などのキーワードで検索すると、実写に近い画像が見つかるかもしれません。
もし、よりフォトリアルなAI生成画像を希望する場合は、MidjourneyやStable Diffusionなどのツールを試してみるのもおすすめです!
素材サイトを使うように言ってきています。画像生成がそれらにとって代わるものだと思っていたのでちょっと意表を突かれた回答です。
(User ) 通勤中にインタビューを受ける日本のサラリーマン の画像を作成
(System) 通勤中にインタビューを受けている日本のサラリーマンの画像を作成するには、どんなシーンを想像していますか?例えば、電車の中でスマートフォンを持ってインタビューに答えている姿や、駅のホームでマイクを持ってインタビューされている姿などが考えられますね。どのような画像が必要ですか?
(User ) 駅前でインタビューされている姿
(System) こちらが駅前でインタビューを受けている日本のサラリーマンの画像です。イメージに合っているか確認してください!

これはこれでそれっぽいですが、作り物感が拭い切れないですね。
また、ChatGPTなので受け答えの中で作成してくいく形になってしまったのは仕方ないです。
「DALL・E3」のAPIを使うなどの方法もありましたが、今回はそこまではやりませんでした。
その他
その他にも画像生成のサービスがいくつかあるんですが、以前に無料枠を使い切ってしまっていて、今回は試すことができませんでした。
以前に試した時の感触と比べると、Imagen3のほうが品質が良いように感じます。
まとめ
Imagen3 API を実際に使用し、その可能性を探るべく簡単な検証を行いました。また、他の画像生成サービスと比較することで、現時点での Imagen3 の立ち位置を考察しました。
- Imagen 3 の手軽な使い方: 公式サイトで公開されているサンプルコードを活用することで、APIキーの設定以外に難しい手順はなく、すぐに利用を開始できました。プロンプトを工夫することで、想像力を刺激する高品質な画像を生成できる手軽さが魅力です。特に、google.genai ライブラリを使用することで、Python 環境での統合が容易である点は開発者にとって大きなメリットと言えるでしょう。
- Imagen 3 と競合サービスの比較: Grok3 や ChatGPT(無償版)といった他の画像生成サービスと比較した結果、今回の検証範囲では、Imagen 3 が生成される画像の品質、特にプロンプトへの忠実さにおいて優位性を持つように感じられました。例えば、抽象的なプロンプトを与えた場合でも、Imagen3 はより意図を汲み取った画像を生成する傾向が見られました。ただし、Grok3 や ChatGPT にはそれぞれ異なる強みがあるため、用途に応じて使い分けるのが賢明でしょう。
- 日本語プロンプトの課題と今後の展望: Imagen 3 は日本語プロンプトにも対応していますが、検証の結果、複雑な情景描写や具体的なイメージを伝えるには、まだ英語プロンプトの方が精度が高いことがわかりました。現状では、英語でプロンプトを作成し、翻訳ツールなどを活用することで、より意図通りの画像を生成できると考えられます。今後の言語理解能力の向上に期待しつつ、現時点では英語プロンプトを積極的に活用することをおすすめします。
今回の検証を通して、Imagen 3 は現時点での画像生成AIとして非常に高いポテンシャルを秘めていることがわかりました。API が一般公開され、より多くのユーザーが利用することで、創造的な活用事例が拡がることを期待しています。今後の Imagen 3 の進化に注目しつつ、その可能性を最大限に引き出すためのプロンプトエンジニアリングの探求も重要となるでしょう。
生成AIを使い倒したい方は Biz Freak へ!
https://bizfreak.co.jp/recruit
(M.H)