【速報】Google I/O 2025 まとめ
米国時間5月21日に開かれた Google I/O 2025 では、
などが発表され、世界中に大きな衝撃を与えました。
他にも時代の転換点となるような様々な発表があった中で、本記事は AI の社会実装を事業としている Biz Freak が、特に着目しているトピックについて要点をまとめます。本記事を読むことにより、Gemini 2.5 をはじめとする各種生成モデルの最新情報と、AI を活用したソフトウェア開発の近況を把握することができます。
目次
- Gemini 2.5 シリーズの強化
- メディア生成モデルの進展
- 軽量モデルと専門特化型モデル
- 開発者向けツールとエージェントの進化
- まとめ
Gemini 2.5 シリーズの強化
Gemini 2.5 については Pro 版をはじめとする性能強化と新機能が発表されました。
2.5 Pro は学術ベンチマークだけでなく実用面でも世界トップの性能を示しており、有名なコーディング・ベンチマークである WebDev Arena で ELO スコア1415の首位に立ち、ヒトの好みに基づく総合評価である LMArena でも全カテゴリ首位となりました。コンテキストウィンドウ長も100万トークンに拡張され、大規模文書や動画の理解能力も向上しています。さらに教育用途では、教育専門家と共同開発した学習特化モデル「LearnLM」を組み込んだことで、学習シーンで他モデルを圧倒しており、教育者との比較テストであらゆる場面で選好され、学習科学の5原則でも最高性能を達成しています。
高度な推論力を実現する実験的モード Deep Think も紹介されました。これは回答前に複数の仮説を検討する Research 手法で、Gemini 2.5 Pro の Deep Think モードは米国数学オリンピック(USAMO)の難問や競技プログラミングベンチマークで非常に高い得点を記録し、複数ファイルにまたがる複雑コードにも強いパフォーマンスを示しています。安全性評価が十分整うまで当面は信頼できるテスター向けに限定公開され、そのフィードバックを経て一般提供される予定です。
一方、軽量で高速処理に特化した Gemini 2.5 Flash も改良されました。新バージョンでは推論時のトークン消費が従来比20~30%削減され、推論速度・コスト効率がさらに向上しつつ、複合推論やコード生成といった主要ベンチマークでの性能も上がっています。この新2.5 Flash は開発者向けに Google AI Studio および Vertex AI でプレビュー提供中で、一般提供は6月初旬を予定しています(Pro版も続いて6月中に公開)。
加えて、Gemini API と連携する機能も充実しました。音声・映像入出力機能のプレビューが Gemini Live API に導入され、マイクやカメラからの入力とネイティブ音声出力に対応することで、より自然で表現力豊かな対話型アプリが作成可能になりました。ユーザーはモデルの話し方(トーンやアクセント)を指定でき、例えば物語朗読時にはドラマチックな音声スタイルを指示できるほか、モデル側からの検索ツール利用もサポートします。同時に、Gemini 2.5 Pro/Flash 向けのテキスト読み上げプレビューも公開されました。複数話者対応で同時に2つの音声を生成したり、ささやき声など繊細なニュアンスを表現できるのが特徴で、24以上の言語で自然な音声変換とスムーズな言語切替が可能です。この新しい読み上げ機能は Gemini API で利用できるようになります。
API連携面では、Project Mariner の Computer use が Gemini API と Vertex AI に実装されました。これにより Gemini はウェブ検索や各種ソフトウェア操作を自律実行できるようになり、自動化やデータ収集の新たな可能性が広がります。同時にセキュリティ対策も強化され、特にモデルが取得する外部データ中の悪意ある命令(間接的なプロンプトインジェクション)への耐性が大幅に向上しました。Google の説明によれば、新手法によりツール利用時の悪意ある命令挿入攻撃に対する防御率が大きく高まり、Gemini 2.5 はこれまでで最も堅牢なモデルファミリーになっているとのことです。
最後に開発者向け機能として、対話過程の可視化や制御機能が強化されました。Gemini API / Vertex AI では Thought Summaries (思考の要約) 機能が利用可能となり、モデル内部で展開した「思考」を見やすい形式(見出し+要点+ツール使用情報)で受け取れるようになりました。これにより、どのように回答が生成されたか把握しやすくなり、デバッグや解釈が容易になります。 また、Thinking Budgets (思考の予算) 機能も Gemini 2.5 Pro に拡張されました。これは回答前にモデルが使用できるトークン数を制限し、品質とコスト(処理時間)のバランスを設定できる仕組みで、運用に合わせた制御を可能にします。この思考予算付きの Gemini 2.5 Pro は間もなく本番利用に適した形で提供開始されます。さらに、Gemini API/SDK はオープンソースツールとの連携を容易にする Model Context Protocol(MCP)に対応しました。MCP 定義のネイティブSDK組み込みにより、多様なツールを使うエージェントアプリケーションの開発がよりシンプルになります。
メディア生成モデルの進展
クリエイティブ領域では、メディア生成モデルにも一連の新発表がありました。
動画生成
動画生成モデル「Veo」シリーズでは新たに Veo 3 が登場し、従来の高品質映像生成に加えて初めて音声付き映像の生成を可能にしました。例えば街角の風景を生成する際に交通音や自然音、登場人物の会話音声まで出力でき、テキストや画像のプロンプトから物理的に自然な映像を自動生成します。Veo 3 は現在、米国の Gemini アプリ(Ultra ユーザー向け)および Google の Flow サイトで試せるほか、企業向けには Vertex AI で提供されています。
また、既存の Veo 2 モデルにも新機能が追加されました。リファレンス画像を指定して登場人物やスタイルを揃えたり、カメラの回転・ズームなど撮影手法を制御する機能、フレームを拡大するアウトペインティング、動画へのオブジェクトの追加・削除機能など、映画製作のニーズに応えた機能が実装されています。これらの機能は既に後述の Flow 上で利用可能であり、今後数週間内に Vertex AI API でも利用できる予定です。
映像制作支援ツールとしては Flow も発表されました。Flow は高度な物語性をもった映像クリップやシーンを生成できるAI映画制作ツールで、ユーザーはキャラクターや舞台、演出を会話形式で指定し、ワンストップで映像を作成できます。発表時点で米国の Google AI Pro・Ultra プラン加入者に提供されており、近くその他地域にも展開予定とのことです。
画像生成
画像生成分野では Imagen 4 が投入されました。最新モデルの Imagen 4 は従来よりも細部表現が格段に向上しており、2K 解像度まで対応することで高精細な図版・印刷物も出力可能です。また文字認識やタイポグラフィ表現の精度が飛躍的に改善されており、グリーティングカードやポスター、コミックの文字作成も容易です。Imagen 4 は Gemini アプリや Whisk、Vertex AI のほか Google Workspace(Docs/Slides/Vids など)でも利用でき、さらに旧モデルの10倍高速な軽量版も準備中としています。
なお、生成コンテンツの信頼性確保のため、Imagen 4 をはじめとする AI が生成したメディアには SynthID (ウォーターマーク) が埋め込まれます。Googleは SynthID 検出ツールを公開し、アップロードした画像・動画・音声・テキストに SynthID が含まれているか識別できるようにしました。
音楽生成
音楽生成では Lyria 2 モデルが拡張されました。Lyria 2 は作曲支援に特化したモデルで、YouTube Shorts 向けの音楽AIサンドボックスでの提供範囲を世界的に拡大し、音楽制作者が新たなメロディを探求できるようになっています。併せて、Lyria 2 の技術をリアルタイム生成に特化させた Lyria RealTime も発表され、開発者向けに Gemini API と Google AI Studio から利用可能となりました。Lyria RealTime では利用者が即興で音楽をコントロールしながら演奏を生成でき、インタラクティブな音楽制作が可能です。これらにより、幅広いクリエイティブ用途でより自然な音楽創作が可能になります。
軽量モデルと専門特化型モデル
デバイスや特定用途向けのモデルも注目が集まりました。軽量マルチモーダルモデル Gemma 3n のプレビュー版が公開され、携帯端末での高速動作に最適化されたアーキテクチャが採用されています。Gemma 3n は音声・テキスト・画像・動画のマルチモーダル入力に対応し、開発者は Google AI Studio のブラウザ版や Google AI Edge(端末向けライブラリ)で試用できます。この技術は今後 Android や Chrome 向けの Gemini Nano モデルとして本格搭載される予定で、端末上でのAI活用を加速します。
言語生成モデルでは、Gemini Diffusion と呼ばれる新モデルも発表されました。これはテキスト生成に特化した非常に高速なモデルで、Google のデモでは従来最速モデルの約5倍の速度で回答を生成しながら、生成品質を維持しているとのことです。現在実験公開中で、利用を希望する開発者は Waitlist に登録できます。
他にも専門用途向けオープンモデルが登場しています。医療分野向けの MedGemma は医用画像・文章のマルチモーダル解析に特化したモデルで、医療AIアプリ構築用に公開されています。Google の説明によれば、最先端医療研究用データセットで訓練されており、異常検知などに利用できる性能を備えています。また手話翻訳モデル SignGemma も発表され、現段階では米国手話(ASL)から英語への変換に特化しています。これにより聴覚障害者向けコミュニケーションツール開発への貢献が期待されています。
開発者向けツールとエージェントの進化
開発者の生産性向上に向けたツールも数多く発表されました。Jules という非同期型コードエージェントは、GitHub 上の自分のリポジトリと連携し、クラウド環境にコードをクローンして解析・編集を実行できます。Jules はテスト作成やバグ修正、新機能の開発などを並列にこなし、完了後は作業計画や推論内容、実際のコード差分(diff)とともにプルリクエストを自動生成します。現在は公開β版として世界中で無料提供されており(Gemini モデル対応環境で利用可能)、ユーザーは自分の開発作業を任せつつ、必要に応じて計画を修正しながら並行開発できます。
エージェント開発環境も整備されました。Python 向けエージェント開発キット(ADK)は v1.0.0 として安定版がリリースされ、本番運用に耐える信頼性が確立されました。また初の Java 向け ADK(v0.1.0)も公開され、Java 開発者も ADK を利用できるようになりました。さらにエージェント同士の相互運用性を高める Agent2Agent プロトコルも改訂され、v0.2 では状態管理不要のセッションレス通信や認証方式の規格化が追加されました。同時に A2A 用の公式 Python SDK が公開され、Python ベースのエージェント開発で簡単にプロトコルを利用できるようになっています。
コーディング支援ツールでは、Gemini Code Assist が個人ユーザー向けに無償提供開始されました。全プログラミング言語に対応し Gemini 2.0 ベース(コーディング最適化済み)のモデルで動作、月最大18万回のコード補完や無制限に近い利用枠を備え、他社無料ツールと比べて大幅に緩い使用制限になっています。Visual Studio Code や JetBrains IDE、さらには GitHub でも、ビジネス向けと同等のコード生成・コードレビュー機能を活用できます。
また、UIデザインからフロントエンドコードを自動生成する Stitch も紹介されました。Stitch は自然言語入力や画像プロンプトからモバイル/デスクトップ向けの高品質なUIデザインと対応するCSS/HTMLコードを瞬時に生成するツールで、対話形式でデザインを反復編集し、完成後は Figma やコード形式でエクスポートできます。
Firebase 関連では、新開発環境 Firebase Studio の機能強化が進みました。Studio には最新モデル Gemini 2.5 が組み込まれ、Figma デザインの取り込みやダミー画像の高品位素材への置換といった UI 作成支援機能が追加されました。一方、既存の「Vertex AI in Firebase」は Firebase AI Logic として再構築され、モバイル端末上での Gemini Nano 推論や Unity/XR 連携などクライアントSDK機能が統合されました。これによりクライアントサイドから直接 Gemini/Imagen モデルを呼び出せるようになり、認証やリモート設定で動的にモデル設定を切り替えたり、AI モデルのモニタリングダッシュボードで利用状況を可視化する機能も提供されました。
まとめ
以上、Google I/O 2025 の要点を一気にまとめて記事にいたしました。
AI による時代の変化は激流のように押し寄せており、人も、企業も、変容と適応を余儀なくされています。AI の社会実装は、これからはより一層重要度を増すことになるでしょう。
株式会社Biz Freakは、新規事業に特化した新しいアジャイル開発『バクソク』により、事業と市場の変化にリアルタイム適応する伴走型のプロダクト開発を行なっております!
👉 Biz Freak 独自の製品である「バクソクボード」が、このたび特許を取得しました:https://bizfreak.co.jp/news/4fvfgv3tpou