公開日: 2025 年 5 月 22 日
AI は、ウェブ デベロッパーがウェブサイトやウェブ アプリケーションを構築する方法を変革しています。Google I/O 2025 では、この 1 年間の取り組みを紹介し、パートナーがウェブで AI を活用している様子をデモで示し、新しい組み込み AI API を発表しました。
イベントを見逃した場合は、講演をオンデマンドで視聴できるようになりました。
Chrome の Gemini Nano による実用的な組み込み AI
私たちの主な使命は、すべてのデベロッパーとすべてのユーザーにとって、Chrome とウェブをよりスマートにすることです。この講演では、Thomas Steiner が組み込み AI の最新情報、実用的なユースケース、今後の展望について説明します。
組み込み AI は、ブラウザでクライアントサイド モデルを実行します。これには次のようなメリットがあります。
- プライベート: ユーザーの機密データはデバイス上に残り、ブラウザから外部に送信されることはありません。
- オフライン: アプリケーションは、インターネットに接続していなくても AI 機能にアクセスできます。
- パフォーマンスが高い: ハードウェア アクセラレーションにより、これらの API は優れたパフォーマンスを発揮します。
各組み込み AI API のコードサンプルを確認したり、ステータスの最新情報を入手したり、このテクノロジーを実装している企業を確認したりできます。
マルチモーダル API
現在、まったく新しいマルチモーダル API の開発に取り組んでいます。つまり、Gemini Nano は、視覚コンテンツで「見た」ものや、音声コンテンツで「聞いた」ものについて質問できます。たとえば、ブログ プラットフォームにアップロードされた画像の代替テキストの候補を取得し、ユーザーがそれを調整できるようにします。また、Gemini Nano にポッドキャストの説明や文字起こしを依頼することもできます。
ハイブリッド AI
クライアントサイド AI で開発者が直面する課題の 1 つは、オンデバイスでモデルを実行するためのハードウェア要件を満たしていないプラットフォームやブラウザがあることです。Gemini と Firebase は、Firebase Web SDK を共同で構築しました。これにより、クライアントサイドの実装が利用できない場合に、サーバー上の Gemini Nano にフォールバックできます。
お客様との連携
組み込み AI API の開発で、多くのデベロッパーと連携できたことを大変うれしく思います。皆様のご協力なしには、この取り組みは実現できません。
- 早期プレビュー プログラム: 16,000 人を超えるデベロッパーが EPP に参加し、新しい API をテストし、新しいユースケースを発見し、ウェブ向けのより優れた AI を構築するためのフィードバックを提供しています。
- ハッカソン: 2 回のハッカソンを開催し、素晴らしいウェブサイトと拡張機能が作成されました。
作業はまだ終わっていません。引き続きフィードバックをお寄せいただき、新しい組み込み API をテストしていただければ幸いです。W3C の Web Machine Learning Community Group に参加して、これらの API の標準化を支援することもできます。
ブラウザの Gemini による Chrome 拡張機能の未来
AI を活用した拡張機能の数は、過去 2 年間で 2 倍になりました。実際、Chrome ウェブストアからインストールされたすべての拡張機能の 10% が AI を使用しています。この講演では、Sebastian Benz が Chrome 拡張機能と Gemini の組み合わせが強力である理由を具体的な例を挙げて説明します。
たとえば、Chrome の新しくリリースされたプロンプト API を使用してクライアントのウェブサイトからデータを抽出して処理することで、ブラウザをより便利にする方法などがあります。
Chrome 拡張機能で Chrome のプロンプト API の新しいマルチモーダル機能の可能性を実証し、音声と画像をユーザーがより利用しやすくする方法を紹介します。
Google DeepMind の Project Mariner が Chrome 拡張機能と最新の Gemini Cloud API を使用して本格的なブラウザ エージェントを構築する方法を説明し、ブラウジングの未来を垣間見ることができます。
クラウドまたは ブラウザで Gemini を使用して、Chrome 拡張機能で新しいブラウジング エクスペリエンスを構築し、ブラウザをより便利にする可能性を探ります。
実際のウェブ AI のユースケースと戦略
広田 ゆり子と Swetha Gopalakrishnan は、ウェブで AI を使用してビジネスとユーザー エクスペリエンスを改善している企業の実際の例を紹介しました。ソリューションでクライアントサイド モデル、サーバーサイド、ハイブリッド ソリューションのいずれを使用しているかにかかわらず、重要なのは、ユーザーが今すぐ利用できるエキサイティングな新機能です。
BILIBILI は、弾幕コメントという新機能で動画ストリームのエンゲージメントを高めました。動画内のユーザー コメントをリアルタイムで表示し、スピーカーの背後にレンダリングします。このために、画像セグメンテーションというよく知られた ML のコンセプトを使用します。その結果、セッション継続時間が 30% 増加しました。Tokopedia は、顔検出モデルを使用して販売者の確認プロセスの摩擦を軽減し、アップロードされた写真の品質を評価しました。その結果、手動承認が 70% 近く減少しました。
脳性視覚障害(CVI)のある子供向けのウェブ プラットフォームである Vision Nanny は、AI を活用した視覚刺激アクティビティを提供しています。ハンド ランドマーク検出モデルなど、複数の MediaPipe ライブラリを使用します。このモデルは、画像、動画、リアルタイムで手のキーポイントを特定します。50 人の子どもを対象とした試験運用では、Vision Nanny は手動の視覚刺激アクティビティよりも 5 倍速く応答することが実証されました。セラピストは、手動設定をなくすことで、1 セッションあたり平均 3 時間の時間を節約できたと報告しています。
Google Meet には、明るさの調整から、ぼやけた動画や不鮮明な動画の補正まで、AI を活用したさまざまな機能が搭載されています。最大の課題は、これらの機能がリアルタイムで動作する必要があることです。そこで、WebAssembly(Wasm)が登場し、コンピュータの CPU の能力を最大限に引き出し、リアルタイムの動画処理を可能にします。
これらは、ウェブ上で AI が活用されている実例のほんの一例です。他の複数の企業も組み込みの AI API を試しており、そのうちのいくつかはケーススタディで成果を共有しています。
クライアントサイドの Web AI エージェントで、よりスマートなユーザー エクスペリエンスを構築
Jason Mayes 氏は、インターネットの未来であるウェブ AI エージェントについて説明しました。ウェブにはエージェントの未来があり、大規模言語モデル(LLM)の能力を超えて、AI 機能をブラウザに直接導入し、ユーザーに代わって有用な作業を行うことができます。
クライアントサイドのアプローチでは、プライバシーの強化、レイテンシの短縮、大幅なコスト削減の可能性があります。エージェントを使用すると、既存のウェブサイトをアップグレードしたり、ユーザーに代わってタスクを自律的に実行したりできます。また、公開されたツールを動的に選択して使用することもできます(ループで実行される可能性もあります)。これにより、エージェントは複雑なタスクや複数ステップのタスクを完了できます。
エージェントは次のことができます。
- サブタスクを計画して分割する: 複数ステップの計画を通じてより複雑な問題を処理し、タスクを完了するための論理的なステップに分解します。
- 最適なツールを選択します。関数、API の使用、拡張言語モデルのベース知識へのデータストア アクセスのいずれかを選択し、外部に対してアクションを実行します。
- エージェントまたは外部ツールからの以前の出力に基づいて、コンテキスト ベースのメモリを保持します。短期記憶は、モデルのコンテキスト ウィンドウ サイズまでのコンテキスト履歴の FIFO バッファとして機能します。一方、長期記憶では、ベクトル データベースを使用して情報を保存し、以前の会話セッションや他のデータソースから必要に応じて呼び出すことができます。
ウェブ AI エージェントは、JavaScript の既存のウェブ テクノロジーに統合できるように設計されています。最終的には、ブラウザでモデルを最適に実行するために、ハードウェアの高速化を継続することが重要です。WebNN などのテクノロジーは、CPU、GPU、NPU 全体でモデル実行を最適化するうえで重要な役割を果たすでしょう。LLM の小型化と継続的な進歩の傾向により、この機能は今後ますます強力になるでしょう。
オンデバイス処理と戦略的なクラウド呼び出しを組み合わせたハイブリッド アプローチを採用して、インテリジェントで応答性の高い、パーソナライズされたユーザー エクスペリエンスをブラウザで今すぐ作成することを検討してください。デバイスの LLM 実行能力が向上するにつれて、ウェブ AI アプローチへの投資から得られるリターンも増えていくでしょう。
Google I/O 2025 の最新情報をチェック
Google I/O 2025 のすべてのトークを公開しました。ウェブ デベロッパー向けの専用プレイリストも用意しています。詳しくは、io.google/2025 をご覧ください。