本頁面由 Cloud Translation API 翻譯而成。

觀看 2025 年 Google I/O 大會的 AI 相關講座

Alexandra Klepper

發布日期：2025 年 5 月 22 日

AI 正在改變網頁開發人員建構網站和網頁應用程式的方式。在 2025 年 Google I/O 大會上，我們分享了過去一年的工作成果，展示合作夥伴如何在網路上運用 AI 技術，並宣布推出新的內建 AI API。

錯過活動了嗎？好消息！即日起，你可以隨選隨看相關內容。

Chrome 內建 Gemini Nano，實用 AI 隨手可用

Thomas Steiner

我們的核心使命是為所有開發人員和使用者打造更智慧的 Chrome 和網路。在這場演講中，Thomas Steiner 分享了內建 AI 的最新消息、實際應用情境，以及我們對未來的展望。

內建 AI 會在瀏覽器中執行用戶端模型，具有下列幾項優點：

私密：敏感的使用者資料會保留在裝置上，完全不必離開瀏覽器。
離線：即使沒有網路連線，應用程式也能存取 AI 功能。
效能優異：這些 API 採用硬體加速技術，效能極佳。

查看各項內建 AI API 的程式碼範例、瞭解最新狀態，以及查看採用這項技術的公司。

多模態 API

我們正在開發全新的多模態 API，也就是說，你可以詢問 Gemini Nano 影像內容「看到」或音訊內容「聽到」的內容。舉例來說，在部落格平台上傳圖片時，系統會提供替代文字建議，使用者可以進一步調整。你也可以要求 Gemini Nano 撰寫 Podcast 的說明或轉錄稿。

混合式 AI

開發人員在用戶端 AI 方面面臨的一項挑戰是，並非所有平台和瀏覽器都符合在裝置上執行模型所需的硬體規格。Gemini 和 Firebase 合作建構了 Firebase Web SDK，因此在無法進行用戶端實作時，您可以改用伺服器上的 Gemini Nano。

與您合作

很高興能與眾多開發人員合作，共同打造內建的 AI API。沒有您的支持，我們就無法達成這些目標。

搶先預覽計畫：超過 16,000 名開發人員已加入搶先預覽計畫，測試新 API、發掘新用途，並提供意見回饋，協助我們打造更優質的網頁專用 AI。
黑客松：我們舉辦了兩場黑客松，您們打造出一些令人驚豔的網站和擴充功能。

你的工作尚未完成。歡迎繼續提供意見，測試新的內建 API，我們會持續改善。您甚至可以加入 W3C 的 Web Machine Learning Community Group，協助這些 API 標準化。

Gemini 瀏覽器擴充功能：Chrome 擴充功能的未來

Sebastian Benz

過去兩年，AI 擴充功能的數量增加了一倍。事實上，從 Chrome 線上應用程式商店安裝的所有擴充功能中，有 10% 使用 AI。在本演講中，Sebastian Benz 提供了實用範例，說明 Chrome 擴充功能和 Gemini 結合後為何能發揮強大效用。

例如，您可以運用 Chrome 新推出的提示 API，從用戶端網站擷取及處理資料，讓瀏覽器更加實用。

我們將展示 Chrome 擴充功能中 Chrome 提示 API 的全新多模態功能，如何讓使用者更輕鬆地存取音訊和圖片。

本文將說明 Google DeepMind 的 Project Mariner 如何運用 Chrome 擴充功能和最新的 Gemini Cloud API，建構功能齊全的瀏覽器代理程式，帶您一窺未來的瀏覽體驗。

探索在雲端或瀏覽器中使用 Gemini 的潛力，透過 Chrome 擴充功能打造全新瀏覽體驗，讓瀏覽器更加實用。

網頁 AI 的應用實例和策略

Yuriko Hirota

Swetha Gopalakrishnan

廣田百合子和 Swetha Gopalakrishnan 舉出實際案例，說明企業如何運用網路上的 AI 技術改善業務和使用者體驗。無論解決方案採用用戶端模型、伺服器端模型或混合式模型，重要的是您現在就能為使用者提供令人期待的新功能。

BILIBILI 推出彈幕留言新功能，讓影片串流更具吸引力。這類廣告會在影片中顯示即時使用者留言，並在演講者後方呈現。為此，他們運用了圖像分割技術，這是一項廣為人知的機器學習概念。因此工作階段持續時間增加了 30%！Tokopedia 使用臉部偵測模型評估上傳相片的品質，減少賣家驗證程序中的阻礙。因此，他們手動核准的次數減少了近 70%。

Vision Nanny 是專為腦部視覺障礙 (CVI) 兒童設計的網路平台，提供 AI 輔助的視覺刺激活動。他們使用多個 MediaPipe 程式庫，包括手部地標偵測模型，可找出圖片、影片或即時影像中的手部關鍵點。在 50 名兒童的試驗中，Vision Nanny 的回覆速度比手動視覺刺激活動快 5 倍。治療師表示，移除手動設定後，平均每節療程可省下三小時。

Google Meet 採用多項 AI 輔助功能，可改善光線、減少模糊和影像不清的問題，最大的挑戰在於這些功能必須即時運作。這時WebAssembly (Wasm) 就派上用場了，可充分發揮電腦 CPU 的效能，並進行即時影片處理。

以上只是幾個實際案例，說明 AI 如何在網路上發揮作用。其他幾家公司也試用內建的 AI API，其中有些公司在個案研究中分享了相關成果。

用戶端網頁 AI 代理程式，打造更智慧的未來使用者體驗

Jason Mayes

Jason Mayes 介紹了網路的未來：網路 AI 代理程式。網路的未來將是代理程式的天下，AI 功能會直接整合到瀏覽器，代表您執行實用工作，超越大型語言模型 (LLM) 的能力。

採用用戶端方法可加強隱私權防護、縮短延遲時間，並大幅節省費用。代理程式可讓您升級現有網站、為使用者自主執行工作、動態選取及使用公開工具 (可能處於迴圈中)，讓代理程式完成可能複雜或多步驟的工作。

服務專員可以：

規劃及劃分子工作，透過多步驟規劃處理更複雜的問題，將工作細分成合理的執行步驟。
選取最合適的工具，無論是函式、API 用法或資料存放區存取權，都能擴增語言模型的基本知識，然後對外部世界執行動作。
保留以內容為依據的記憶，根據先前的代理程式輸出內容或外部工具。短期記憶體的作用類似於 FIFO 緩衝區，可儲存模型內容視窗大小的內容記錄，而長期記憶體則可使用向量資料庫儲存資訊，以便從先前的對話工作階段或其他資料來源中視需要擷取資訊。

網頁 AI 代理程式的設計宗旨，是整合 JavaScript 中的現有網頁技術。最終，我們必須持續加速硬體發展，才能在瀏覽器中以最佳狀態執行模型。展望未來，WebNN 等技術將在 CPU、GPU 和 NPU 之間，扮演最佳化模型執行的重要角色。隨著 LLM 越來越小，且持續進步，未來將會更加強大。

建議您採用混合式做法，結合裝置端處理和策略性雲端呼叫，立即在瀏覽器中打造智慧、回應迅速的個人化使用者體驗。隨著裝置執行大型語言模型的能力越來越強，您很快就能從投資 Web AI 方法中獲利。

重溫 2025 年 Google I/O 大會內容

我們已發布 2025 年 Google I/O 大會的所有演講，並提供網頁開發人員專屬播放清單。如要觀看更多內容，請前往 io.google/2025。

觀看 2025 年 Google I/O 大會的 AI 相關講座 透過集合功能整理內容 你可以依據偏好儲存及分類內容。