發布日期:2025 年 5 月 22 日
AI 正在改變網頁開發人員建構網站和網頁應用程式的方式。在 2025 年 Google I/O 大會上,我們分享了過去一年的工作成果,展示合作夥伴如何在網路上運用 AI 技術,並宣布推出新的內建 AI API。
錯過活動了嗎?好消息!即日起,你可以隨選隨看相關內容。
Chrome 內建 Gemini Nano,實用 AI 隨手可用
我們的核心使命是為所有開發人員和使用者打造更智慧的 Chrome 和網路。在這場演講中,Thomas Steiner 分享了內建 AI 的最新消息、實際應用情境,以及我們對未來的展望。
內建 AI 會在瀏覽器中執行用戶端模型,具有下列幾項優點:
- 私密:敏感的使用者資料會保留在裝置上,完全不必離開瀏覽器。
- 離線:即使沒有網路連線,應用程式也能存取 AI 功能。
- 效能優異:這些 API 採用硬體加速技術,效能極佳。
查看各項內建 AI API 的程式碼範例、瞭解最新狀態,以及查看採用這項技術的公司。
多模態 API
我們正在開發全新的多模態 API,也就是說,你可以詢問 Gemini Nano 影像內容「看到」或音訊內容「聽到」的內容。舉例來說,在部落格平台上傳圖片時,系統會提供替代文字建議,使用者可以進一步調整。你也可以要求 Gemini Nano 撰寫 Podcast 的說明或轉錄稿。
混合式 AI
開發人員在用戶端 AI 方面面臨的一項挑戰是,並非所有平台和瀏覽器都符合在裝置上執行模型所需的硬體規格。Gemini 和 Firebase 合作建構了 Firebase Web SDK,因此在無法進行用戶端實作時,您可以改用伺服器上的 Gemini Nano。
與您合作
很高興能與眾多開發人員合作,共同打造內建的 AI API。沒有您的支持,我們就無法達成這些目標。
- 搶先預覽計畫:超過 16,000 名開發人員已加入搶先預覽計畫,測試新 API、發掘新用途,並提供意見回饋,協助我們打造更優質的網頁專用 AI。
- 黑客松:我們舉辦了兩場黑客松,您們打造出一些令人驚豔的網站和擴充功能。
你的工作尚未完成。歡迎繼續提供意見,測試新的內建 API,我們會持續改善。您甚至可以加入 W3C 的 Web Machine Learning Community Group,協助這些 API 標準化。
Gemini 瀏覽器擴充功能:Chrome 擴充功能的未來
過去兩年,AI 擴充功能的數量增加了一倍。事實上,從 Chrome 線上應用程式商店安裝的所有擴充功能中,有 10% 使用 AI。在本演講中,Sebastian Benz 提供了實用範例,說明 Chrome 擴充功能和 Gemini 結合後為何能發揮強大效用。
例如,您可以運用 Chrome 新推出的提示 API,從用戶端網站擷取及處理資料,讓瀏覽器更加實用。
我們將展示 Chrome 擴充功能中 Chrome 提示 API 的全新多模態功能,如何讓使用者更輕鬆地存取音訊和圖片。
本文將說明 Google DeepMind 的 Project Mariner 如何運用 Chrome 擴充功能和最新的 Gemini Cloud API,建構功能齊全的瀏覽器代理程式,帶您一窺未來的瀏覽體驗。
探索在雲端或 瀏覽器中使用 Gemini 的潛力,透過 Chrome 擴充功能打造全新瀏覽體驗,讓瀏覽器更加實用。
網頁 AI 的應用實例和策略
廣田百合子和 Swetha Gopalakrishnan 舉出實際案例,說明企業如何運用網路上的 AI 技術改善業務和使用者體驗。無論解決方案採用用戶端模型、伺服器端模型或混合式模型,重要的是您現在就能為使用者提供令人期待的新功能。
BILIBILI 推出彈幕留言新功能,讓影片串流更具吸引力。這類廣告會在影片中顯示即時使用者留言,並在演講者後方呈現。為此,他們運用了圖像分割技術,這是一項廣為人知的機器學習概念。因此工作階段持續時間增加了 30%!Tokopedia 使用臉部偵測模型評估上傳相片的品質,減少賣家驗證程序中的阻礙。因此,他們手動核准的次數減少了近 70%。
Vision Nanny 是專為腦部視覺障礙 (CVI) 兒童設計的網路平台,提供 AI 輔助的視覺刺激活動。他們使用多個 MediaPipe 程式庫,包括手部地標偵測模型,可找出圖片、影片或即時影像中的手部關鍵點。在 50 名兒童的試驗中,Vision Nanny 的回覆速度比手動視覺刺激活動快 5 倍。治療師表示,移除手動設定後,平均每節療程可省下三小時。
Google Meet 採用多項 AI 輔助功能,可改善光線、減少模糊和影像不清的問題,最大的挑戰在於這些功能必須即時運作。這時WebAssembly (Wasm) 就派上用場了,可充分發揮電腦 CPU 的效能,並進行即時影片處理。
以上只是幾個實際案例,說明 AI 如何在網路上發揮作用。其他幾家公司也試用內建的 AI API,其中有些公司在個案研究中分享了相關成果。
用戶端網頁 AI 代理程式,打造更智慧的未來使用者體驗
Jason Mayes 介紹了網路的未來:網路 AI 代理程式。網路的未來將是代理程式的天下,AI 功能會直接整合到瀏覽器,代表您執行實用工作,超越大型語言模型 (LLM) 的能力。
採用用戶端方法可加強隱私權防護、縮短延遲時間,並大幅節省費用。代理程式可讓您升級現有網站、為使用者自主執行工作、動態選取及使用公開工具 (可能處於迴圈中),讓代理程式完成可能複雜或多步驟的工作。
服務專員可以:
- 規劃及劃分子工作,透過多步驟規劃處理更複雜的問題,將工作細分成合理的執行步驟。
- 選取最合適的工具,無論是函式、API 用法或資料存放區存取權,都能擴增語言模型的基本知識,然後對外部世界執行動作。
- 保留以內容為依據的記憶,根據先前的代理程式輸出內容或外部工具。短期記憶體的作用類似於 FIFO 緩衝區,可儲存模型內容視窗大小的內容記錄,而長期記憶體則可使用向量資料庫儲存資訊,以便從先前的對話工作階段或其他資料來源中視需要擷取資訊。
網頁 AI 代理程式的設計宗旨,是整合 JavaScript 中的現有網頁技術。最終,我們必須持續加速硬體發展,才能在瀏覽器中以最佳狀態執行模型。展望未來,WebNN 等技術將在 CPU、GPU 和 NPU 之間,扮演最佳化模型執行的重要角色。隨著 LLM 越來越小,且持續進步,未來將會更加強大。
建議您採用混合式做法,結合裝置端處理和策略性雲端呼叫,立即在瀏覽器中打造智慧、回應迅速的個人化使用者體驗。隨著裝置執行大型語言模型的能力越來越強,您很快就能從投資 Web AI 方法中獲利。
重溫 2025 年 Google I/O 大會內容
我們已發布 2025 年 Google I/O 大會的所有演講,並提供網頁開發人員專屬播放清單。如要觀看更多內容,請前往 io.google/2025。