ดูการพูดคุยเกี่ยวกับ AI ในงาน I/O 2025

Alexandra Klepper
Alexandra Klepper

เผยแพร่: 22 พฤษภาคม 2025

AI กำลังเปลี่ยนวิธีที่นักพัฒนาเว็บสร้างเว็บไซต์และเว็บแอปพลิเคชัน ในงาน Google I/O 2025 เราได้แชร์สิ่งที่เราได้ทําในช่วง ปีที่ผ่านมา แสดงให้เห็นว่าพาร์ทเนอร์ของเราใช้ประโยชน์จาก AI บนเว็บอย่างไร และประกาศ API ของ AI ใหม่ที่มาพร้อมกับฟีเจอร์ในตัว

หากพลาดกิจกรรม ข่าวดีคือตอนนี้คุณสามารถดูทอล์กแบบออนดีมานด์ได้แล้ว

AI ในตัวที่ใช้งานได้จริงด้วย Gemini Nano ใน Chrome

พันธกิจหลักของเราคือการทำให้ Chrome และเว็บฉลาดขึ้นสำหรับนักพัฒนาซอฟต์แวร์และผู้ใช้ทุกคน ในการพูดครั้งนี้ Thomas Steiner จะแชร์ข้อมูลอัปเดตเกี่ยวกับ AI ในตัว กรณีการใช้งานจริง และแนวโน้มในอนาคต

AI ในตัวจะเรียกใช้โมเดลฝั่งไคลเอ็นต์ในเบราว์เซอร์ ซึ่งมีข้อดีหลายประการ ดังนี้

  • ส่วนตัว: ข้อมูลผู้ใช้ที่ละเอียดอ่อนจะยังคงอยู่ในอุปกรณ์และไม่จำเป็นต้องออกจากเบราว์เซอร์
  • ออฟไลน์: แอปพลิเคชันสามารถเข้าถึงความสามารถของ AI ได้แม้จะไม่มีการเชื่อมต่ออินเทอร์เน็ต
  • มีประสิทธิภาพ: API เหล่านี้ให้ประสิทธิภาพที่ยอดเยี่ยมด้วยการเร่งฮาร์ดแวร์

ดูตัวอย่างโค้ดสำหรับ API ของ AI ในตัว แต่ละรายการ รับข้อมูลอัปเดตเกี่ยวกับสถานะ และดูว่าบริษัทใดบ้างที่ใช้เทคโนโลยีนี้

API หลายรูปแบบ

เรากำลังพัฒนา API แบบหลายรูปแบบใหม่ ซึ่งหมายความว่าคุณสามารถถาม Gemini Nano เกี่ยวกับสิ่งที่ "เห็น" ในเนื้อหาภาพหรือ "ได้ยิน" ในเนื้อหาเสียง เช่น รับคำแนะนำสำหรับข้อความแทนในรูปภาพที่อัปโหลดบนแพลตฟอร์มบล็อก ซึ่งผู้ใช้สามารถปรับแต่งและแก้ไขได้ หรือจะขอให้ Gemini Nano เขียนคำอธิบายหรือข้อความถอดเสียงสำหรับพอดแคสต์ก็ได้

AI แบบผสม

ความท้าทายอย่างหนึ่งที่นักพัฒนาซอฟต์แวร์ต้องเผชิญกับ AI ฝั่งไคลเอ็นต์คือไม่ใช่ทุกแพลตฟอร์มและ เบราว์เซอร์ที่มีคุณสมบัติตรงตามข้อกำหนดด้านฮาร์ดแวร์ในการเรียกใช้โมเดลในอุปกรณ์ Gemini และ Firebase ได้ร่วมมือกันสร้าง Firebase Web SDK เพื่อให้คุณสามารถใช้ Gemini Nano ในเซิร์ฟเวอร์ได้ในกรณีที่การติดตั้งใช้งานฝั่งไคลเอ็นต์ไม่พร้อมใช้งาน

การทำงานร่วมกับคุณ

เรายินดีเป็นอย่างยิ่งที่ได้ร่วมงานกับนักพัฒนาแอปจำนวนมากใน AI API แบบบิลต์อิน เราจะทำสิ่งเหล่านี้ไม่ได้หากไม่มีคุณ

  • โปรแกรมทดลองใช้ก่อนเปิดตัว: นักพัฒนาซอฟต์แวร์กว่า 16,000 รายได้เข้าร่วมEPP เพื่อทดสอบ API ใหม่ๆ ค้นพบกรณีการใช้งานใหม่ๆ และให้ความคิดเห็นเพื่อสร้าง AI ที่ดีขึ้นสำหรับเว็บ
  • แฮ็กกาธอน: เราได้จัดแฮ็กกาธอน 2 ครั้ง และคุณได้สร้างเว็บไซต์และส่วนขยายที่น่าทึ่ง

งานของคุณยังไม่จบ โปรดแชร์ความคิดเห็น ทดสอบ API ใหม่ๆ ที่มีอยู่ และเราจะทำการปรับปรุงต่อไป คุณยังช่วยกำหนดมาตรฐาน API เหล่านี้ได้ด้วยการเข้าร่วมกลุ่มชุมชนแมชชีนเลิร์นนิงบนเว็บของ W3C

อนาคตของส่วนขยาย Chrome ด้วย Gemini ในเบราว์เซอร์

จำนวนส่วนขยายที่ทำงานด้วยระบบ AI เพิ่มขึ้นเป็น 2 เท่าในช่วง 2 ปีที่ผ่านมา โดยมีส่วนขยาย 10% ของส่วนขยายทั้งหมดที่ติดตั้งจาก Chrome เว็บสโตร์ใช้ AI ในการพูดครั้งนี้ Sebastian Benz ได้ยกตัวอย่างในทางปฏิบัติว่าเหตุใดส่วนขยาย Chrome และ Gemini จึงเป็นส่วนผสมที่ทรงพลัง

ตัวอย่างมีตั้งแต่การทำให้เบราว์เซอร์มีประโยชน์มากขึ้นด้วยการแยกและประมวลผลข้อมูลจากเว็บไซต์ในไคลเอ็นต์โดยใช้ Prompt API ที่เพิ่งเปิดตัวของ Chrome

โดยการสาธิตศักยภาพของความสามารถแบบมัลติโมดัลใหม่ของ Prompting API ของ Chrome ในส่วนขยาย Chrome เพื่อให้ผู้ใช้เข้าถึงเสียงและรูปภาพได้มากขึ้น

เพื่อดูอนาคตของการท่องเว็บโดยอธิบายว่า Project Mariner ของ Google DeepMind ใช้ส่วนขยาย Chrome และ Gemini Cloud API ล่าสุดอย่างไรในการสร้างเอเจนต์เบราว์เซอร์เต็มรูปแบบ

สำรวจศักยภาพของการใช้ Gemini ในระบบคลาวด์หรือในเบราว์เซอร์ในส่วนขยาย Chrome เพื่อสร้างประสบการณ์การท่องเว็บใหม่ๆ และทำให้เบราว์เซอร์มีประโยชน์มากขึ้น

กรณีการใช้งานและกลยุทธ์ AI บนเว็บในโลกแห่งความเป็นจริง

Yuriko Hirota
Yuriko Hirota
Swetha Gopalakrishnan
Swetha Gopalakrishnan

Yuriko Hirota และ Swetha Gopalakrishnan ได้ยกตัวอย่างจริงของบริษัทที่ใช้ AI บนเว็บเพื่อปรับปรุงธุรกิจและประสบการณ์ของผู้ใช้ ไม่ว่าโซลูชันจะใช้โมเดลฝั่งไคลเอ็นต์ ฝั่งเซิร์ฟเวอร์ หรือโซลูชันแบบไฮบริด สิ่งสำคัญคือฟังก์ชันและฟีเจอร์ใหม่ๆ ที่น่าตื่นเต้นซึ่งคุณสามารถมอบให้แก่ผู้ใช้ได้ในตอนนี้

BILIBILI ทำให้สตรีมวิดีโอของตนน่าสนใจยิ่งขึ้นด้วยฟีเจอร์ใหม่ นั่นคือความคิดเห็นแบบกระสุน โดยจะแสดงความคิดเห็นของผู้ใช้แบบเรียลไทม์ในวิดีโอ ซึ่งแสดงอยู่ด้านหลังผู้พูด โดยใช้การแบ่งกลุ่มรูปภาพ ซึ่งเป็นแนวคิดแมชชีนเลิร์นนิงที่เข้าใจกันดี ผลลัพธ์ที่ได้คือระยะเวลาเซสชันเพิ่มขึ้น 30% Tokopedia ลดอุปสรรคในกระบวนการยืนยันตัวตนผู้ขายโดยใช้โมเดลการตรวจจับใบหน้าเพื่อประเมินคุณภาพของรูปภาพที่อัปโหลด ด้วยเหตุนี้ จึงลดการอนุมัติด้วยตนเองได้เกือบ 70%

Vision Nanny ซึ่งเป็นแพลตฟอร์มบนเว็บสำหรับเด็กที่มีความบกพร่องทางการมองเห็นจากสมอง (CVI) มีกิจกรรมกระตุ้นการมองเห็นที่ทำงานด้วยระบบ AI โดยใช้ไลบรารี MediaPipe หลายรายการ รวมถึงโมเดลการตรวจหาจุดสังเกตของมือ ซึ่งจะระบุตำแหน่งจุดสำคัญ ของมือในรูปภาพ วิดีโอ หรือแบบเรียลไทม์ การนำร่องกับเด็ก 50 คน แสดงให้เห็นว่า Vision Nanny ตอบสนองได้เร็วกว่ากิจกรรมกระตุ้นด้วยภาพแบบแมนนวลถึง 5 เท่า นักบำบัดรายงานว่าประหยัดเวลาได้เฉลี่ย 3 ชั่วโมงต่อเซสชัน โดยไม่ต้องตั้งค่าด้วยตนเอง

Google Meet มีฟีเจอร์หลายอย่างที่ทำงานด้วยระบบ AI ตั้งแต่การปรับปรุงแสงไปจนถึง การลดวิดีโอเบลอและไม่ชัด ความท้าทายที่ยิ่งใหญ่ที่สุดคือฟีเจอร์เหล่านี้ ต้องทำงานแบบเรียลไทม์ WebAssembly (Wasm) จึงเข้ามามีบทบาทในจุดนี้ เพื่อใช้ประโยชน์จาก CPU ของคอมพิวเตอร์อย่างเต็มที่และเปิดใช้การประมวลผลวิดีโอแบบเรียลไทม์

นี่เป็นเพียงตัวอย่างบางส่วนของ AI ที่เกิดขึ้นจริงบนเว็บ บริษัทอื่นๆ อีกหลายแห่งได้ทดลองใช้ AI API ในตัว ซึ่งบางบริษัทได้แชร์ผลงานของตนในกรณีศึกษา

เอเจนต์ AI บนเว็บฝั่งไคลเอ็นต์เพื่อสร้างประสบการณ์ของผู้ใช้ในอนาคตที่ชาญฉลาดยิ่งขึ้น

Jason Mayes ได้อธิบายถึงอนาคตของอินเทอร์เน็ต นั่นก็คือเอเจนต์ AI บนเว็บ เว็บมีอนาคตที่ขับเคลื่อนด้วยเอเจนต์ ซึ่งจะนำความสามารถของ AI มาไว้ในเบราว์เซอร์โดยตรงเพื่อทำงานที่เป็นประโยชน์ในนามของคุณ นอกเหนือจากความสามารถของโมเดลภาษาขนาดใหญ่ (LLM)

แนวทางฝั่งไคลเอ็นต์ช่วยเพิ่มความเป็นส่วนตัว ลดเวลาในการตอบสนอง และ อาจช่วยประหยัดค่าใช้จ่ายได้อย่างมาก เอเจนต์ช่วยให้คุณอัปเกรดเว็บไซต์ที่มีอยู่ เพื่อทำงานให้ผู้ใช้ได้โดยอัตโนมัติ โดยจะเลือกและ ใช้เครื่องมือที่เปิดเผยแบบไดนามิก ซึ่งอาจเป็นแบบวนซ้ำ เพื่อให้เอเจนต์ทำงานที่อาจซับซ้อนหรือมีหลายขั้นตอนจนเสร็จได้

ตัวแทนสามารถทำสิ่งต่อไปนี้ได้

  • วางแผนและแบ่งงานย่อย จัดการปัญหาที่ซับซ้อนมากขึ้นผ่าน การวางแผนแบบหลายขั้นตอนเพื่อแบ่งงานออกเป็นขั้นตอนเชิงตรรกะให้เสร็จสมบูรณ์
  • เลือกเครื่องมือที่ดีที่สุด ไม่ว่าจะเป็นฟังก์ชัน การใช้งาน API หรือการเข้าถึงที่เก็บข้อมูล เพื่อเข้าถึงความรู้พื้นฐานของโมเดลภาษาเสริม จากนั้นดำเนินการ กับโลกภายนอก
  • เก็บหน่วยความจำตามบริบทโดยอิงตามเอาต์พุตก่อนหน้าจากเอเจนต์หรือ เครื่องมือภายนอก หน่วยความจำระยะสั้นทําหน้าที่เหมือนบัฟเฟอร์ FIFO ของประวัติบริบท สูงสุดตามขนาดหน้าต่างบริบทของโมเดล เทียบกับหน่วยความจำระยะยาวที่ สามารถใช้ฐานข้อมูลเวกเตอร์เพื่อจัดเก็บข้อมูลเพื่อเรียกคืนได้ตามต้องการจาก เซสชันการสนทนาก่อนหน้าหรือแหล่งข้อมูลอื่นๆ ทั้งหมด

เอเจนต์ AI บนเว็บได้รับการออกแบบมาเพื่อผสานรวมเข้ากับเทคโนโลยีเว็บที่มีอยู่แล้วใน JavaScript ท้ายที่สุดแล้ว เราต้องเร่งพัฒนาฮาร์ดแวร์ต่อไปเพื่อให้โมเดลทำงานในเบราว์เซอร์ได้ดีที่สุด เมื่อมองไปในอนาคต เทคโนโลยีอย่าง WebNN จะมีบทบาทสำคัญในการเพิ่มประสิทธิภาพการดำเนินการโมเดลใน CPU, GPU และ NPU เทรนด์การใช้ LLM ขนาดเล็กลงและการพัฒนาอย่างต่อเนื่องจะทำให้ LLM มีประสิทธิภาพมากขึ้นในอนาคต

ลองใช้แนวทางแบบผสมผสาน โดยรวมการประมวลผลในอุปกรณ์กับการเรียกใช้ระบบคลาวด์เชิงกลยุทธ์ เพื่อให้คุณสร้างประสบการณ์การใช้งานที่ชาญฉลาด ตอบสนอง และปรับเปลี่ยนในแบบของผู้ใช้ในเบราว์เซอร์ได้เลย ในไม่ช้า ผลตอบแทนจากการลงทุนใน แนวทาง Web AI ควรจะคุ้มค่าเมื่ออุปกรณ์มีความสามารถในการเรียกใช้ LLM มากขึ้น

ดูข้อมูลเพิ่มเติมเกี่ยวกับ Google I/O 2025

เราได้เผยแพร่การบรรยายทั้งหมดสำหรับ Google I/O 2025 พร้อมเพลย์ลิสต์สำหรับนักพัฒนาเว็บโดยเฉพาะ ดูเพิ่มเติมได้ที่ io.google/2025