เผยแพร่: 22 พฤษภาคม 2025
AI กำลังเปลี่ยนวิธีที่นักพัฒนาเว็บสร้างเว็บไซต์และเว็บแอปพลิเคชัน ในงาน Google I/O 2025 เราได้แชร์สิ่งที่เราได้ทําในช่วง ปีที่ผ่านมา แสดงให้เห็นว่าพาร์ทเนอร์ของเราใช้ประโยชน์จาก AI บนเว็บอย่างไร และประกาศ API ของ AI ใหม่ที่มาพร้อมกับฟีเจอร์ในตัว
หากพลาดกิจกรรม ข่าวดีคือตอนนี้คุณสามารถดูทอล์กแบบออนดีมานด์ได้แล้ว
AI ในตัวที่ใช้งานได้จริงด้วย Gemini Nano ใน Chrome
พันธกิจหลักของเราคือการทำให้ Chrome และเว็บฉลาดขึ้นสำหรับนักพัฒนาซอฟต์แวร์และผู้ใช้ทุกคน ในการพูดครั้งนี้ Thomas Steiner จะแชร์ข้อมูลอัปเดตเกี่ยวกับ AI ในตัว กรณีการใช้งานจริง และแนวโน้มในอนาคต
AI ในตัวจะเรียกใช้โมเดลฝั่งไคลเอ็นต์ในเบราว์เซอร์ ซึ่งมีข้อดีหลายประการ ดังนี้
- ส่วนตัว: ข้อมูลผู้ใช้ที่ละเอียดอ่อนจะยังคงอยู่ในอุปกรณ์และไม่จำเป็นต้องออกจากเบราว์เซอร์
- ออฟไลน์: แอปพลิเคชันสามารถเข้าถึงความสามารถของ AI ได้แม้จะไม่มีการเชื่อมต่ออินเทอร์เน็ต
- มีประสิทธิภาพ: API เหล่านี้ให้ประสิทธิภาพที่ยอดเยี่ยมด้วยการเร่งฮาร์ดแวร์
ดูตัวอย่างโค้ดสำหรับ API ของ AI ในตัว แต่ละรายการ รับข้อมูลอัปเดตเกี่ยวกับสถานะ และดูว่าบริษัทใดบ้างที่ใช้เทคโนโลยีนี้
API หลายรูปแบบ
เรากำลังพัฒนา API แบบหลายรูปแบบใหม่ ซึ่งหมายความว่าคุณสามารถถาม Gemini Nano เกี่ยวกับสิ่งที่ "เห็น" ในเนื้อหาภาพหรือ "ได้ยิน" ในเนื้อหาเสียง เช่น รับคำแนะนำสำหรับข้อความแทนในรูปภาพที่อัปโหลดบนแพลตฟอร์มบล็อก ซึ่งผู้ใช้สามารถปรับแต่งและแก้ไขได้ หรือจะขอให้ Gemini Nano เขียนคำอธิบายหรือข้อความถอดเสียงสำหรับพอดแคสต์ก็ได้
AI แบบผสม
ความท้าทายอย่างหนึ่งที่นักพัฒนาซอฟต์แวร์ต้องเผชิญกับ AI ฝั่งไคลเอ็นต์คือไม่ใช่ทุกแพลตฟอร์มและ เบราว์เซอร์ที่มีคุณสมบัติตรงตามข้อกำหนดด้านฮาร์ดแวร์ในการเรียกใช้โมเดลในอุปกรณ์ Gemini และ Firebase ได้ร่วมมือกันสร้าง Firebase Web SDK เพื่อให้คุณสามารถใช้ Gemini Nano ในเซิร์ฟเวอร์ได้ในกรณีที่การติดตั้งใช้งานฝั่งไคลเอ็นต์ไม่พร้อมใช้งาน
การทำงานร่วมกับคุณ
เรายินดีเป็นอย่างยิ่งที่ได้ร่วมงานกับนักพัฒนาแอปจำนวนมากใน AI API แบบบิลต์อิน เราจะทำสิ่งเหล่านี้ไม่ได้หากไม่มีคุณ
- โปรแกรมทดลองใช้ก่อนเปิดตัว: นักพัฒนาซอฟต์แวร์กว่า 16,000 รายได้เข้าร่วมEPP เพื่อทดสอบ API ใหม่ๆ ค้นพบกรณีการใช้งานใหม่ๆ และให้ความคิดเห็นเพื่อสร้าง AI ที่ดีขึ้นสำหรับเว็บ
- แฮ็กกาธอน: เราได้จัดแฮ็กกาธอน 2 ครั้ง และคุณได้สร้างเว็บไซต์และส่วนขยายที่น่าทึ่ง
งานของคุณยังไม่จบ โปรดแชร์ความคิดเห็น ทดสอบ API ใหม่ๆ ที่มีอยู่ และเราจะทำการปรับปรุงต่อไป คุณยังช่วยกำหนดมาตรฐาน API เหล่านี้ได้ด้วยการเข้าร่วมกลุ่มชุมชนแมชชีนเลิร์นนิงบนเว็บของ W3C
อนาคตของส่วนขยาย Chrome ด้วย Gemini ในเบราว์เซอร์
จำนวนส่วนขยายที่ทำงานด้วยระบบ AI เพิ่มขึ้นเป็น 2 เท่าในช่วง 2 ปีที่ผ่านมา โดยมีส่วนขยาย 10% ของส่วนขยายทั้งหมดที่ติดตั้งจาก Chrome เว็บสโตร์ใช้ AI ในการพูดครั้งนี้ Sebastian Benz ได้ยกตัวอย่างในทางปฏิบัติว่าเหตุใดส่วนขยาย Chrome และ Gemini จึงเป็นส่วนผสมที่ทรงพลัง
ตัวอย่างมีตั้งแต่การทำให้เบราว์เซอร์มีประโยชน์มากขึ้นด้วยการแยกและประมวลผลข้อมูลจากเว็บไซต์ในไคลเอ็นต์โดยใช้ Prompt API ที่เพิ่งเปิดตัวของ Chrome
โดยการสาธิตศักยภาพของความสามารถแบบมัลติโมดัลใหม่ของ Prompting API ของ Chrome ในส่วนขยาย Chrome เพื่อให้ผู้ใช้เข้าถึงเสียงและรูปภาพได้มากขึ้น
เพื่อดูอนาคตของการท่องเว็บโดยอธิบายว่า Project Mariner ของ Google DeepMind ใช้ส่วนขยาย Chrome และ Gemini Cloud API ล่าสุดอย่างไรในการสร้างเอเจนต์เบราว์เซอร์เต็มรูปแบบ
สำรวจศักยภาพของการใช้ Gemini ในระบบคลาวด์หรือในเบราว์เซอร์ในส่วนขยาย Chrome เพื่อสร้างประสบการณ์การท่องเว็บใหม่ๆ และทำให้เบราว์เซอร์มีประโยชน์มากขึ้น
กรณีการใช้งานและกลยุทธ์ AI บนเว็บในโลกแห่งความเป็นจริง
Yuriko Hirota และ Swetha Gopalakrishnan ได้ยกตัวอย่างจริงของบริษัทที่ใช้ AI บนเว็บเพื่อปรับปรุงธุรกิจและประสบการณ์ของผู้ใช้ ไม่ว่าโซลูชันจะใช้โมเดลฝั่งไคลเอ็นต์ ฝั่งเซิร์ฟเวอร์ หรือโซลูชันแบบไฮบริด สิ่งสำคัญคือฟังก์ชันและฟีเจอร์ใหม่ๆ ที่น่าตื่นเต้นซึ่งคุณสามารถมอบให้แก่ผู้ใช้ได้ในตอนนี้
BILIBILI ทำให้สตรีมวิดีโอของตนน่าสนใจยิ่งขึ้นด้วยฟีเจอร์ใหม่ นั่นคือความคิดเห็นแบบกระสุน โดยจะแสดงความคิดเห็นของผู้ใช้แบบเรียลไทม์ในวิดีโอ ซึ่งแสดงอยู่ด้านหลังผู้พูด โดยใช้การแบ่งกลุ่มรูปภาพ ซึ่งเป็นแนวคิดแมชชีนเลิร์นนิงที่เข้าใจกันดี ผลลัพธ์ที่ได้คือระยะเวลาเซสชันเพิ่มขึ้น 30% Tokopedia ลดอุปสรรคในกระบวนการยืนยันตัวตนผู้ขายโดยใช้โมเดลการตรวจจับใบหน้าเพื่อประเมินคุณภาพของรูปภาพที่อัปโหลด ด้วยเหตุนี้ จึงลดการอนุมัติด้วยตนเองได้เกือบ 70%
Vision Nanny ซึ่งเป็นแพลตฟอร์มบนเว็บสำหรับเด็กที่มีความบกพร่องทางการมองเห็นจากสมอง (CVI) มีกิจกรรมกระตุ้นการมองเห็นที่ทำงานด้วยระบบ AI โดยใช้ไลบรารี MediaPipe หลายรายการ รวมถึงโมเดลการตรวจหาจุดสังเกตของมือ ซึ่งจะระบุตำแหน่งจุดสำคัญ ของมือในรูปภาพ วิดีโอ หรือแบบเรียลไทม์ การนำร่องกับเด็ก 50 คน แสดงให้เห็นว่า Vision Nanny ตอบสนองได้เร็วกว่ากิจกรรมกระตุ้นด้วยภาพแบบแมนนวลถึง 5 เท่า นักบำบัดรายงานว่าประหยัดเวลาได้เฉลี่ย 3 ชั่วโมงต่อเซสชัน โดยไม่ต้องตั้งค่าด้วยตนเอง
Google Meet มีฟีเจอร์หลายอย่างที่ทำงานด้วยระบบ AI ตั้งแต่การปรับปรุงแสงไปจนถึง การลดวิดีโอเบลอและไม่ชัด ความท้าทายที่ยิ่งใหญ่ที่สุดคือฟีเจอร์เหล่านี้ ต้องทำงานแบบเรียลไทม์ WebAssembly (Wasm) จึงเข้ามามีบทบาทในจุดนี้ เพื่อใช้ประโยชน์จาก CPU ของคอมพิวเตอร์อย่างเต็มที่และเปิดใช้การประมวลผลวิดีโอแบบเรียลไทม์
นี่เป็นเพียงตัวอย่างบางส่วนของ AI ที่เกิดขึ้นจริงบนเว็บ บริษัทอื่นๆ อีกหลายแห่งได้ทดลองใช้ AI API ในตัว ซึ่งบางบริษัทได้แชร์ผลงานของตนในกรณีศึกษา
เอเจนต์ AI บนเว็บฝั่งไคลเอ็นต์เพื่อสร้างประสบการณ์ของผู้ใช้ในอนาคตที่ชาญฉลาดยิ่งขึ้น
Jason Mayes ได้อธิบายถึงอนาคตของอินเทอร์เน็ต นั่นก็คือเอเจนต์ AI บนเว็บ เว็บมีอนาคตที่ขับเคลื่อนด้วยเอเจนต์ ซึ่งจะนำความสามารถของ AI มาไว้ในเบราว์เซอร์โดยตรงเพื่อทำงานที่เป็นประโยชน์ในนามของคุณ นอกเหนือจากความสามารถของโมเดลภาษาขนาดใหญ่ (LLM)
แนวทางฝั่งไคลเอ็นต์ช่วยเพิ่มความเป็นส่วนตัว ลดเวลาในการตอบสนอง และ อาจช่วยประหยัดค่าใช้จ่ายได้อย่างมาก เอเจนต์ช่วยให้คุณอัปเกรดเว็บไซต์ที่มีอยู่ เพื่อทำงานให้ผู้ใช้ได้โดยอัตโนมัติ โดยจะเลือกและ ใช้เครื่องมือที่เปิดเผยแบบไดนามิก ซึ่งอาจเป็นแบบวนซ้ำ เพื่อให้เอเจนต์ทำงานที่อาจซับซ้อนหรือมีหลายขั้นตอนจนเสร็จได้
ตัวแทนสามารถทำสิ่งต่อไปนี้ได้
- วางแผนและแบ่งงานย่อย จัดการปัญหาที่ซับซ้อนมากขึ้นผ่าน การวางแผนแบบหลายขั้นตอนเพื่อแบ่งงานออกเป็นขั้นตอนเชิงตรรกะให้เสร็จสมบูรณ์
- เลือกเครื่องมือที่ดีที่สุด ไม่ว่าจะเป็นฟังก์ชัน การใช้งาน API หรือการเข้าถึงที่เก็บข้อมูล เพื่อเข้าถึงความรู้พื้นฐานของโมเดลภาษาเสริม จากนั้นดำเนินการ กับโลกภายนอก
- เก็บหน่วยความจำตามบริบทโดยอิงตามเอาต์พุตก่อนหน้าจากเอเจนต์หรือ เครื่องมือภายนอก หน่วยความจำระยะสั้นทําหน้าที่เหมือนบัฟเฟอร์ FIFO ของประวัติบริบท สูงสุดตามขนาดหน้าต่างบริบทของโมเดล เทียบกับหน่วยความจำระยะยาวที่ สามารถใช้ฐานข้อมูลเวกเตอร์เพื่อจัดเก็บข้อมูลเพื่อเรียกคืนได้ตามต้องการจาก เซสชันการสนทนาก่อนหน้าหรือแหล่งข้อมูลอื่นๆ ทั้งหมด
เอเจนต์ AI บนเว็บได้รับการออกแบบมาเพื่อผสานรวมเข้ากับเทคโนโลยีเว็บที่มีอยู่แล้วใน JavaScript ท้ายที่สุดแล้ว เราต้องเร่งพัฒนาฮาร์ดแวร์ต่อไปเพื่อให้โมเดลทำงานในเบราว์เซอร์ได้ดีที่สุด เมื่อมองไปในอนาคต เทคโนโลยีอย่าง WebNN จะมีบทบาทสำคัญในการเพิ่มประสิทธิภาพการดำเนินการโมเดลใน CPU, GPU และ NPU เทรนด์การใช้ LLM ขนาดเล็กลงและการพัฒนาอย่างต่อเนื่องจะทำให้ LLM มีประสิทธิภาพมากขึ้นในอนาคต
ลองใช้แนวทางแบบผสมผสาน โดยรวมการประมวลผลในอุปกรณ์กับการเรียกใช้ระบบคลาวด์เชิงกลยุทธ์ เพื่อให้คุณสร้างประสบการณ์การใช้งานที่ชาญฉลาด ตอบสนอง และปรับเปลี่ยนในแบบของผู้ใช้ในเบราว์เซอร์ได้เลย ในไม่ช้า ผลตอบแทนจากการลงทุนใน แนวทาง Web AI ควรจะคุ้มค่าเมื่ออุปกรณ์มีความสามารถในการเรียกใช้ LLM มากขึ้น
ดูข้อมูลเพิ่มเติมเกี่ยวกับ Google I/O 2025
เราได้เผยแพร่การบรรยายทั้งหมดสำหรับ Google I/O 2025 พร้อมเพลย์ลิสต์สำหรับนักพัฒนาเว็บโดยเฉพาะ ดูเพิ่มเติมได้ที่ io.google/2025