Microsoft Research เพิ่งเปิดตัวชุดโมเดล AI ที่สามารถท่องเว็บได้ดีกว่าสิ่งใดๆ ที่ OpenAI หรือ Google สร้างขึ้น และในเรื่องที่น่าแปลกใจซึ่งควรทำให้กลุ่มที่ปิดซอร์สรู้สึกไม่สบายใจ โมเดลเหล่านี้เป็นแบบเปิดน้ำหนัก
ครอบครัว Fara1.5 ที่เปิดตัวเมื่อวันที่ 22 พฤษภาคม ประกอบด้วยรุ่นสามรุ่นที่มีพารามิเตอร์ 4B, 9B และ 27B รุ่นแฟลกชิพ 27B ได้คะแนน 72% บนเบนช์มาร์ก Online-Mind2Web ซึ่งเป็นการทดสอบที่ยากลำบากโดยการให้ภารกิจ 300 งานผ่านเว็บไซต์จริง 136 แห่งแก่ตัวแทน AI ที่ใช้เบราว์เซอร์ รุ่น Operator ของ OpenAI ทำได้ 58.3% ส่วน Gemini 2.5 Computer Use ของ Google ทำได้ 57.3% ในภาษาอังกฤษ: โมเดลของ Microsoft สามารถดำเนินการภารกิจบนเว็บในโลกจริงได้เกือบสามในสี่สำเร็จ ในขณะที่คู่แข่งรายใหญ่จากเทคโนโลยีไม่สามารถทำได้ถึงหกในสิบ
ช่องว่างมาตรฐานนั้นเป็นเรื่องจริง
โมเดล 9B ได้คะแนน 63.4% ซึ่งทำให้มันนำหน้าระบบของ OpenAI และ Google แม้จะมีขนาดเล็กเพียงเศษส่วนของระบบเหล่านั้น มันเข้าใกล้ Yutori Navigator n1 อย่างใกล้เคียง โดยที่ตัวแทนที่แข่งขันกันนี้ได้คะแนน 64.7%
สำหรับบริบทเกี่ยวกับความเร็วของการเปลี่ยนแปลงในพื้นที่นี้: โมเดลก่อนหน้าของ Microsoft คือ Fara-7B ที่เปิดตัวในเดือนพฤศจิกายน 2025 และได้คะแนนเพียง 34.1% บนมาตรฐานเดียวกัน หมายความว่าทีมงานสามารถเพิ่มประสิทธิภาพได้ประมาณสองเท่าภายในเวลาประมาณหกเดือน
โมเดลเหล่านี้ถูกสร้างขึ้นบนสถาปัตยกรรม Qwen3.5 และใช้เทคโนโลยีที่เรียกว่า MagenticLite ซึ่งเป็นอินเทอร์เฟซเบราว์เซอร์แบบแยกส่วนที่ให้ตัวแทนมีสภาพแวดล้อมที่ควบคุมได้ในการโต้ตอบกับหน้าเว็บ พวกเขายังรวมวงจรสังเกต-คิด-กระทำพร้อมกลไกป้องกันที่มีมนุษย์เข้ามาเกี่ยวข้อง หมายความว่าตัวแทนจะหยุดก่อนดำเนินการที่สำคัญ เช่น การซื้อหรือการเปลี่ยนแปลงบัญชี และขอการยืนยันจากผู้ใช้
ไมโครซอฟท์ได้เปิดให้ใช้งานรุ่น 9B บน Microsoft Foundry โดยคาดว่ารุ่น 4B และ 27B จะตามมา
ทำไมการเปิดน้ำหนักจึงมีความสำคัญที่นี่
Operator ของ OpenAI และ Gemini 2.5 Computer Use ของ Google เป็นระบบแบบเป็นกรรมสิทธิ์ การที่ Fara1.5 เป็นแบบเปิดน้ำหนัก หมายความว่านักพัฒนาสามารถดาวน์โหลด แก้ไข และปรับใช้โมเดลเหล่านี้บนฮาร์ดแวร์ของตนเองได้ Microsoft ออกแบบครอบครัว Fara1.5 ให้ทำงานได้อย่างมีประสิทธิภาพบนฮาร์ดแวร์ที่ไม่สูงมาก โดยมีประโยชน์ในการปรับขนาดแบบสัดส่วนเมื่อคุณเลื่อนขึ้นไปยังขนาดโมเดลที่ใหญ่ขึ้น
กระบวนการฝึกอบรมยังได้รับการปรับปรุงอย่างมีนัยสำคัญ Microsoft ได้เปิดตัว FaraGen1.5 ซึ่งเป็นกระบวนการข้อมูลสังเคราะห์ที่ได้รับการปรับปรุง เพื่อสร้างตัวอย่างการฝึกอบรมที่ดีขึ้นสำหรับการโต้ตอบเบราว์เซอร์ที่ซับซ้อน
สิ่งนี้หมายถึงอะไรสำหรับคริปโตและเดฟี
ไมโครซอฟท์ไม่ได้สร้าง Fara1.5 ด้วยการพิจารณาเรื่องคริปโต ไม่มีการผสานรวมโดยตรงกับโปรโตคอลบล็อกเชนใดๆ แอปพลิเคชัน DeFi หรือโครงการ Web3
อินเทอร์เฟซของ DeFi เป็นแอปพลิเคชันบนเว็บ การแลกเปลี่ยนโทเค็นบน Uniswap การจัดการวอลลุตบน Aave การเชื่อมโยงสินทรัพย์ข้ามเครือข่าย: ทั้งหมดนี้เป็นงานที่ทำผ่านเบราว์เซอร์ ซึ่งเกี่ยวข้องกับแบบฟอร์ม การยืนยัน และกระบวนการหลายขั้นตอน — ซึ่งเป็นสิ่งที่ Fara1.5 ได้รับการฝึกฝนมาให้จัดการ
การออกแบบที่มีมนุษย์เข้ามาเกี่ยวข้องมีความเกี่ยวข้องเป็นพิเศษในที่นี้ การทำธุรกรรม DeFi ไม่สามารถยกเลิกได้ ตัวแทนที่หยุดชั่วคราวก่อนลงนามในธุรกรรมและขอการยืนยัน จะช่วยจัดการกับหนึ่งในความเสี่ยงที่ใหญ่ที่สุดในการทำกิจกรรมบนโซ่โดยอัตโนมัติ: การอนุมัติสัญญาที่เป็นอันตรายโดยไม่ตั้งใจหรือส่งเงินไปยังที่อยู่ที่ผิด
