Fara1.5 ของ Microsoft ทำผลงานเหนือ OpenAI และ Google ในแบบทดสอบการท่องเว็บ

หัวข้อ: ตัวแทนเบราว์เซอร์แบบโอเพนซอร์สของ Microsoft ชื่อ Fara1.5 ทำผลงานเหนือ OpenAI และ Google — และออกแบบมาเพื่อทำงานภายใต้การควบคุมของคุณ ลองจินตนาการว่าคุณสั่ง AI ให้ค้นหาข้อมูลบนเว็บไซต์ท่องเที่ยวห้าแห่ง เปรียบเทียบตัวเลือก กรอกแบบฟอร์มการจอง และยืนยันที่พักที่ใกล้ชายหาดที่สุด — จากนั้นกลับมาพบว่างานเสร็จสมบูรณ์แล้ว นี่คือสิ่งที่ “ตัวแทนการใช้งานคอมพิวเตอร์” สัญญาไว้: โมเดลที่สามารถอ่านเบราว์เซอร์ของคุณ คลิก เลื่อน และพิมพ์เหมือนมนุษย์ จนถึงตอนนี้ ผู้นำในด้านนี้คือบริการคลาวด์แบบเอกสิทธิ์ที่มีราคาแพง: OpenAI’s Operator (ผลิตภัณฑ์ราคา $200/เดือน เปิดตัวในเดือนมกราคม 2025 ต่อมาถูกรวมเข้ากับ ChatGPT Agent) และ Google’s Gemini 2.5 Computer Use สัปดาห์นี้ Microsoft Research เปลี่ยนเกมด้วย Fara1.5 — ชุดโมเดลขนาดเล็กแบบโอเพนซอร์สที่ทำคะแนนเหนือทั้งสองรายในแบบทดสอบการท่องเว็บแบบเรียลไทม์ และเปิดเผยน้ำหนักโมเดลและโค้ดการประมวลผลให้สาธารณะ Fara1.5 คืออะไร - ชุดโมเดลสามตัว (4B, 9B, 27B พารามิเตอร์) สร้างขึ้นจากฐาน Qwen3.5 ของ Alibaba และปรับแต่งโดย Microsoft เพื่องานเบราว์เซอร์ (พารามิเตอร์บ่งชี้ความสามารถของโมเดลโดยคร่าวๆ; ยิ่งมากยิ่งมีศักยภาพสูง) - น้ำหนักโมเดลทั้งหมดถูกเปิดเผยอย่างเปิดเผย และโค้ดการประมวลผลอยู่บน GitHub ดังนั้นคุณสามารถรันตัวแทนบนฮาร์ดแวร์ที่คุณควบคุมได้ โดยไม่ต้องพึ่งผู้ให้บริการคลาวด์ ประสิทธิภาพของมัน (แบบทดสอบเว็บจริง) Microsoft มุ่งเป้าไปที่แบบทดสอบ Online-Mind2Web — งานจริง 300 งานบนเว็บไซต์สด 136 แห่ง (เปรียบเทียบผลิตภัณฑ์ กรอกแบบฟอร์ม การจอง) โดยวัดจากความสำเร็จบนเว็บที่เปลี่ยนแปลงอยู่เสมอ: - Fara1.5-27B: 72.0% - OpenAI Operator: 58.3% - Google Gemini 2.5 Computer Use: 57.3% - Yutori Navigator n1 (คู่แข่งเอกสิทธิ์อันดับหนึ่ง): 64.7% - Fara1.5-9B: 63.4% (เหนือกว่า OpenAI และ Google แล้ว) คู่แข่งแบบโอเพนซอร์สตามหลัง: GUI-Owl-1.5 (8B) ของ Alibaba 48.6%; MolmoWeb ของ AI2 35.3%; Fara-7B เวอร์ชันเก่าของ Microsoft 34.1% (ดังนั้นเวอร์ชันใหม่นี้เพิ่มคะแนนเกือบสองเท่าจากโมเดลก่อนหน้า) ใน WebVoyager แบบทดสอบเว็บสดอีกชุดหนึ่ง Fara1.5-27B ได้คะแนน 88.6% (เมื่อเทียบกับ OpenAI Operator ที่ 87.0% และ H Company’s Holo2-30B ที่ 83.0%) เหตุใดจึงชนะ Microsoft สร้างกระบวนการพัฒนาใหม่ทั้งหมดตั้งแต่ต้นจนจบ โดยองค์ประกอบสำคัญ: - FaraGen1.5: ระบบสร้างข้อมูลเฉพาะตัวที่ใช้ GPT-5.4 (โมเดลผู้สอนของ OpenAI) เพื่อสร้างตัวอย่างคุณภาพสูงสำหรับฝึกฝน Fara1.5 — โดยสรุป Microsoft ใช้โมเดลชั้นนำของ OpenAI เป็นผู้สอนเพื่อฝึกฝนคู่แข่งแบบโอเพนซอร์ส - การฝึกอบรมในโดเมนจำลอง: เว็บไซต์จำลองหกแห่งที่ทำงานได้จริง (อีเมล ปฏิทิน ตลาด) ช่วยให้โมเดลซ้อมกระบวนการที่ละเอียดอ่อนหรือไม่สามารถย้อนกลับได้ (การเข้าสู่ระบบ การจอง การส่งอีเมล) โดยไม่ต้องเชื่อมต่อกับบัญชีจริง - เป้าหมายและการประสานงานที่ออกแบบใหม่: ข้อมูล เป้าหมายการฝึกอบรม สถาปัตยกรรมโมเดล และการประสานงานแบบเรียลไทม์ถูกปรับให้เหมาะสมร่วมกัน เพื่อให้มodelขนาดเล็กมีความแข็งแกร่งในการทำงานแบบ “agentic” ความปลอดภัยและการควบคุม Microsoft เน้นมาตรการป้องกันเป็นพิเศษ โมเดลถูกออกแบบให้หยุดและขอการยืนยันก่อนดำเนินการที่ไม่สามารถย้อนกลับได้ มีชั้นอินเทอร์เฟซ (Magnetic-UI) และสภาพแวดล้อมเบราว์เซอร์แบบแยกส่วน (MagneticLite) ที่บันทึกการกระทำทุกอย่างและอนุญาตให้ผู้ใช้หยุดตัวแทนได้ทุกเมื่อ เช่นเดียวกับที่ Yash Lara จาก Microsoft กล่าวว่า การสมดุลระหว่างจุดตรวจสอบที่เข้มงวดกับประสบการณ์ผู้ใช้ที่ราบรื่นเป็นสิ่งสำคัญเพื่อหลีกเลี่ยงความเหนื่อยล้าจากการอนุมัติ ในขณะเดียวกันก็รักษาความปลอดภัยให้ผู้ใช้ ซึ่งแตกต่างจากคำเตือนก่อนหน้านี้จาก OpenAI เกี่ยวกับตัวแทนที่เข้าถึงข้อมูลสำคัญเมื่อเข้าสู่ระบบบริการ; มาตรการของ Microsoft เน้นการแยกส่วนและบันทึกอย่างชัดเจน เหตุใดคนในวงการคริปโตควรสนใจ - น้ำหนักเปิด + การประมวลผลบนเครื่องตนเอง = การควบคุมตนเอง การรันโมเดลแบบ agentic บนโครงสร้างพื้นฐานที่ควบคุมได้สอดคล้องกับหลักการของคริปโตเกี่ยวกับการจัดเก็บและการกระจายอำนาจ (เช่น บอทโฮสต์เองที่สามารถโต้ตอบกับ DApp, exchange หรือเครื่องมือ DAO โดยไม่ต้องเปิดเผยกุญแจให้คลาวด์ภายนอก) - พฤติกรรมสามารถตรวจสอบได้: เอกสารบันทึกจากสภาพแวดล้อมแยกส่วนและโค้ดสาธารณะทำให้ง่ายต่อการตรวจสอบและพัฒนาโดยผู้ตรวจสอบและนักพัฒนา เพื่อยืนยันพฤติกรรมของตัวแทนและรวมมาตรการป้องกันเข้ากับกระบวนการสัญญาอัจฉริยะ - สภาพแวดล้อมการแข่งขัน: การมีตัวแทนโอเพนซอร์สที่มีประสิทธิภาพสูงลดความเสี่ยงจากการผูกขาด API จากคลาวด์รายใหญ่ และอาจเร่งการพัฒนาเครื่องมือที่รวมตัวแทน AI เข้ากับระบบบนโซ่ ความพร้อมใช้งานและขั้นตอนถัดไป - Fara1.5-9B มีให้ใช้งานแล้วบน Azure AI Foundry; เวอร์ชัน 4B และ 27B จะมาถึงในเร็วๆ นี้ - Microsoft มีแผนขยาย Fara1.5Beyond เบราว์เซอร์ไปยังซอฟต์แวร์บนเดสก์ท็อปและองค์กร สรุป Fara1.5 เป็นจุดเปลี่ยนครั้งสำคัญ: ตัวแทนเบราว์เซอร์ที่เปิดเผยสาธารณะ มีประสิทธิภาพแข่งขันได้ และทำคะแนนเหนือทางเลือกแบบเอกสิทธิ์ในแบบทดสอบเว็บจริง ในขณะเดียวกันก็มอบการควบคุมและความโปร่งใสที่สำคัญสำหรับชุมชนที่ใส่ใจความเป็นส่วนตัวและการกระจายอำนาจ หากคุณสนใจรันตัวแทนที่มีความสามารถบนโครงสร้างของคุณเอง — ไม่ว่าจะเป็นผู้ช่วยเทรดอัตโนมัติหรือผู้ช่วย DAO — สิ่งนี้สมควรได้รับความสนใจ