Microsoft's Fara1.5 vượt trội hơn OpenAI và Google trong các bài kiểm tra duyệt web

Tiêu đề: Trình duyệt agent mã nguồn mở Fara1.5 của Microsoft vượt trội hơn OpenAI và Google — và được thiết kế để chạy dưới sự kiểm soát của bạn Hãy tưởng tượng bạn nói với một AI hãy tìm kiếm trên năm trang web du lịch, so sánh các lựa chọn, điền vào biểu mẫu đặt chỗ và xác nhận chỗ ở gần bãi biển nhất — rồi quay lại để thấy công việc đã hoàn thành. Đó chính là cam kết của các “agent sử dụng máy tính”: các mô hình có thể đọc trình duyệt của bạn, nhấp chuột, cuộn và gõ như một con người. Cho đến nay, những người dẫn đầu trong lĩnh vực này là các dịch vụ đám mây đắt đỏ và độc quyền: Operator của OpenAI (một sản phẩm trị giá 200 USD/tháng ra mắt tháng 1/2025, sau đó được tích hợp vào ChatGPT Agent) và Gemini 2.5 Computer Use của Google. Tuần này, Microsoft Research đã đảo ngược hoàn toàn kịch bản với Fara1.5 — một gia đình mô hình nhỏ gọn, mã nguồn mở, vượt trội hơn cả hai đối thủ trên các bài kiểm tra duyệt web thực tế, đồng thời công bố trọng số và mã suy luận của nó. Fara1.5 là gì - Một gia đình ba mô hình (4B, 9B, 27B tham số) được xây dựng dựa trên nền tảng Qwen3.5 của Alibaba và tinh chỉnh bởi Microsoft cho các tác vụ trình duyệt. (Tham số cho thấy tương đối khả năng của mô hình; càng nhiều tham số thường đồng nghĩa với khả năng mạnh hơn.) - Tất cả trọng số mô hình đều được phát hành công khai và mã suy luận có sẵn trên GitHub, giúp bạn có thể chạy agent trên phần cứng do bạn kiểm soát thay vì phụ thuộc vào nhà cung cấp đám mây. Hiệu suất của nó (các bài kiểm tra web thực tế) Microsoft nhắm đến bài kiểm tra Online-Mind2Web — 300 tác vụ thực tế trên 136 trang web đang hoạt động (so sánh sản phẩm, điền biểu mẫu, đặt chỗ), được đánh giá dựa trên thành công trên web thực tế đang thay đổi: - Fara1.5-27B: 72,0% - OpenAI Operator: 58,3% - Google Gemini 2.5 Computer Use: 57,3% - Yutori Navigator n1 (đối thủ độc quyền hàng đầu): 64,7% - Fara1.5-9B: 63,4% (đã vượt trội hơn OpenAI và Google) Các đối thủ mã nguồn mở tụt hậu: GUI-Owl-1.5 của Alibaba (8B) đạt 48,6%; MolmoWeb của AI2 đạt 35,3%; Fara-7B cũ của Microsoft đạt 34,1% (do đó phiên bản mới gần như gấp đôi điểm số của mô hình trước đó). Trên WebVoyager — bài kiểm tra web thực tế thứ hai — Fara1.5-27B đạt 88,6% (so với 87,0% của OpenAI Operator và 83,0% của H Company’s Holo2-30B). Lý do nó chiến thắng Microsoft đã tái thiết kế toàn bộ quy trình phát triển từ đầu đến cuối. Các yếu tố then chốt: - FaraGen1.5: hệ thống tạo dữ liệu đặc biệt sử dụng GPT-5.4 (mô hình giáo viên của OpenAI) để tạo ra các minh họa chất lượng cao nhằm huấn luyện Fara1.5 — nói cách khác, Microsoft đã tận dụng mô hình hàng đầu của OpenAI làm giáo viên để huấn luyện một đối thủ mã nguồn mở. - Huấn luyện trên môi trường mô phỏng: sáu bản sao chức năng đầy đủ của các trang web thực tế (email, lịch, thị trường) cho phép mô hình luyện tập các quy trình nhạy cảm hoặc không thể hoàn tác (đăng nhập, đặt chỗ, gửi email) mà không cần tiếp xúc với tài khoản thật. - Mục tiêu và điều phối được thiết kế lại: dữ liệu, mục tiêu huấn luyện, kiến trúc mô hình và điều phối thời gian chạy được tối ưu hóa cùng nhau để giúp các mô hình nhỏ trở nên mạnh mẽ trong các tác vụ “agentic”. An toàn và kiểm soát Microsoft nhấn mạnh các biện pháp bảo vệ. Các mô hình được thiết kế để tạm dừng và yêu cầu xác nhận trước khi thực hiện hành động không thể hoàn tác. Một lớp giao diện người dùng (Magnetic-UI) và môi trường trình duyệt cách ly (MagneticLite) ghi lại mọi hành động và cho phép người dùng dừng agent bất kỳ lúc nào. Như Yash Lara của Microsoft lưu ý, cân bằng giữa các điểm kiểm tra mạnh mẽ và luồng trải nghiệm người dùng mượt mà là điều thiết yếu để tránh mệt mỏi do xác nhận liên tục mà vẫn đảm bảo an toàn cho người dùng. Điều này trái ngược với những cảnh báo trước đây từ OpenAI về việc agent truy cập dữ liệu nhạy cảm khi đăng nhập vào các dịch vụ; cách tiếp cận của Microsoft đặt trọng tâm vào môi trường cách ly và ghi log rõ ràng. Tại sao cộng đồng tiền điện tử nên quan tâm - Trọng số mở + suy luận tại chỗ = chủ quyền tự thân. Việc chạy các mô hình agentic trên hạ tầng được kiểm soát phù hợp với trọng tâm của tiền điện tử về quản lý và phi tập trung (ví dụ: bot tự lưu trữ có thể tương tác với dapp, sàn giao dịch hoặc công cụ DAO mà không phải tiết lộ khóa cho đám mây bên thứ ba). - Hành vi có thể kiểm tra: nhật ký sandbox và mã nguồn công khai giúp các chuyên gia kiểm toán và nhà phát triển dễ dàng xác minh hành vi của agent và tích hợp các biện pháp bảo vệ vào quy trình hợp đồng thông minh. - Bối cảnh cạnh tranh: một agent mở và hiệu suất cao làm giảm rủi ro bị khóa vào các API đám mây lớn và có thể thúc đẩy sự phát triển các công cụ tích hợp agent AI với hệ thống trên chuỗi. Khả năng tiếp cận và bước tiếp theo - Fara1.5-9B hiện đã có sẵn trên Azure AI Foundry; các phiên bản 4B và 27B sẽ ra mắt sớm. - Microsoft dự định mở rộng Fara1.5 vượt ra ngoài trình duyệt sang phần mềm máy tính để bàn và doanh nghiệp. Tóm lại Fara1.5 là một cột mốc: một agent duyệt web được phát hành công khai, có hiệu suất cạnh tranh vượt trội so với các đối thủ độc quyền trên các bài kiểm tra web thực tế, đồng thời mang lại sự kiểm soát và minh bạch mà cộng đồng quan tâm đến quyền riêng tư và phi tập trung cần có. Nếu bạn quan tâm đến việc chạy các agent mạnh mẽ trên hệ thống của riêng bạn — từ trợ lý giao dịch tự động đến trợ lý DAO — thì sản phẩm này xứng đáng được chú ý.