Microsoft 的 Fara1.5 在網頁瀏覽基準測試中表現優於 OpenAI 和 Google

微軟開源瀏覽器代理 Fara1.5 表現超越 OpenAI 與 Google — 且設計為可在您的控制下運行想像一下，告訴 AI 去瀏覽五個旅遊網站、比較選項、填寫預訂表格，並確認離海灘最近的租屋——然後回來時發現任務已完成。這正是「電腦使用代理」的承諾：能夠像人類一樣讀取您的瀏覽器、點擊、滾動和輸入的模型。到目前為止，這場競賽中進展最快的都是昂貴的專有雲端服務：OpenAI 的 Operator（2025 年 1 月推出的每月 200 美元產品，後併入 ChatGPT Agent）和 Google 的 Gemini 2.5 Computer Use。本周，微軟研究團隊以 Fara1.5 順利逆轉局勢——這是一組緊湊的開源模型系列，在真實網頁瀏覽基準測試中表現超越上述兩者，並公開了其權重與推論代碼。 Fara1.5 是什麼？ - 一組三種模型（4B、9B、27B 參數），基於阿里巴巴的 Qwen3.5 基礎模型，並由微軟針對瀏覽器任務進行微調。（參數大致反映模型的容量；數值越高通常代表能力越強。） - 所有模型權重均已公開釋出，推論代碼位於 GitHub，讓您可在自己控制的硬體上運行代理，而非依賴雲端供應商。其表現如何（真實網頁基準測試）？微軟針對 Online-Mind2Web 基準進行測試——涵蓋 136 個實時網站的 300 個真實任務（產品比較、表單填寫、預訂），以實際變動的網頁上的成功率為評分標準： - Fara1.5-27B：72.0% - OpenAI Operator：58.3% - Google Gemini 2.5 Computer Use：57.3% - Yutori Navigator n1（頂級專有競爭對手）：64.7% - Fara1.5-9B：63.4%（已超越 OpenAI 與 Google）開源競爭對手表現落後：阿里巴巴的 GUI-Owl-1.5（8B）48.6%；AI2 的 MolmoWeb 35.3%；微軟舊版 Fara-7B 34.1%（因此新版本幾乎將前一代模型的分數翻倍）。在第二個實時網頁基準 WebVoyager 上，Fara1.5-27B 得分為 88.6%（對比 OpenAI Operator 的 87.0% 和 H 公司的 Holo2-30B 的 83.0%）。為何它能勝出？微軟從頭到尾重建了開發流程。關鍵要素包括： - FaraGen1.5：專屬的數據生成系統，利用 GPT-5.4（OpenAI 的教師模型）生成高品質示範數據以訓練 Fara1.5——換句話說，微軟運用頂尖的 OpenAI 模型作為教師，訓練出一個開源競爭者。 - 合成領域訓練：六個完整功能的真實網站複製品（郵件、日曆、市場平台），讓模型能在不觸及真實帳戶的情況下反覆練習敏感或不可逆的操作（登入、預訂、發送郵件）。 - 重新設計的目標與協調機制：數據、訓練目標、模型架構與運行時協調被一併優化，以提升小型模型在「代理」任務中的穩定性。安全與控制微軟強調了安全防護措施。模型設計為在執行不可逆操作前會暫停並請求確認。一個使用者介面層（Magnetic-UI）與沙盒式瀏覽器環境（MagneticLite）會記錄所有操作，並允許使用者隨時終止代理。正如微軟的 Yash Lara 所言，平衡強力檢查點與流暢的使用者流程至關重要，以避免使用者因頻繁確認而產生疲勞，同時確保安全。這與 OpenAI 早期對代理在登入服務時存取敏感資料的警告形成對比；微軟的方法則強調沙盒環境與明確的日誌記錄。為何加密貨幣用戶應關注此技術？ - 開源權重 + 本地推論 = 自主掌控。在受控基礎設施上運行代理模型，與加密貨幣強調保管與去中心化的理念一致（例如自託管機器人可與 DApp、交易所或 DAO 工具互動，而無需將密鑰暴露於第三方雲端）。 - 可審計行為：沙盒日誌與公開代碼使審計員與開發者更容易驗證代理行為，並將安全措施整合至智能合約工作流程中。 - 競爭格局：一個開源且高性能的代理，降低了對大型雲端 API 的依賴風險，並可能加速將 AI 代理與鏈上系統整合的工具發展。可用性與下一步計劃 - Fara1.5-9B 已於 Azure AI Foundry 上線；4B 與 27B 版本將很快推出。 - 微軟計劃將 Fara1.5 擴展至瀏覽器以外的領域，包括桌面與企業軟體。總結 Fara1.5 是一個里程碑式的成果：一款公開發布、表現競爭力強大的瀏覽器代理，在真實網頁基準測試中超越專有方案，同時提供隱私意識與去中心化社群所重視的控制力與透明度。若您關心在自己的系統上運行強大代理——無論是自動化交易助手還是 DAO 助理——這款工具都值得關注。