Stanford và Berkeley đề xuất LLM-as-a-Verifier, dẫn đầu bảng Terminal-Bench và SWE-Bench

Tin tức từ ME News, ngày 14 tháng 4 (UTC+8), theo giám sát của 1M AI News, khi các đại lý lập trình AI xử lý một nhiệm vụ đơn lẻ, việc chạy nhiều lần thường cho ra các giải pháp khác nhau, trong đó có giải pháp đúng và sai. Nếu có thể tự động chọn ra giải pháp tốt nhất, tỷ lệ thành công tổng thể có thể vượt quá một lần chạy duy nhất. Vấn đề nằm ở cách chọn: sử dụng một mô hình khác làm trọng tài chấm điểm (tức là LLM-as-a-Judge) hiện là phương pháp phổ biến, nhưng độ phân giải chấm điểm quá thô, thường gán cùng một điểm số cho các giải pháp khác nhau, không phân biệt được ưu劣. Phòng thí nghiệm AI Stanford và Phòng thí nghiệm Sky Computing thuộc Đại học Berkeley phối hợp với NVIDIA đề xuất LLM-as-a-Verifier, cải tiến quy trình lựa chọn này. Thay vì chỉ dựa vào điểm số cuối cùng do trọng tài đưa ra, phương pháp mới đọc phân bố xác suất của mô hình trên từng cấp độ chấm điểm để tính toán một giá trị phần thưởng liên tục. Đồng thời, trọng tài được yêu cầu đánh giá nhiều lần và lấy trung bình để loại bỏ thiên lệch ngẫu nhiên, đồng thời chia đánh giá tổng thể thành ba chiều độc lập (có đáp ứng yêu cầu nhiệm vụ không, định dạng đầu ra có đúng không, có tín hiệu lỗi nào không) để xác minh riêng biệt. Trong thí nghiệm, Gemini 2.5 Flash được sử dụng làm bộ xác minh, độ chính xác một lần là 74,7%, trong khi Judge truyền thống chỉ đạt 57,0%; sau 16 lần lặp lại, Verifier đạt 77,4%, Judge là 70,2%. Judge truyền thống có 26,5% các cặp so sánh kết thúc bằng hòa, trong khi Verifier duy trì tỷ lệ hòa ở mức 0% trong mọi cấu hình. Hiệu quả thực tế: Trên Terminal-Bench 2, khi chạy GPT-5.4 năm lần cùng một nhiệm vụ, tỷ lệ thành công khi chọn ngẫu nhiên một giải pháp là 81,8%, tăng lên 86,4% sau khi sử dụng Verifier để lựa chọn. Trên SWE-Bench Verified, lấy một giải pháp từ mỗi mô hình Claude Opus 4.5, Claude Opus 4.6 và Gemini 3 Flash (tổng cộng 3 giải pháp), tỷ lệ thành công tăng từ 76,1% lên 77,8%. Tính đến thời điểm công bố ngày 9 tháng 4, cả hai đều đứng đầu bảng. Khung công thức đã được mở nguồn. (Nguồn: BlockBeats)