Tin tức từ ME News, ngày 14 tháng 4 (UTC+8), theo giám sát của 1M AI News, khi các đại lý lập trình AI xử lý một nhiệm vụ đơn lẻ, việc chạy nhiều lần thường cho ra các giải pháp khác nhau, trong đó có giải pháp đúng và sai. Nếu có thể tự động chọn ra giải pháp tốt nhất, tỷ lệ thành công tổng thể có thể vượt quá một lần chạy duy nhất. Vấn đề nằm ở cách chọn: sử dụng một mô hình khác làm trọng tài chấm điểm (tức là LLM-as-a-Judge) hiện là phương pháp phổ biến, nhưng độ phân giải chấm điểm quá thô, thường gán cùng một điểm số cho các giải pháp khác nhau, không phân biệt được ưu劣. Phòng thí nghiệm AI Stanford và Phòng thí nghiệm Sky Computing thuộc Đại học Berkeley phối hợp với NVIDIA đề xuất LLM-as-a-Verifier, cải tiến quy trình lựa chọn này. Thay vì chỉ dựa vào điểm số cuối cùng do trọng tài đưa ra, phương pháp mới đọc phân bố xác suất của mô hình trên từng cấp độ chấm điểm để tính toán một giá trị phần thưởng liên tục. Đồng thời, trọng tài được yêu cầu đánh giá nhiều lần và lấy trung bình để loại bỏ thiên lệch ngẫu nhiên, đồng thời chia đánh giá tổng thể thành ba chiều độc lập (có đáp ứng yêu cầu nhiệm vụ không, định dạng đầu ra có đúng không, có tín hiệu lỗi nào không) để xác minh riêng biệt. Trong thí nghiệm, Gemini 2.5 Flash được sử dụng làm bộ xác minh, độ chính xác một lần là 74,7%, trong khi Judge truyền thống chỉ đạt 57,0%; sau 16 lần lặp lại, Verifier đạt 77,4%, Judge là 70,2%. Judge truyền thống có 26,5% các cặp so sánh kết thúc bằng hòa, trong khi Verifier duy trì tỷ lệ hòa ở mức 0% trong mọi cấu hình. Hiệu quả thực tế: Trên Terminal-Bench 2, khi chạy GPT-5.4 năm lần cùng một nhiệm vụ, tỷ lệ thành công khi chọn ngẫu nhiên một giải pháp là 81,8%, tăng lên 86,4% sau khi sử dụng Verifier để lựa chọn. Trên SWE-Bench Verified, lấy một giải pháp từ mỗi mô hình Claude Opus 4.5, Claude Opus 4.6 và Gemini 3 Flash (tổng cộng 3 giải pháp), tỷ lệ thành công tăng từ 76,1% lên 77,8%. Tính đến thời điểm công bố ngày 9 tháng 4, cả hai đều đứng đầu bảng. Khung công thức đã được mở nguồn. (Nguồn: BlockBeats)
Stanford và Berkeley đề xuất LLM-as-a-Verifier, dẫn đầu bảng Terminal-Bench và SWE-Bench
KuCoinFlashChia sẻ
Tin tức altcoin hàng đầu ngày 14 tháng 4 (UTC+8) cho thấy Phòng thí nghiệm AI của Stanford và Phòng thí nghiệm Sky Computing của Berkeley, cùng với NVIDIA, đề xuất LLM-as-a-Verifier để cải thiện việc lựa chọn giải pháp AI. Phương pháp này sử dụng phần thưởng liên tục từ phân phối đánh giá qua các lần kiểm tra, đạt độ chính xác 77,4% sau 16 lần thử nghiệm, tốt hơn so với LLM-as-a-Judge truyền thống ở mức 70,2%. Trên Terminal-Bench 2 và SWE-Bench Verified, tỷ lệ thành công đạt 86,4% và 77,8%, trở thành nhà dẫn đầu tính đến ngày 9 tháng 4. Khung này hiện đã được mở nguồn. Tin tức AI + crypto tiếp tục nhấn mạnh những bước đột phá trong xác minh và hiệu suất.
Nguồn:Hiển thị bản gốc
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể được lấy từ bên thứ ba và không nhất thiết phản ánh quan điểm hoặc ý kiến của KuCoin. Nội dung này chỉ được cung cấp cho mục đích thông tin chung, không có bất kỳ đại diện hay bảo đảm nào dưới bất kỳ hình thức nào và cũng không được hiểu là lời khuyên tài chính hay đầu tư. KuCoin sẽ không chịu trách nhiệm về bất kỳ sai sót hoặc thiếu sót nào hoặc về bất kỳ kết quả nào phát sinh từ việc sử dụng thông tin này.
Việc đầu tư vào tài sản kỹ thuật số có thể tiềm ẩn nhiều rủi ro. Vui lòng đánh giá cẩn thận rủi ro của sản phẩm và khả năng chấp nhận rủi ro của bạn dựa trên hoàn cảnh tài chính của chính bạn. Để biết thêm thông tin, vui lòng tham khảo Điều khoản sử dụng và Tiết lộ rủi ro của chúng tôi.