ProgramBench ใช้ตัวชี้วัดที่ไม่ค่อยมีประโยชน์หรือแปลกประหลาดอย่าง ARC-AGI > คะแนนหัวข้อของโมเดลทั้งหมด -> 0% > ดูรายละเอียด > Opus 4.6 และ 4.7 ผ่านโดยเฉลี่ยมากกว่า 50% ของการทดสอบต่อภารกิจ > ทำไม? > เพราะพวกเขาถือว่าภารกิจผ่านได้ก็ต่อเมื่อการทดสอบทั้งหมดสำเร็จ 100% และอย่างที่เราทุกคนรู้ ซอฟต์แวร์ไม่เคยทำงานได้อย่างสมบูรณ์แบบในรอบแรก มันยังคงเป็นแบบทดสอบที่ดีมาก แต่ฉันคิดว่าคะแนนหัวข้อจะค่อนข้างไม่มีประโยชน์ อย่างน้อยพวกเขาก็มีตัวชี้วัดอื่นๆ ที่ดีที่คุณสามารถติดตามได้

แชร์







แหล่งที่มา:แสดงต้นฉบับ
คำปฏิเสธความรับผิดชอบ: ข้อมูลในหน้านี้อาจได้รับจากบุคคลที่สาม และไม่จำเป็นต้องสะท้อนถึงมุมมองหรือความคิดเห็นของ KuCoin เนื้อหานี้จัดทำขึ้นเพื่อวัตถุประสงค์ในการให้ข้อมูลทั่วไปเท่านั้น โดยไม่มีการรับรองหรือการรับประกัน และจะไม่ถูกตีความว่าเป็นคำแนะนำทางการเงินหรือการลงทุน KuCoin จะไม่รับผิดชอบต่อความผิดพลาดหรือการละเว้นในเนื้อหา หรือผลลัพธ์ใดๆ ที่เกิดจากการใช้ข้อมูลนี้
การลงทุนในสินทรัพย์ดิจิทัลอาจมีความเสี่ยง โปรดประเมินความเสี่ยงของผลิตภัณฑ์และความเสี่ยงที่คุณยอมรับได้อย่างรอบคอบตามสถานการณ์ทางการเงินของคุณเอง โปรดดูข้อมูลเพิ่มเติมได้ที่ข้อกำหนดการใช้งานและเอกสารเปิดเผยข้อมูลความเสี่ยงของเรา