ProgramBench utilise une métrique peu utile / étrange comme ARC-AGI. > score principal de tous les modèles → 0 % > analyse en détail > Opus 4.6 et 4.7 réussissent en moyenne plus de 50 % des tests par tâche > pourquoi ? > ils ne considèrent une tâche comme réussie que si 100 % des tests sont concluants et comme nous le savons tous, les logiciels fonctionnent parfaitement dès la première itération. C’est quand même un très bon benchmark, mais je suppose que le score principal sera assez inutile. Au moins, ils disposent d’autres bonnes métriques que vous pouvez suivre.

Partager







Source:Afficher l'original
Clause de non-responsabilité : les informations sur cette page peuvent avoir été obtenues auprès de tiers et ne reflètent pas nécessairement les points de vue ou opinions de KuCoin. Ce contenu est fourni à titre informatif uniquement, sans aucune représentation ou garantie d’aucune sorte, et ne doit pas être interprété comme un conseil en investissement. KuCoin ne sera pas responsable des erreurs ou omissions, ni des résultats résultant de l’utilisation de ces informations.
Les investissements dans les actifs numériques peuvent être risqués. Veuillez évaluer soigneusement les risques d’un produit et votre tolérance au risque en fonction de votre propre situation financière. Pour plus d’informations, veuillez consulter nos conditions d’utilisation et divulgation des risques.