OpenBMB lance MiniCPM5-1B pour agent IA sur appareil

CoinDesk rapporte :

OpenBMB a lancé le premier modèle de la série MiniCPM5, MiniCPM5-1B, conçu non pour rivaliser directement avec les grands modèles, mais pour permettre l'exécution d'agents IA locaux sur des appareils grand public tels que les téléphones. Ce modèle compte 1 milliard de paramètres, prend en charge MCP et l'appel natif d'outils, avec pour objectif principal de permettre aux appareils d'accomplir des tâches d'agent léger sans dépendre d'une connexion cloud.

Principalement déployé sur l'appareil et avec un contexte long

Du point de vue de sa position produit, le point fort de MiniCPM5-1B n'est pas la diversité des connaissances, mais la capacité à accomplir davantage de tâches avec un volume réduit. La fenêtre de contexte du modèle atteint 128K, permettant de traiter des documents longs, des conversations continues et des chaînes de tâches étendues. Pour un modèle de 1 milliard de paramètres, cette spécification approche la plage d'utilisation pratique pour les applications en périphérie.

L'article mentionne que ce modèle peut être utilisé pour lire des notes, résumer des PDF, répondre à des questions liées à des documents, ainsi qu'appeler localement un calendrier, une base de données ou des services de recherche externes. En combinant ce modèle avec un serveur MCP, il est également possible d'intégrer des fonctionnalités telles que la recherche sur le web dans les flux de travail locaux.

Nombre de paramètres : 1 milliard
Taille de la fenêtre de contexte : 128K
Capacités prises en charge : MCP, appel d'outils natifs

La méthode d'entraînement met l'accent sur l'efficacité.

MiniCPM5-1B est construit sur l'architecture MiniCPM4, dont l'une des technologies clés est InfLLM v2. Ce mécanisme permet, lors de l'inférence sur de longs contextes, de limiter les interactions de chaque token à un petit nombre de tokens environnants, réduisant ainsi la charge de calcul tout en préservant au maximum la précision.

En ce qui concerne le traitement des données, l'équipe utilise un processus de filtrage appelé UltraClean et affirme que le modèle a obtenu de bonnes performances sur environ 8 billions de tokens d'entraînement. La phase de post-entraînement combine l'apprentissage par renforcement et la distillation pour améliorer les scores aux tests de mathématiques, de codage et de suivi d'instructions, tout en réduisant les sorties longues.

Leading in benchmarking, but reasoning remains limited

Selon les résultats de comparaison fournis par OpenBMB, MiniCPM5-1B obtient une note moyenne supérieure à ses concurrents de même niveau dans plusieurs tests, notamment en connaissances générales, connaissances spécialisées, codage, mathématiques, logique et tâches d'agent, avec un avantage particulièrement marqué en matière de capacité d'agent et de tâches générales.

Cependant, les tests réalisés par les médias ont également révélé que ce modèle commet encore des erreurs sur des questions de logique de base. Par exemple, face à une question juridique sur le mariage comportant un piège évident, le modèle n'a pas identifié la contradiction logique intrinsèque à la question, mais a fourni une analyse juridique apparemment complète. Dans un autre test, le modèle n'a pas répondu directement à une question à choix multiples, mais a privilégié une réponse intermédiaire.

Cela signifie que MiniCPM5-1B est plus adapté aux tâches légères et aux scénarios d'appel d'outils, et non à l'accomplissement isolé de jugements factuels à haute précision. Selon le rapport, une fois connecté à des outils externes ou à des serveurs de recherche, les performances de ces petits modèles en matière d'hallucinations sur des questions factuelles peu courantes devraient diminuer de manière significative.

Téléchargement ouvert

MiniCPM5-1B est désormais disponible sur Hugging Face sous licence Apache 2.0, avec une compatibilité pour les frameworks d'inférence vLLM, SGLang et Transformers. Pour l'IA sur appareil, ces petits modèles, capables de s'exécuter localement, d'appeler des outils et de conserver un contexte long, évoluent progressivement de projets de recherche vers des produits concrets.