PrismML lança modelo ternário Bonsai de 1,58 bits com 9x menos parâmetros e maior inteligência

Notícia da ME, em 17 de abril (UTC+8), segundo monitoramento da Beating, a PrismML lançou a série de modelos de linguagem Ternary Bonsai, utilizando a tecnologia de 1,58 bits (pesos ternários) para reduzir o uso de memória GPU para um nono do tamanho de modelos de 16 bits, mantendo alto desempenho. A série inclui três tamanhos de parâmetros: 8B, 4B e 1,7B, e já está aberta no Hugging Face, com suporte nativo para dispositivos Apple. O termo "modelo de 1,58 bits" refere-se à restrição dos pesos da rede neural aos três valores {-1, 0, +1}. Em comparação com modelos de 1 bit anteriores, que apenas utilizavam {-1, +1} para máxima compressão, a introdução do valor "0" permite eliminar efetivamente conexões redundantes, preservando capacidades de raciocínio complexas mesmo em tamanhos extremamente reduzidos. O arquivo de pesos da Ternary Bonsai 8B tem apenas 1,75 GB e obteve uma pontuação média de 75,5 nos testes de referência — superando em 5 pontos a versão de 1 bit da própria empresa e liderando significativamente em "densidade inteligente" (desempenho por GB de memória GPU) em relação a modelos densos similares como o Qwen3. Outra vantagem central da série é sua eficiência energética e velocidade de execução. No iPhone 17 Pro Max, a versão 8B alcança até 27 tok/s, com aumento de eficiência energética de cerca de 3 a 4 vezes. Para desenvolvedores que precisam implantar IA de alto desempenho em dispositivos de borda como smartphones e notebooks, isso significa obter um desempenho inteligente próximo ao de modelos de precisão completa com custo de memória mínimo. Atualmente, os modelos Ternary Bonsai já têm suporte nativo em dispositivos Apple por meio do framework MLX. Os pesos dos modelos são distribuídos sob a licença Apache 2.0. (Fonte: BlockBeats)