Caltech disponibiliza abertamente o modelo Bonsai de 1 bit: 8 bilhões de parâmetros em 1,15 GB, 44 tok/s no iPhone

Mensagem da ChainThink, 1º de abril de 2026: segundo monitoramento da 1M AI News, o laboratório de IA PrismML, cofundado pelo matemático do Caltech Babak Hassibi, encerra seu período de ocultação e lança open source a série de modelos de linguagem grande 1-bit Bonsai. O modelo principal, 1-bit Bonsai 8B, possui 8,2 bilhões de parâmetros e ocupa apenas 1,15 GB de memória, comprimindo cerca de 14 vezes em comparação com modelos de 16-bit da mesma categoria. Também foram lançados dois modelos menores: 4B (0,5 GB) e 1,7B (0,24 GB).

Bonsai 8B é um modelo verdadeiro de 1-bit end-to-end, com camadas de incorporação, camadas de atenção, camadas MLP e cabeças de saída utilizando exclusivamente pesos de +1 ou -1, sem patches de alta precisão. A PrismML afirma que sua capacidade de inferência e compreensão linguística em benchmarks padrão é equivalente a modelos de precisão total de 16-bit. A matemática central de compressão foi desenvolvida pela equipe ao longo de vários anos no Caltech, com propriedade intelectual pertencente ao Caltech, e a PrismML é a única detentora de licença exclusiva. O modelo foi treinado usando TPU v4 do Google.

Em termos de velocidade real, o M4 Pro Mac atinge 136 tok/s, a RTX 4090 atinge 440 tok/s e o iPhone 17 Pro Max atinge cerca de 44 tok/s; modelos padrão de 8B com 16 bits não cabem em nenhum iPhone, e o consumo de energia é reduzido em aproximadamente 4 a 5 vezes em comparação com modelos de 16 bits. A PrismML observa que o hardware atual não foi projetado para inferência de 1 bit; as vantagens de velocidade e consumo de energia vêm principalmente da redução no uso de memória. Se no futuro surgirem hardwares projetados especificamente para 1 bit, a eficiência poderá aumentar ainda mais em uma ordem de grandeza.

PrismML concluiu um financiamento SAFE e semente de US$ 16,25 milhões, com investimentos da Khosla Ventures, Cerberus Capital e Caltech. O fundador da Khosla Ventures, Vinod Khosla, avaliou o resultado como "não uma pequena iteração, mas uma grande ruptura tecnológica, uma ruptura matemática, não apenas mais um pequeno modelo".