De acordo com o monitoramento da 1M AI News, o Google Research lançou o algoritmo de compressão quantizada TurboQuant, que pode comprimir o cache KV de modelos de linguagem grandes para 3 bits, reduzindo o uso de memória em pelo menos 6 vezes, sem necessidade de treinamento ou fine-tuning e sem perda de precisão do modelo. No modo de 4 bits, a velocidade de cálculo da atenção no GPU NVIDIA H100 aumenta até 8 vezes em comparação com a linha de base não quantizada de 32 bits.
A equipe de pesquisa validou o TurboQuant em benchmarks de contexto longo como LongBench, Needle In A Haystack e ZeroSCROLLS, usando modelos Gemma e Mistral, alcançando desempenho ótimo em todos os testes. O algoritmo é composto por dois subalgoritmos: o PolarQuant elimina o custo de memória dos métodos tradicionais de quantização por meio de transformação em coordenadas polares, e o QJL corrige erros residuais usando apenas 1 bit.
Este estudo foi conduzido por Amir Zandieh do Google Research e pelo vice-presidente e Google Fellow Vahab Mirrokni, em colaboração com a KAIST da Coreia do Sul e a Universidade de Nova York, e será publicado no ICLR 2026. O Google afirmou que uma das principais aplicações dessa tecnologia é resolver o gargalo de cache KV em modelos como o Gemini.
A Google Research apresenta o TurboQuant: quantização de 3 bits sem perda de precisão, acelerando a inferência em até 8x
KuCoinFlashCompartilhar






A Google Research apresentou o TurboQuant, um método de quantização de 3 bits que reduz o uso de memória do cache KV em 6x sem perda de precisão. Em GPUs NVIDIA H100, cálculos de atenção de 4 bits operam até 8x mais rápido do que modelos de 32 bits. Testado em Gemma e Mistral usando LongBench, Needle In A Haystack e ZeroSCROLLS, o método obteve os melhores resultados. Desenvolvido por Amir Zandieh e Vahab Mirrokni em parceria com KAIST e NYU, o artigo será apresentado no ICLR 2026. Dados on-chain mostram crescente interesse em altcoins para acompanhar, pois ganhos de eficiência impulsionam a adoção.
Fonte:Mostrar original
Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações.
Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.