Tether AI abre o código do TurboQuant, reduzindo o uso de memória do cache KV do LLM em 5x

A Tether AI acabou de lançar o TurboQuant como software de código aberto, fornecendo uma ferramenta que reduz o uso de memória da inferência de modelos de linguagem grandes em até cinco vezes. A tecnologia visa um gargalo específico chamado cache chave-valor (KV), que é essencialmente a memória de trabalho que os modelos transformer usam para manter o contexto durante uma conversa.

O que o TurboQuant realmente faz

O algoritmo por trás do TurboQuant originou-se da Google Research, que publicou os detalhes iniciais em 24 de março de 2026. O que a Tether AI fez foi pegar esse artigo de pesquisa e transformá-lo em algo que desenvolvedores possam realmente implantar em produção. A liberação da Tether inclui um pipeline completo de quantização, adaptadores de framework e documentação abrangente.

A quantização é uma técnica que reduz a precisão dos números utilizados nos cálculos de redes neurais. Em vez de armazenar valores como números de ponto flutuante de 16 ou 32 bits, você os comprime para representações de 4 bits ou até mesmo 2 bits. O TurboQuant realiza isso especificamente para o cache KV.

Não é necessário re-treinar ou ajustar modelos. Desenvolvedores podem aplicar o TurboQuant a modelos existentes e frameworks de inferência existentes sem começar do zero.

Anúncio

O lançamento chegou como parte da versão 0.12.0 do QVAC SDK, que também inclui novas funcionalidades, como geração de texto para vídeo e controle de robôs. O QVAC é a plataforma mais ampla da Tether voltada para apoiar a IA descentralizada em dispositivos de consumo.

Por que uma empresa de stablecoin está construindo infraestrutura de IA

A Tether tem se expandido agressivamente além de sua stablecoin USDT, e a IA representa uma de suas maiores apostas. O CEO Paolo Ardoino posicionou os esforços da empresa em IA em torno de uma tese específica: que modelos de linguagem de alta qualidade devem ser executados localmente em dispositivos de consumo, como telefones e laptops, em vez de depender de serviços de nuvem centralizados.

O problema de memória é o obstáculo central para essa visão. Um modelo que exige 16 GB de memória apenas para seu cache KV não caberá na maioria dos dispositivos de consumo. Reduza isso para 3,2 GB e, de repente, a matemática começa a funcionar.

Ardoino enfatizou que o TurboQuant aproxima a realidade da IA local eficiente, resolvendo as limitações de memória que os modelos transformer enfrentam em hardware de consumo.

A plataforma QVAC se baseia em várias técnicas de quantização anteriores, incluindo PolarQuant e Quantized Johnson-Lindenstrauss. A equipe de IA da Tether tem combinado múltiplos métodos de compressão, cada um direcionado a diferentes partes do problema de eficiência, e o TurboQuant é a camada mais recente dessa pilha.

O que isso significa para os investidores

A natureza de código aberto do lançamento permite que qualquer desenvolvedor pegue o código, integre-o em seu pipeline de inferência e aproveite imediatamente as economias de memória. Trata-se de uma jogada estratégica para expandir o ecossistema ao redor do QVAC e posicionar a plataforma da Tether como o conjunto padrão de ferramentas para aplicações descentralizadas de IA.

A Google Research publicou o algoritmo subjacente. Nada impede a própria Google ou qualquer outro laboratório bem dotado de lançar sua própria implementação de produção. A inclusão de recursos de texto para vídeo e controle de robôs na mesma atualização do SDK sugere que a equipe está iterando rapidamente.

Observe se benchmarks independentes confirmam se a afirmação de compressão 5x se mantém em diferentes arquiteturas de modelo e comprimentos de contexto, pois técnicas de quantização às vezes se degradam em uso real com conversas mais longas ou tarefas de raciocínio mais complexas.