Tether AI abre o código do TurboQuant, reduzindo o uso de memória do cache KV do LLM em 5x

iconCryptoBriefing
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
A Tether AI lançou o TurboQuant como código aberto, uma ferramenta que reduz o uso de memória do cache KV de LLMs em 5x. A tecnologia visa um gargalo chave em modelos transformer e é baseada em pesquisa do Google de 24 de março de 2026. A Tether adaptou-a para uma solução pronta para produção, com suporte completo à quantização. O lançamento faz parte do QVAC SDK 0.12.0, que inclui text-to-video e controle de robôs. O CEO da Tether, Paolo Ardoino, afirmou que a ferramenta permite executar LLMs de alta qualidade localmente em dispositivos de consumo. A iniciativa de código aberto visa expandir o ecossistema QVAC e posicionar a Tether como uma plataforma descentralizada de IA. Este é um grande avanço nas notícias de IA + cripto e notícias on-chain.

A Tether AI acabou de lançar o TurboQuant como software de código aberto, fornecendo uma ferramenta que reduz o uso de memória da inferência de modelos de linguagem grandes em até cinco vezes. A tecnologia visa um gargalo específico chamado cache chave-valor (KV), que é essencialmente a memória de trabalho que os modelos transformer usam para manter o contexto durante uma conversa.

O que o TurboQuant realmente faz

O algoritmo por trás do TurboQuant originou-se da Google Research, que publicou os detalhes iniciais em 24 de março de 2026. O que a Tether AI fez foi pegar esse artigo de pesquisa e transformá-lo em algo que desenvolvedores possam realmente implantar em produção. A liberação da Tether inclui um pipeline completo de quantização, adaptadores de framework e documentação abrangente.

A quantização é uma técnica que reduz a precisão dos números utilizados nos cálculos de redes neurais. Em vez de armazenar valores como números de ponto flutuante de 16 ou 32 bits, você os comprime para representações de 4 bits ou até mesmo 2 bits. O TurboQuant realiza isso especificamente para o cache KV.

Não é necessário re-treinar ou ajustar modelos. Desenvolvedores podem aplicar o TurboQuant a modelos existentes e frameworks de inferência existentes sem começar do zero.

Anúncio

O lançamento chegou como parte da versão 0.12.0 do QVAC SDK, que também inclui novas funcionalidades, como geração de texto para vídeo e controle de robôs. O QVAC é a plataforma mais ampla da Tether voltada para apoiar a IA descentralizada em dispositivos de consumo.

Por que uma empresa de stablecoin está construindo infraestrutura de IA

A Tether tem se expandido agressivamente além de sua stablecoin USDT, e a IA representa uma de suas maiores apostas. O CEO Paolo Ardoino posicionou os esforços da empresa em IA em torno de uma tese específica: que modelos de linguagem de alta qualidade devem ser executados localmente em dispositivos de consumo, como telefones e laptops, em vez de depender de serviços de nuvem centralizados.

O problema de memória é o obstáculo central para essa visão. Um modelo que exige 16 GB de memória apenas para seu cache KV não caberá na maioria dos dispositivos de consumo. Reduza isso para 3,2 GB e, de repente, a matemática começa a funcionar.

Ardoino enfatizou que o TurboQuant aproxima a realidade da IA local eficiente, resolvendo as limitações de memória que os modelos transformer enfrentam em hardware de consumo.

A plataforma QVAC se baseia em várias técnicas de quantização anteriores, incluindo PolarQuant e Quantized Johnson-Lindenstrauss. A equipe de IA da Tether tem combinado múltiplos métodos de compressão, cada um direcionado a diferentes partes do problema de eficiência, e o TurboQuant é a camada mais recente dessa pilha.

O que isso significa para os investidores

A natureza de código aberto do lançamento permite que qualquer desenvolvedor pegue o código, integre-o em seu pipeline de inferência e aproveite imediatamente as economias de memória. Trata-se de uma jogada estratégica para expandir o ecossistema ao redor do QVAC e posicionar a plataforma da Tether como o conjunto padrão de ferramentas para aplicações descentralizadas de IA.

A Google Research publicou o algoritmo subjacente. Nada impede a própria Google ou qualquer outro laboratório bem dotado de lançar sua própria implementação de produção. A inclusão de recursos de texto para vídeo e controle de robôs na mesma atualização do SDK sugere que a equipe está iterando rapidamente.

Observe se benchmarks independentes confirmam se a afirmação de compressão 5x se mantém em diferentes arquiteturas de modelo e comprimentos de contexto, pois técnicas de quantização às vezes se degradam em uso real com conversas mais longas ou tarefas de raciocínio mais complexas.

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.