Tether lança o TurboQuant para permitir modelos de IA maiores em dispositivos

O TurboQuant da Tether reduz o uso de memória da IA em até 5x, ajudando dispositivos a executar tarefas mais longas localmente.
QVAC 0.12.0 permite que desenvolvedores executem cargas de trabalho de IA maiores em laptops e telefones com menos pressão na memória.
TurboQuant resolve o gargalo de memória da IA, permitindo conversas mais longas, arquivos maiores e projetos de código maiores.

A Tether adicionou uma nova ferramenta de otimização de memória ao QVAC SDK 0.12.0, uma medida que pode ajudar laptops, smartphones e outros dispositivos a lidar com cargas de trabalho maiores localmente. Ao anunciar a atualização no X, o CEO Paolo Ardoino disse que a versão inclui o TurboQuant, uma tecnologia que reduz os requisitos de memória da IA em até cinco vezes, mantendo qualidade de saída quase idêntica.

A atualização concentra-se em uma limitação chave para modelos de linguagem de grande porte: memória. Conforme conversas e tarefas se tornam mais longas, a demanda por memória aumenta significativamente. O TurboQuant reduz essa carga, permitindo que dispositivos trabalhem com documentos maiores, conversas mais longas e mais informações ao mesmo tempo.

🚨🤖 A Tether AI lança a quantização TurboQuant KV-Cache no QVAC SDK 0.12.0, reduzindo em até 5x os requisitos de memória do cache KV, com perda quase nula.

Um passo mais próximo de um AI local de alta qualidade! https://t.co/wZjXgR0Bu5
— Paolo Ardoino 🤖 (@paoloardoino) June 1, 2026

O lançamento também adiciona geração de texto para vídeo, recursos de controle de robô, suporte a assistente de codificação, atualizações no processamento de voz e ferramentas de classificação de imagem mais rápidas.

TurboQuant visa o gargalo de memória da IA

O TurboQuant está no centro da versão 0.12.0 do QVAC SDK. A tecnologia comprime o cache KV, um tipo de memória de trabalho que modelos de IA usam para acompanhar conversas, documentos e outras informações durante uma sessão.

As demandas de memória aumentam à medida que os usuários inserem mais informações em um modelo. A Tether afirmou que um modelo de 4 bilhões de parâmetros processando cerca de 262.000 tokens pode exigir aproximadamente 8 GB de memória apenas para o cache. Executar várias sessões nessa escala pode rapidamente ultrapassar os limites de muitos laptops e dispositivos de consumo.

O TurboQuant visa reduzir essa pressão. Segundo a Tether, a tecnologia pode reduzir os requisitos de memória KV cache em até cinco vezes, mantendo praticamente a mesma qualidade de saída. Como resultado, os usuários podem trabalhar com conversas mais longas, documentos maiores e bases de código maiores sem depender tanto de recursos de computação remota.

QVAC se expande além dos modelos de linguagem

A atualização inclui mais do que melhorias de memória. O QVAC SDK 0.12.0 adiciona várias novas ferramentas voltadas para expandir o que os desenvolvedores podem executar em dispositivos locais.

Entre as novidades está o suporte à geração de texto para vídeo por meio do modelo Wan2.1. A plataforma também introduz um recurso de visão-linguagem-ação que permite aos desenvolvedores criar aplicações para controle robótico.

O lançamento também adiciona uma ferramenta leve de classificação de imagens projetada para tarefas que não exigem modelos de visão maiores. Ao mesmo tempo, o QVAC migrou seus sistemas de texto para fala e transcrição para seu mecanismo GGML, uma mudança que amplia o suporte em principais sistemas operacionais de desktop e móveis.

Desenvolvedores também ganharam novas opções para assistentes de codificação. O QVAC agora se integra ao OpenCode e ao OpenClaw por meio de um pacote de provedor que simplifica o gerenciamento e a implantação de modelos.

Relacionado: Co-fundador da Multicoin declara que “Web3 está morta” amid crise de identidade cripto

IA de código aberto se aproxima da borda

A liberação mostra o foco da Tether em executar mais tarefas de computação diretamente nos dispositivos dos usuários, em vez de depender inteiramente de data centers centralizados. A empresa tem se concentrado cada vez mais em software que pode operar em dispositivos pessoais, redes locais e sistemas descentralizados.

“A pesquisa do Google mostrou que a memória da IA pode ser comprimida muito mais eficientemente do que a maioria das pessoas assumia. Nosso trabalho traz essa descoberta para software de produção que desenvolvedores, startups e usuários podem realmente construir”, disse Ardoino.

Ele acrescentou: “As pessoas devem ser capazes de pedir a um assistente de IA para ler um documento longo, lembrar de um projeto, ajudar com código ou trabalhar com informações privadas, sem que cada tarefa seja forçada a passar por um centro de dados remoto.”

O lançamento ocorre à medida que a Tether expande seus esforços além das ferramentas de otimização de memória. Ardoino revelou recentemente que a empresa está desenvolvendo um mecanismo de busca ponto a ponto de código aberto e compartilhou uma demonstração de um sistema de busca descentralizado para a Wikipedia.

Relacionado: Michael Burry chama o acordo de $5,4 bilhões em GPUs da Nvidia de ‘Fugazi’

Disclaimer: As informações apresentadas neste artigo são apenas para fins informativos e educacionais. O artigo não constitui aconselhamento financeiro ou qualquer outro tipo de aconselhamento. A Coin Edition não se responsabiliza por quaisquer perdas decorrentes da utilização do conteúdo, produtos ou serviços mencionados. Recomenda-se aos leitores que exerçam cautela antes de tomar qualquer ação relacionada à empresa.