- O TurboQuant da Tether reduz o uso de memória da IA em até 5x, ajudando dispositivos a executar tarefas mais longas localmente.
- QVAC 0.12.0 permite que desenvolvedores executem cargas de trabalho de IA maiores em laptops e telefones com menos pressão na memória.
- TurboQuant resolve o gargalo de memória da IA, permitindo conversas mais longas, arquivos maiores e projetos de código maiores.
A Tether adicionou uma nova ferramenta de otimização de memória ao QVAC SDK 0.12.0, uma medida que pode ajudar laptops, smartphones e outros dispositivos a lidar com cargas de trabalho maiores localmente. Ao anunciar a atualização no X, o CEO Paolo Ardoino disse que a versão inclui o TurboQuant, uma tecnologia que reduz os requisitos de memória da IA em até cinco vezes, mantendo qualidade de saída quase idêntica.
A atualização concentra-se em uma limitação chave para modelos de linguagem de grande porte: memória. Conforme conversas e tarefas se tornam mais longas, a demanda por memória aumenta significativamente. O TurboQuant reduz essa carga, permitindo que dispositivos trabalhem com documentos maiores, conversas mais longas e mais informações ao mesmo tempo.
O lançamento também adiciona geração de texto para vídeo, recursos de controle de robô, suporte a assistente de codificação, atualizações no processamento de voz e ferramentas de classificação de imagem mais rápidas.
TurboQuant visa o gargalo de memória da IA
O TurboQuant está no centro da versão 0.12.0 do QVAC SDK. A tecnologia comprime o cache KV, um tipo de memória de trabalho que modelos de IA usam para acompanhar conversas, documentos e outras informações durante uma sessão.
As demandas de memória aumentam à medida que os usuários inserem mais informações em um modelo. A Tether afirmou que um modelo de 4 bilhões de parâmetros processando cerca de 262.000 tokens pode exigir aproximadamente 8 GB de memória apenas para o cache. Executar várias sessões nessa escala pode rapidamente ultrapassar os limites de muitos laptops e dispositivos de consumo.
O TurboQuant visa reduzir essa pressão. Segundo a Tether, a tecnologia pode reduzir os requisitos de memória KV cache em até cinco vezes, mantendo praticamente a mesma qualidade de saída. Como resultado, os usuários podem trabalhar com conversas mais longas, documentos maiores e bases de código maiores sem depender tanto de recursos de computação remota.
QVAC se expande além dos modelos de linguagem
A atualização inclui mais do que melhorias de memória. O QVAC SDK 0.12.0 adiciona várias novas ferramentas voltadas para expandir o que os desenvolvedores podem executar em dispositivos locais.
Entre as novidades está o suporte à geração de texto para vídeo por meio do modelo Wan2.1. A plataforma também introduz um recurso de visão-linguagem-ação que permite aos desenvolvedores criar aplicações para controle robótico.
O lançamento também adiciona uma ferramenta leve de classificação de imagens projetada para tarefas que não exigem modelos de visão maiores. Ao mesmo tempo, o QVAC migrou seus sistemas de texto para fala e transcrição para seu mecanismo GGML, uma mudança que amplia o suporte em principais sistemas operacionais de desktop e móveis.
Desenvolvedores também ganharam novas opções para assistentes de codificação. O QVAC agora se integra ao OpenCode e ao OpenClaw por meio de um pacote de provedor que simplifica o gerenciamento e a implantação de modelos.
Relacionado: Co-fundador da Multicoin declara que “Web3 está morta” amid crise de identidade cripto
IA de código aberto se aproxima da borda
A liberação mostra o foco da Tether em executar mais tarefas de computação diretamente nos dispositivos dos usuários, em vez de depender inteiramente de data centers centralizados. A empresa tem se concentrado cada vez mais em software que pode operar em dispositivos pessoais, redes locais e sistemas descentralizados.
“A pesquisa do Google mostrou que a memória da IA pode ser comprimida muito mais eficientemente do que a maioria das pessoas assumia. Nosso trabalho traz essa descoberta para software de produção que desenvolvedores, startups e usuários podem realmente construir”, disse Ardoino.
Ele acrescentou: “As pessoas devem ser capazes de pedir a um assistente de IA para ler um documento longo, lembrar de um projeto, ajudar com código ou trabalhar com informações privadas, sem que cada tarefa seja forçada a passar por um centro de dados remoto.”
O lançamento ocorre à medida que a Tether expande seus esforços além das ferramentas de otimização de memória. Ardoino revelou recentemente que a empresa está desenvolvendo um mecanismo de busca ponto a ponto de código aberto e compartilhou uma demonstração de um sistema de busca descentralizado para a Wikipedia.
Relacionado: Michael Burry chama o acordo de $5,4 bilhões em GPUs da Nvidia de ‘Fugazi’
Disclaimer: As informações apresentadas neste artigo são apenas para fins informativos e educacionais. O artigo não constitui aconselhamento financeiro ou qualquer outro tipo de aconselhamento. A Coin Edition não se responsabiliza por quaisquer perdas decorrentes da utilização do conteúdo, produtos ou serviços mencionados. Recomenda-se aos leitores que exerçam cautela antes de tomar qualquer ação relacionada à empresa.

