O Grupo de Pesquisa em IA da Tether lançou como código aberto uma implementação pronta para produção do TurboQuant, o algoritmo do Google Research projetado para reduzir drasticamente os requisitos de memória da IA, segundo um comunicado à imprensa de segunda-feira.
A tecnologia agora faz parte do QVAC Fabric, o motor de IA local da Tether, e inclui um pipeline de quantização completo, integrações com frameworks, documentação e perfis de implantação para casos de uso do mundo real.
A versão visa o consumo de memória, uma das maiores barreiras para executar IA avançada em dispositivos locais. À medida que assistentes de IA processam conversas mais longas, arquivos maiores e tarefas mais complexas, seu cache KV se expande e pode exigir recursos de hardware substanciais.
Segundo pesquisadores, o TurboQuant reduz essas demandas de memória em até 5x, mantendo o desempenho do modelo, o que facilita a execução de sistemas de IA capazes em laptops, telefones, GPUs de consumo e dispositivos de borda.
“A pesquisa do Google mostrou que a memória da IA pode ser comprimida muito mais eficientemente do que a maioria das pessoas assumia. Nosso trabalho traz essa inovação para software de produção que desenvolvedores, startups e usuários podem realmente utilizar”, comentou o CEO da Tether, Paolo Ardoino, sobre o lançamento.
Segundo Ardoino, as ferramentas de IA devem ser capazes de processar documentos longos, manter o contexto do projeto, apoiar o desenvolvimento de software e trabalhar com dados privados localmente, em vez de encaminhar todas as tarefas por meio da infraestrutura em nuvem. Ele disse que o TurboQuant ajuda a tornar isso possível, fornecendo aos sistemas de IA locais maior capacidade de memória e consciência contextual.
“Se a IA de contexto longo só funcionar dentro dos maiores centros de dados, então a IA será moldada por quem possuir mais hardware. O TurboQuant muda o que a IA local pode fazer, tornando a memória menos uma barreira”, acrescentou ele.
A Tether acredita que a tecnologia pode ajudar a transferir mais cargas de trabalho de IA longe dos serviços de nuvem centralizados, permitindo janelas de contexto mais longas e desempenho aprimorado em hardware local.
Incluído no QVAC SDK 0.12.0, o lançamento suporta o objetivo da empresa de construir sistemas de IA que operem mais próximos aos usuários por meio de dispositivos pessoais, redes locais e infraestrutura descentralizada.

