Odaily Planet Daily noticia que, conforme anúncio oficial, a Tether lançou o framework de fine-tuning BitNet LoRA no QVAC Fabric, otimizando o treinamento e a inferência do Microsoft BitNet (LLM de 1-bit). Esse framework reduz significativamente as exigências de poder computacional e memória, permitindo que modelos de bilhões de parâmetros sejam treinados e ajustados em notebooks, GPUs de consumo e smartphones.
Este é o primeiro esquema a permitir o fine-tuning de modelos BitNet em GPU móvel (incluindo Adreno, Mali e Apple Bionic). Os testes mostram que um modelo de 125M parâmetros pode ser ajustado em cerca de 10 minutos, um modelo de 1B em aproximadamente uma hora, e até mesmo escalado para modelos de 13B parâmetros em dispositivos móveis.
Além disso, o framework suporta hardware heterogêneo, como Intel, AMD e Apple Silicon, e pela primeira vez permite o fine-tuning LoRA de LLMs em 1-bit em dispositivos não NVIDIA. Em termos de desempenho, os modelos BitNet apresentam velocidade de inferência 2 a 11 vezes maior em GPU móvel em comparação com CPU, além de reduzir o uso de memória de vídeo em até 77,8% em comparação com modelos tradicionais de 16-bit.
A Tether afirma que essa tecnologia tem o potencial de romper a dependência de poder de processamento avançado e infraestrutura em nuvem, impulsionando o treinamento de IA em direção à descentralização e localização, e fornecendo base para novos cenários de aplicação, como o aprendizado federado.
