Aliyun PAI lança de código aberto o pequeno modelo AgenticQwen com treinamento em duplo flywheel de dados

Mensagem AIMPACT, 27 de abril (UTC+8), segundo monitoramento da Beating, a equipe do PAI da Alibaba lançou e abriu o código do modelo de linguagem agente pequeno projetado para chamadas de ferramentas industriais, chamado AgenticQwen (disponível nas versões 8B e 30B-A3B). Essa série de modelos foi treinada por meio de um inovador framework de aprendizado por reforço chamado “dual data flywheel”, alcançando capacidades de agente próximas às de modelos grandes com centenas de bilhões de parâmetros, ao mesmo tempo em que reduz significativamente os custos de inferência. O mecanismo central reside no método de treinamento “dual data flywheel”. Dados sintéticos tradicionais tendem a se tornar homogêneos, levando ao teto de desempenho do modelo; o AgenticQwen introduz dois flywheels: o flywheel de inferência gera automaticamente variantes mais difíceis a partir dos erros do modelo; o flywheel de agente expande fluxos de trabalho lineares simples (como um único processo de reserva) em árvores de comportamento multirramificadas, incorporando restrições, recusas e condições adversas, simulando cenários complexos de tomada de decisão reais. Avaliações mostram que o AgenticQwen-8B obteve uma pontuação média de 47,4 em benchmarks de ambientes reais de ferramentas (como TAU-2 e BFCL-V4), superando significativamente o Qwen3-8B básico (23,8) e aproximando-se do Qwen3-235B (52,0). O AgenticQwen-30B-A3B (com apenas 3B parâmetros ativados) alcançou 50,2. Atualmente, o modelo já foi implantado em sistemas de produção internos semelhantes ao Manus, reduzindo consideravelmente a lacuna em relação aos modelos de 235B (com tempo de inferência ponto a ponto mais curto), embora o artigo reconheça que, limitado pelo comprimento nativo de contexto de 40K, os modelos menores ainda apresentam limitações em tarefas de busca profunda. (Fonte: BlockBeats)