O modelo MiMo-V2.5 da Xiaomi reduz custos com cálculo de atenção equivalente a 10 camadas

Notícia da ME, 27 de maio (UTC+8): De acordo com monitoramento da Beating, após a implementação de uma redução permanente de preços na série de modelos grandes auto-desenvolvidos MiMo-V2.5, Luo Fuli, líder da equipe de modelos grandes da Xiaomi, divulgou o mecanismo de redução de custos algorítmico na plataforma X. Luo Fuli revelou que, após alinhar os preços da API aos do DeepSeek, o motor de inferência de alta carga da Xiaomi ainda consegue manter o ponto de equilíbrio entre receitas e despesas. A redução de custos decorre principalmente da arquitetura de atenção híbrida e da otimização hierárquica do cache KV. Visando reduzir em 99% o custo de cache hit, o framework de inferência da Xiaomi implementou otimizações hierárquicas de cache KV para a atenção de janela deslizante (SWA). Testes de produção mostraram que a otimização hierárquica aumentou a capacidade de tokens do cache em cinco vezes e reduziu os custos de cache em 80%. Combinada com a técnica de sobreposição de leitura de cache (Cache Read Overlap) entre módulos de atenção global, o sistema reduziu ainda mais o custo real de cache hit. Quanto à redução de 60% a 80% nos custos básicos de entrada e saída, Luo Fuli atribuiu isso à razão esparsa entre camadas de 1:7 introduzida no modelo — a proporção entre camadas de atenção global (GA) e atenção de janela deslizante (SWA) é de 1:7. Na fase de pré-preenchimento (Prefill) de textos longos, as 60 camadas de SWA calculam apenas janelas deslizantes locais, fazendo com que o modelo MiMo-V2.5-Pro, com 70 camadas, tenha um volume total de cálculo de atenção equivalente ao de um modelo tradicional GQA com apenas 10 camadas. A carga computacional extremamente baixa reduziu o custo original de inferência, deixando anteriormente um espaço de lucro de 2 a 3 vezes para a Xiaomi. Portanto, o corte de preço reflete uma redução estrutural de custos, e não uma competição com prejuízo. Luo Fuli afirmou que serviços de inferência de baixo custo ajudam a estimular a demanda por inteligência terminal. Empresas de modelos grandes devem evitar guerras de preços cegas e, em vez disso, controlar os custos operacionais reais abaixo da linha de equilíbrio por meio do design colaborativo subjacente entre algoritmos e sistemas de inferência. (Fonte: BlockBeats)