O modelo MiMo-V2.5 da Xiaomi reduz custos com cálculo de atenção equivalente a 10 camadas

iconKuCoinFlash
Compartilhar
Share IconShare IconShare IconShare IconShare IconShare IconCopy
AI summary iconResumo

expand icon
O modelo MiMo-V2.5 da Xiaomi reduz custos usando um cálculo de atenção equivalente a 10 camadas. A versão Pro de 70 camadas reduz os custos de cache hit em 99% e os custos de entrada/saída em 60-80%. Notícias on-chain mostram que o modelo utiliza uma relação de esparsidade de 1:7 entre atenção global e janela deslizante. Mudanças na política global de criptomoedas podem influenciar como esses ganhos de eficiência impactam a implantação de IA.

Notícia da ME, 27 de maio (UTC+8): De acordo com monitoramento da Beating, após a implementação de uma redução permanente de preços na série de modelos grandes auto-desenvolvidos MiMo-V2.5, Luo Fuli, líder da equipe de modelos grandes da Xiaomi, divulgou o mecanismo de redução de custos algorítmico na plataforma X. Luo Fuli revelou que, após alinhar os preços da API aos do DeepSeek, o motor de inferência de alta carga da Xiaomi ainda consegue manter o ponto de equilíbrio entre receitas e despesas. A redução de custos decorre principalmente da arquitetura de atenção híbrida e da otimização hierárquica do cache KV. Visando reduzir em 99% o custo de cache hit, o framework de inferência da Xiaomi implementou otimizações hierárquicas de cache KV para a atenção de janela deslizante (SWA). Testes de produção mostraram que a otimização hierárquica aumentou a capacidade de tokens do cache em cinco vezes e reduziu os custos de cache em 80%. Combinada com a técnica de sobreposição de leitura de cache (Cache Read Overlap) entre módulos de atenção global, o sistema reduziu ainda mais o custo real de cache hit. Quanto à redução de 60% a 80% nos custos básicos de entrada e saída, Luo Fuli atribuiu isso à razão esparsa entre camadas de 1:7 introduzida no modelo — a proporção entre camadas de atenção global (GA) e atenção de janela deslizante (SWA) é de 1:7. Na fase de pré-preenchimento (Prefill) de textos longos, as 60 camadas de SWA calculam apenas janelas deslizantes locais, fazendo com que o modelo MiMo-V2.5-Pro, com 70 camadas, tenha um volume total de cálculo de atenção equivalente ao de um modelo tradicional GQA com apenas 10 camadas. A carga computacional extremamente baixa reduziu o custo original de inferência, deixando anteriormente um espaço de lucro de 2 a 3 vezes para a Xiaomi. Portanto, o corte de preço reflete uma redução estrutural de custos, e não uma competição com prejuízo. Luo Fuli afirmou que serviços de inferência de baixo custo ajudam a estimular a demanda por inteligência terminal. Empresas de modelos grandes devem evitar guerras de preços cegas e, em vez disso, controlar os custos operacionais reais abaixo da linha de equilíbrio por meio do design colaborativo subjacente entre algoritmos e sistemas de inferência. (Fonte: BlockBeats)

Aviso legal: as informações nesta página podem ter sido obtidas de terceiros e não refletem necessariamente os pontos de vista ou opiniões da KuCoin. Este conteúdo é fornecido apenas para fins informativos gerais, sem qualquer representação ou garantia de qualquer tipo, nem deve ser interpretado como aconselhamento financeiro ou de investimento. A KuCoin não é responsável por quaisquer erros ou omissões, ou por quaisquer resultados do uso destas informações. Os investimentos em ativos digitais podem ser arriscados. Avalie cuidadosamente os riscos de um produto e a sua tolerância ao risco com base nas suas próprias circunstâncias financeiras. Para mais informações, consulte nossos termos de uso e divulgação de risco.