DeepSeek reduz custos da API em 100x, desencadeia debate sobre centralização da infraestrutura de IA

—— A partir da palestra de Gonka no LA Hacks 2026

Em 26 de abril, o DeepSeek lançou a série V4 da API novo preço: o preço de acerto de cache de entrada para toda a linha foi reduzido para um décimo do preço inicial; com o desconto temporário adicional para a versão Pro, o custo de processamento de um milhão de tokens caiu para apenas 0,025 yuan — 100 vezes mais barato do que há um ano. O setor de capacidade de cálculo da A-share registrou alta máxima em todos os ativos nesse dia, com o sentimento do mercado em ebulição.

Mas por trás das comemorações, há uma questão que ninguém está discutindo diretamente: à medida que os modelos ficam cada vez mais baratos, a capacidade de processamento necessária para executá-los está se tornando cada vez mais centralizada.

Os dados não mentem. No quarto trimestre de 2025, os quatro fornecedores de nuvem — Microsoft, Amazon, Meta e Google — aumentaram seus gastos com capital em 64% em relação ao ano anterior, atingindo 118,6 bilhões de dólares; espera-se que os gastos totais com capital em 2026 aumentem ainda mais 53% em relação ao ano anterior, chegando a 570,8 bilhões de dólares. O Google elevou sua meta de envio de chips TPU para 2026 em 50% para 6 milhões de unidades. O prazo de entrega da série H100 da NVIDIA já chegou a vários meses em alguns mercados.

O poder de definição de preços na camada de modelos está se inclinando em direção aos desenvolvedores, mas o controle na camada de capacidade de processamento está sendo concentrado mais rapidamente nas mãos de poucos gigantes. Essa é uma contradição oculta, mas profunda da era da IA.

Gonka

Nesse contexto, em 24 de abril de 2026, Daniil e David Liberman, cofundadores do protocolo Gonka, subiram ao palco da palestra principal do LA Hacks 2026. Este maior hackathon universitário anual da UCLA teve os irmãos Liberman como palestrantes principais este ano, diante de centenas de engenheiros de ponta prestes a entrar nesse setor. A pergunta que eles lançaram neste momento estava particularmente clara: ainda está a tempo para a computação descentralizada?

I. O outro lado da onda de redução de preços

A lógica de redução de preço do DeepSeek V4, à primeira vista, é o benefício de eficiência trazido pelo avanço tecnológico — o novo mecanismo de atenção comprime a dimensão dos tokens, combinado com a atenção esparsa DSA, reduzindo significativamente a demanda por computação e memória gráfica. Mas para que essa redução de preço continue ocorrendo, é necessário que haja capacidade de processamento suficientemente abundante e barata em algum lugar.

A realidade é que essa fonte de capacidade de processamento "suficientemente abundante" está se concentrando rapidamente em poucos nós em todo o mundo. O CEO da Lumentum, líder em comunicações ópticas, Michael Hurlston, afirmou recentemente que, conforme a tendência atual, a capacidade da empresa até 2028 já está quase totalmente comprometida. Não se trata de uma dificuldade isolada de uma empresa, mas de uma tensão coletiva em toda a cadeia de suprimentos da infraestrutura de IA diante da demanda em rápida expansão.

Daniil usou uma comparação simples, mas poderosa, em sua palestra na LA Hacks: a capacidade de processamento da rede Bitcoin já supera a soma total dos centros de dados em nuvem do Google, Microsoft e Amazon — mas o que essa capacidade está fazendo? Resolvendo um enigma de hash que ninguém precisa responder. O mesmo ocorre com a capacidade de GPU ociosa globalmente: placas gráficas em máquinas de jogadores, servidores em laboratórios universitários e capacidade excedente de provedores de nuvem pequenos e médios, somados, representam um volume enorme, mas, por falta de um mecanismo de coordenação, não podem ser utilizados para inferência de IA.

Gonka busca resolver exatamente esse problema de coordenação — utilizando o mecanismo de incentivo de prova de trabalho para organizar GPUs ociosas espalhadas globalmente em uma rede capaz de executar tarefas reais de inferência de IA.

II. A inferência é o novo campo de batalha

A redução de preços do DeepSeek gerou uma ampla discussão sobre "democratização da IA" na internet chinesa. Mas há um detalhe negligenciado: a redução se refere ao "preço de chamada", não ao "custo de capacidade de processamento". À medida que as aplicações de IA se escalonam, o volume de chamadas de inferência cresce exponencialmente — segundo previsões do setor, até 2026, a inferência representará cerca de dois terços do consumo global de capacidade de IA.

O que isso significa? Cada redução de uma ordem de grandeza no preço da chamada resulta em uma quantidade total de poder de processamento ainda maior, nunca menor. A “democratização” dos grandes modelos, em certa medida, acelera a centralização da camada de poder de processamento — pois apenas jogadores com grande escala de poder de processamento conseguem sustentar a operação de serviços de inferência com margens extremamente baixas.

Esta é uma estrutura de bloqueio em formação: quem controlar a capacidade física da inferência controlará a verdadeira porta de entrada à infraestrutura da era da IA. Sob essa perspectiva, o significado das redes descentralizadas de computação já não é apenas uma otimização de custos de “50% mais baratas”, mas sim oferecer um caminho estrutural alternativo antes que o bloqueio centralizado seja concluído.

Três: Um verdadeiro questionamento aos jovens construtores

Os participantes da LA Hacks — engenheiros e profissionais de produto das principais universidades da Califórnia — em breve enfrentarão uma escolha de engenharia nada romântica: em qual camada de computação construir seus produtos.

Your AI product, whose server is used for inference calls?

Você tem a capacidade de migrar quando essa plataforma ajusta sua estratégia de precificação ou política de acesso?

A escala de usuários que você ajudou a construir está criando valor para você mesmo ou está fornecendo fichas para a plataforma?

Essas questões já foram experimentadas pelos desenvolvedores na era Web2: quando o destino de um aplicativo está profundamente vinculado aos algoritmos ou regras de distribuição da plataforma, "independência" torna-se uma palavra que precisa ser redefinida a todo momento. A dependência de poder de computação na era da IA replicará o mesmo lógica na camada de infraestrutura, e como o custo de mudança é maior, o efeito de bloqueio será ainda mais forte.

Gonka

Hackathons, como forma, têm uma ironia interna: construir algo funcional em 36 horas, com os menores recursos e a maior velocidade possível — exatamente o estado que os mecanismos de incentivo das redes descentralizadas buscam. Daniil subiu ao palco da LA Hacks não apenas para falar sobre Gonka, mas para perguntar a esse público: o que vocês vão fazer no futuro vai acelerar essa tendência centralizada ou criar novas possibilidades?

Quatro: PoW 2.0: Uma questão de engenharia

Gonka reorientou a estrutura de incentivos de prova de trabalho da computação de hash para a inferência de IA, fazendo com que quase 100% da capacidade de processamento da rede corresponda diretamente a tarefas reais. Esse mecanismo tem um requisito técnico essencial: as tarefas de inferência de IA devem ser verificáveis e reprodutíveis — dado o mesmo peso do modelo, a mesma semente aleatória e a mesma entrada, qualquer nó pode reproduzir o resultado do cálculo e validar sua validade. Este é o principal desafio de engenharia que permitiu à Gonka passar de um protótipo acadêmico para uma rede operacional.

Do ponto de vista econômico, o significado desse mecanismo é que o valor do token é naturalmente ancorado no custo de poder de computação físico, e não na emoção de liquidez. Mineiros que contribuem com poder de computação recebem recompensas, enquanto desenvolvedores que utilizam esse poder pagam taxas; todo o ciclo de incentivos do sistema não depende da boa vontade de intermediários.

Claro, a viabilidade técnica é apenas uma parte. A questão mais difícil é: em uma era em que a demanda por poder de computação cresce rapidamente e os grandes players gastam bilhões de dólares em investimentos de capital, uma rede distribuída de poder de computação organizada por contribuições espontâneas da comunidade consegue competir em escala de forma significativa?

Os dados iniciais da Gonka fornecem um ponto de referência: em menos de um ano após o lançamento da mainnet, a capacidade agregada da rede expandiu-se de 60 unidades equivalentes H100 para mais de 10.000, um ritmo impulsionado pela adesão espontânea de centenas de nós independentes em todo o mundo, e não por alocação centralizada. Isso não prova que o problema de escala já foi resolvido, mas indica que o mecanismo de incentivos efetivamente impulsionou o crescimento inicial.

V. Questões relacionadas ao período de janela

Historicamente, o controle da infraestrutura tende a se concentrar rapidamente no início — assim foi na era dos trens, na era da internet e também na era da internet móvel. Em cada uma dessas ocasiões, alguns conseguiram encontrar um ponto de inserção antes que os padrões se solidificassem, enquanto outros só perceberam que seu direito de participação havia sido drasticamente reduzido após a centralização ter sido concluída.

Em que estágio está a infraestrutura de poder de computação para IA? Com base nos gastos de capital esperados de US$ 570,8 bilhões das quatro grandes empresas de nuvem até 2026, a centralização já está acelerando; no entanto, conforme os padrões reais de uso dos desenvolvedores, ainda existem muitos recursos na oferta que não foram efetivamente integrados. Essa lacuna é o espaço estrutural onde redes descentralizadas podem existir.

Daniil citou uma analogia em seu discurso: após a bolha da internet em 2000, o que permaneceu não foram ruínas, mas uma rede de fibras ópticas espalhada globalmente, sustentando a economia digital nas duas décadas seguintes. Após a onda de investimentos em infraestrutura de IA recuar, os protocolos de computação e os mecanismos de incentivo que permanecerem se tornarão a infraestrutura do próximo ciclo — a questão é: quais protocolos têm lógica subjacente suficientemente sólida para continuar funcionando sob pressão?

Esta não é uma questão sobre um projeto específico, mas sim um desafio que toda a área de IA descentralizada precisa enfrentar: o design de governança consegue realmente resistir à erosão do controle centralizado? Os mecanismos de incentivo permanecem eficazes após o crescimento em escala? A descentralização da rede de poder computacional é válida simultaneamente nos três níveis: execução técnica, emissão de tokens e tomada de decisões de atualização?

Conclusão

A redução de preços do DeepSeek reacendeu a narrativa da "democratização da IA". Mas democratizar chamadas de inferência e democratizar infraestrutura de poder de computação são duas coisas diferentes. A primeira está acontecendo; se a segunda ocorrerá dependerá de quantas pessoas, nos próximos anos, realmente tratam isso como um problema de engenharia digno de solução, e não apenas como uma narrativa agradável.