Startups de IA vertical enfrentam sobrevivência diante da dominância de modelos gerais

A inteligência começa a crescer de forma não linear, e a lógica subjacente das empresas de IA está sendo reescrita.

Autor e fonte do artigo: GeekPark

90%, essa é a probabilidade atribuída por investidores à falha de startups de IA até 2026.

Em abril, a plataforma de avaliação de modelos de IA Yupp, que havia arrecadado US$ 33 milhões em financiamento semente liderado pela a16z, anunciou repentinamente seu encerramento. Apoiada por figuras proeminentes da Silicon Valley, como o cientista-chefe do Google, Jeff Dean, e o co-fundador do Twitter, Biz Stone, a plataforma atraiu 1,3 milhão de usuários em menos de um ano de lançamento, mas foi abruptamente encerrada pelos fundadores. Apesar de ainda possuir significativos recursos financeiros, os fundadores já não enxergavam mais perspectivas. “Apenas no último ano, o cenário de capacidades dos modelos de IA sofreu grandes mudanças; o futuro não será apenas sobre modelos, mas sobre sistemas de Agentes”, escreveu Pankaj Gupta, fundador da Yupp, em seu blog de despedida.

No mesmo período, a empresa de imagens de IA NeuroPixel encerrou suas operações devido ao aumento significativo das capacidades de grandes modelos como o Google NanoBanana Pro. O fundador da NeuroPixel usou uma palavra para descrever essa derrota: outgunned — “atropelado completamente em uma noite”.

No contexto do aprimoramento inteligente e progressivo dos modelos básicos, os limites das capacidades da IA estão sendo ampliados continuamente: inicialmente, os chats substituíram as buscas, e os usuários não precisam mais rolar páginas para encontrar resultados. Em seguida, os Agentes começaram a substituir softwares — um agente capaz de chamar ferramentas e decompor tarefas pode realizar o que antes exigia um conjunto inteiro de menus e aplicativos. Quando a IA puder escrever código diretamente no terminal, chamar APIs e executar ações, os limites dos sistemas de software tradicionais também estarão sendo redefinidos.

Para os gerentes de produto, eles precisam considerar a redefinição da forma do produto e da forma de interação. Já para os fundadores, a questão que determina a sobrevivência ou falência já está diante deles:

À medida que a inteligência dos modelos básicos se torna cada vez mais forte, como devo empreender? Como posso garantir que o que estou fazendo agora não seja diretamente engolido pela próxima atualização do modelo?

Shi Yi, fundador da FlashLabs, viveu esse problema durante o último ano. Ele tomou uma série de decisões que pareciam contraintuitivas para os de fora: reverter a rota do produto, reduzir ativamente a equipe, abandonar métricas de monetização de curto prazo e até mudar o nome da empresa. Conversamos com ele sobre como as startups de IA especializadas podem sobreviver na era da evolução dos modelos gerais.

01 Mudança de nome, redução de peso e foco em nativos de IA: uma transformação vital impulsionada por grandes modelos

A sensação de crise não surgiu apenas hoje diante dos fundadores. Já no final de 2024, Shi Yi percebeu que a velocidade de evolução inteligente dos modelos gerais era muito alta.

O que primeiro o fez perceber algo estranho foi o colapso da empresa de IA unicórnio Jasper. Essa empresa estrela, antes considerada um marco na camada de aplicações de IA, atingiu uma avaliação de US$ 1,5 bilhão em 18 meses, mas sua receita caiu pela metade após a abertura das capacidades nativas do GPT. “O ARR da Jasper caiu diretamente pela metade”, lembra Shi Yi. “Empresas que antes atuavam em NLP serão absorvidas pelos grandes modelos, à medida que suas capacidades continuam a aumentar.”

Esse julgamento era como um espinho cravado em seu coração, causando uma inquietação sutil. Naquela época, sua empresa ainda se chamava FlashIntel e operava um negócio B2B SaaS mais tradicional. Segundo a lógica tradicional de B2B SaaS, basta acumular dados industriais suficientes em um nicho específico e construir barreiras tecnológicas de forma regulamentar e segura para garantir espaço no mercado — mas hoje tudo isso já não funciona mais.

“A coisa que eu fiz também enfrentará o mesmo problema?” Essa pergunta começou a surgir repetidamente em seus pensamentos. Em breve, ele percebeu que o que ele fazia era, em essência, idêntico ao que Jasper fazia, e que todos os sistemas de produtos anteriores foram construídos sob a suposição de que os modelos não seriam mais inteligentes do que os modelos especializados. Assim que o modelo base ultrapassar um ponto crítico de inteligência, todo o trabalho de engenharia e otimização de cenários construído sobre os produtos especializados poderá perder completamente sua vantagem em uma única noite.

Com a conclusão, ele elevou diretamente essa questão crítica à mais alta prioridade estratégica da empresa, forçando a equipe a tomar uma decisão: a empresa precisa migrar completamente de SaaS para AI Native.

Este ajuste não acontece de um dia para o outro. Sua primeira pergunta foi: qual é a estrutura organizacional necessária para a próxima geração de empresas de IA?

Ele acredita que, hoje em dia, empresas não podem mais buscar crescimento baseado no número de membros da equipe e na divisão detalhada de tarefas. “Na era da IA, quanto mais pessoas, pior a utilização da IA, porque quanto mais especializada a divisão, mais cada pessoa depende apenas da sua própria área.” Ele começou a reduzir ativamente o tamanho da equipe e mudou completamente os critérios de contratação, passando de “analisar experiência e projetos anteriores” para “avaliar pensamento e habilidades full-stack”. Seu método de avaliação de candidatos também mudou: em vez de analisar currículos ou experiências passadas, ele atribui tarefas diretas aos candidatos para ver se conseguem usar a IA para concluir tanto o frontend quanto o backend. “Quem conseguir realizar a tarefa certamente não usará mal as ferramentas de IA.”

Em seguida, ele reajustou as prioridades de recursos internos da empresa. Enquanto a maioria das startups ainda buscava velocidade de lançamento do produto e validação comercial, ele optou por direcionar a maioria dos recursos para pesquisas de ponta, chegando até a mudar o nome da empresa para FlashLabs.

“A lógica da internet original era priorizar produto ou operação; agora, com IA, é preciso priorizar pesquisa.” Ele exige que si mesmo e sua equipe leiam artigos acadêmicos e compreendam os princípios fundamentais: “Só ao se aproximar mais dos princípios fundamentais é que você poderá saber o que a IA ainda poderá fazer e o que ainda poderá substituir.”

Essa transformação também trouxe um “período de dor” dentro da empresa, e nem todos na equipe conseguiram compreender esse grande ajuste estrutural. Quando ele disse à equipe: “Primeiro, não pensem em monetização, façam coisas legais”, alguns dentro da empresa ficaram entusiasmados, enquanto outros optaram por sair. Mas ele persistiu na ideia de que, na era da IA, fazer menos é mais importante: “Se você não concorda, então só pode ser removido.”

Mas o mais importante é, quais fundadores realmente sobreviverão na era da IA?

A resposta de Shi Yi é dividida em duas metades: a primeira parte é voltada para a realidade, “pelo menos você consegue levantar dinheiro, desde que não morra ou tenha recursos suficientes para continuar injetando capital.” A segunda parte é o que ele realmente quer dizer: “você tem uma capacidade de reflexão profunda maior do que a da IA?”

“Por que os grandes modelos conseguem fazer cada vez mais coisas? Porque a essência de todas as ciências naturais é a matemática, e os modelos sabem escrever código e entendem matemática. Ao desmontar essa cadeia camada por camada, a única habilidade verdadeiramente rara que resta aos humanos é pensar mais profundamente do que a IA em um determinado campo,” analisou Shi Yi. “Muitas pessoas não têm uma compreensão suficiente da IA. Veja quantos fundadores realmente escrevem código por conta própria e usam ferramentas de IA todos os dias? A capacidade de escrever código se tornará uma mercadoria básica, e todos a terão. Mas você consegue ser mais inteligente do que a IA? Esse é o seu moat.”

De tomar consciência da crise, tomar decisões até pagar o preço da reestruturação organizacional, Shi Yi levou um ano para completar uma “autoiteração”. Ele não esperou que a atualização do modelo lhe dissesse o resultado final, mas escolheu procurar antecipadamente onde a resposta correta poderia surgir. Se esse local está ou não corretamente posicionado é outra questão, mas pelo menos agora, ele ainda não quer sair da mesa de jogos da IA.

02 Empresas precisam jogar a carta do "Harness"

A reestruturação organizacional é apenas o primeiro passo no caminho de sobrevivência da empresa. O que realmente exigiu que Shi Yi tomasse a decisão de mudar foi a rota do produto.

Ele inicialmente queria criar um sistema de colaboração de múltiplos agentes, seguindo a lógica de que mais pessoas significam mais força, podendo imitar a estrutura organizacional de uma empresa humana para construir um sistema de múltiplos agentes: alguns responsáveis por pesquisa, outros por raciocínio lógico e outros por resumir os resultados.

Mas os resultados práticos fizeram Shi Yi balançar a cabeça: “Muito lento, muito travado; o que saiu nem chega perto de um único agente.” Para ele, a transmissão de instruções entre agentes era como um jogo de telefone sem fio de má qualidade — cada camada adicional de intermediário causava mais perda de informação. “Prefiro um gênio com QI 150 e equipado com armas divinas, a um monte de pessoas comuns com QI 110, usando ferramentas incompletas e ainda precisando discutir entre si.” Shi Yi afirmou diretamente durante a entrevista.

Finalmente, ele removeu todos os subagents pré-definidos e decidiu criar um único agent suficientemente poderoso para substituir a colaboração em cluster por execução paralela em múltiplas threads.

Este também é o protótipo do mais recente produto da FlashLabs, o Super Agent, que leva a inteligência de um único modelo ao limite e equipa-o ao máximo. O Super Agent utiliza principalmente automação inteligente para unificar o sistema de receita do usuário, desde a geração de leads até a conversão, com o AI Agent participando em todos os estágios.

No local da entrevista da Geek Park, Shi Yi atribuiu ao Super Agent a tarefa de pesquisa de informações: “Pesquise os perfis dos fundadores de todas as empresas de IA na China que receberam investimentos nos últimos seis meses e gere uma tabela”. Em seguida, o Super Agent iniciou simultaneamente dezenas de threads de tarefas, avançando na busca, raspagem, escrita de código e limpeza de dados, obtendo os resultados em 2 a 3 minutos — a tabela incluía nome do fundador, valor do financiamento e contatos públicos.

Se desistir de múltiplos agentes for uma subtração no nível da arquitetura, então desistir da localização é uma escolha reversa na lógica de implantação.

Quando o OpenClaw despertou uma onda de "Agentes Locais" na comunidade de desenvolvedores, Shi Yi firmemente posicionou o Super Agent na nuvem. "Um sistema como o OpenClaw, se executado internamente em uma empresa, é como um cavalo de Troia — é muito fácil invadir por meio dele." Ele acredita que, nesta fase, qualquer empresa que ousar implantar o OpenClaw em larga escala internamente está essencialmente abrindo suas portas para hackers de todo o mundo.

Na visão dele, a vantagem do OpenClaw está na capacidade potencial de iniciativa demonstrada no nível individual. Por exemplo, com o OpenClaw, se a IA pedir ao usuário 2.000 dólares para trocar uma placa de vídeo, e o usuário responder: “Você mesmo vai ganhar”, a IA passará a prever mercados e estudar estratégias quantitativas. “Qual chefe não gosta de funcionários proativos?”, retrucou Shi Yi. Quando essa iniciativa se tornar parte de um produto empresarial, a velocidade com que substituirá funcionários humanos superará em muito as expectativas. “Na Revolução Industrial, quando carruagens se tornaram automóveis, você precisava primeiro comprar um carro, aprender a dirigir e reformar as estradas — tudo isso levava muito tempo. Desta vez é diferente: com implantação gerenciada, *puf*, o trabalho de dezenas de funcionários desaparece.” Ele também prevê que, este ano, o trabalho de escritório será amplamente substituído por IA.

Quanto às dificuldades na execução automatizada, ou seja, como garantir a segurança de aplicações corporativas, a solução da FlashLabs é construir um sistema de permissões de sandbox semelhante ao do macOS, com implantação em nuvem e autorização progressiva. Isso significa que o Agent inicialmente possui apenas os mínimos privilégios necessários para concluir a tarefa, e seu alcance só é ampliado gradualmente após múltiplas verificações de estabilidade e segurança.

Ele usou o Windows e o Mac como exemplos: “No Windows, ao instalar um software, você pode obter permissões muito altas, instalação silenciosa, vinculação ao navegador, tornando-o difícil de remover. Já os programas no Mac estão todos isolados em sandbox, por isso você nunca precisa instalar um antivírus.” Shi Yi acredita que a competição entre agents empresariais acabará se expandindo da capacidade de chamada de modelos para a capacidade de design de ambiente; quem conseguir fornecer um ambiente de execução seguro, controlável e auditável para agents será quem fará os clientes realmente se sentirem à vontade para usá-los.

Mas, se o modelo der outro salto, esses ajustes atuais ainda terão sentido? Se o GPT-6 ou o Claude incorporarem capacidades mais poderosas de decomposição de tarefas e chamada de ferramentas, tudo o que o FlashLabs está fazendo hoje não será novamente engolido?

Diante desse questionamento, Shi Yi não evitou, e sua reflexão se dividiu em dois aspectos.

Ele primeiro classificou as barreiras empresariais de empresas especializadas em quatro níveis: Percepção (Perception), Planejamento (Planning), Aprendizado Recursivo (Recursive Learning) e Governança (Governance).

No mercado de empresas de grandes modelos, existem cinco participantes, e a classificação SOTA muda a cada três meses. Por meio da camada de orquestração, você pode integrar todos os modelos e invocar o mais adequado para cada cenário. Mas uma empresa de modelo único só pode usar o próprio modelo; quando seu modelo base não é o mais inteligente, a competitividade do seu produto é diretamente comprometida. Com os grandes modelos gerais rapidamente cobrindo as duas primeiras camadas, Shi Yi acredita que as verdadeiras barreiras agora residem apenas nas duas últimas camadas, e o verdadeiro diferencial final está na camada de orquestração.

Ele acredita que, quando vários Agentes colaboram em sistemas empresariais, eles podem negociar secretamente em locais invisíveis aos humanos, contornando as regras de permissão pré-definidas. A verdadeira barreira das empresas especializadas reside na capacidade de criar ambientes de operação abertos e controláveis para cenários específicos.

Quanto à exatidão desse julgamento, ele admitiu que não tem certeza absoluta. “A IA está mudando muito rápido; você realmente não sabe o que o futuro trará.” Mas ele tem certeza de um ponto: desde que empresas verticais joguem bem as cartas da orquestração de IA e da governança de IA, e resolvam os problemas de design ambiental, pelo menos não serão eliminadas da mesa na próxima onda de avanço dos modelos.

O modelo de voz 03 passará por uma reestruturação; agentes ativos podem criar um novo modelo de pagamento por resultado

Sabendo como criar um produto competitivo, o próximo passo é garantir que os clientes reconheçam seu valor.

Atualmente, a Flashlabs tem dois principais produtos em sua monetização: o Super Agent, cobrado com base no uso de tokens, com preços disponíveis em seu site oficial; além disso, a empresa tornou aberto o modelo de voz Chroma, mas cobra por plataformas e serviços baseados nesse modelo. Na verdade, essas duas abordagens são caminhos de monetização bastante comuns no momento: usar o código aberto para construir confiança técnica e recuperar valor comercial por meio de plataformas e serviços.

Atualmente, empresas fiscais japonesas estão substituindo atendentes humanos pelo modelo de voz Chroma da FlashLabs, com apenas 1/10 da força de trabalho participando do teste, onde IA e humanos estão online simultaneamente, comparando continuamente as pontuações de desempenho. A validação é simples: quem tiver maior precisão e melhor eficiência de processamento, os dados falam por si.

“O limite de uso da voz está no mesmo nível que o da visão”. Enquanto toda a indústria se concentra na multimodalidade e na compreensão de vídeo, Shi Yi liderou sua equipe para se dedicar intensamente ao modelo de voz em tempo real Chroma, reduzindo a latência ponto a ponto para 135 milissegundos.

Antes da chegada dos grandes modelos de texto, havia OCR, NLP e vários pequenos modelos montados juntos. A voz hoje está no mesmo estado em que o texto estava antes dos grandes modelos de texto: há ASR, TTS e diversos módulos concatenados, com cada etapa realizando otimizações locais. Essa arquitetura antiga será, sem dúvida, substituída integralmente por um grande modelo de voz end-to-end. Sua conclusão é que, em vez de esperar que outros o façam, é melhor ser o próprio substituto.

Shi Yi acredita que a voz é o modo de comunicação mais natural entre humanos e certamente será a interface de interação mais central entre humanos e IA. "A largura de banda de informações que pode ser transmitida pela voz é muito maior do que a do texto; assim que eu digo uma frase, você já entende imediatamente."

Ele até acredita que os modelos de voz desempenham um papel crucial no avanço da indústria de inteligência embodiada. A primeira camada são modelos de voz em tempo real, responsáveis por respostas imediatas de baixa latência e alta empatia — perguntas sobre o clima ou se deve-se colocar mais roupas são tratadas diretamente nessa camada; a segunda camada é um grande modelo de raciocínio profundo, que lida com raciocínios complexos; a terceira camada é o modelo do mundo, que compreende as regras físicas. “O alcance do uso da voz é da mesma ordem de grandeza que o da visão.” Essa é uma de suas decisões mais firmes sobre o longo prazo atualmente.

Shi Yi também acredita que o modelo atual de comercialização de IA é apenas uma forma transitória. Porque todos os agentes atuais são, em essência, reativos: você diz a eles o que fazer, e eles fazem, funcionando como ferramentas de execução que aguardam instruções, ainda semelhantes aos chatbots; portanto, o modelo de negócios ainda é baseado no pagamento por consumo de tokens, pagando-se conforme o uso.

Mas quando o agente começa a oferecer serviços proativos, ou seja, quando você diz a ele quais são os KPIs e os OKRs, e ele mesmo busca tarefas, planeja seu caminho e entrega resultados mensuráveis, ele deixa de ser comparado a uma ferramenta e passa a ser comparado a um funcionário. Obviamente, uma empresa não paga salários com base no número de teclas digitadas ou no número de e-mails enviados por um funcionário; você avalia o que ele conseguiu alcançar.

Por isso, ele acredita que, com a entrada na era agente, a lógica de pagamento comercial também deve mudar para um modelo baseado em resultados e KPIs. Quando essa mudança realmente ocorrer, todo o sistema de precificação, os métodos de venda e os relacionamentos com clientes dos produtos agentes serão reescritos.

Novas explorações de modelos de negócios já estão ocorrendo no âmago da indústria. A startup de direito baseada em IA, Crosby, que acaba de receber um financiamento da série B de 60 milhões de dólares, atribui a cada agente tarefas específicas na revisão de contratos, como extrair informações de contexto, sugerir alterações e gerar comentários, enquanto os advogados revisam os resultados produzidos pela IA, tratam detalhes omitidos e garantem a precisão. Seu modelo de negócios consiste em cobrar por contrato auditado, com taxas entre 250 e 1.000 dólares por contrato, aproximadamente de 10 a 50 dólares por página, conforme o número de páginas.

Mas o verdadeiro pré-requisito para evoluir para o próximo modelo de negócios é que os Agentes ativos consigam entregar resultados mensuráveis de forma estável. “Ainda não chegamos a esse ponto.”

De FlashIntel para FlashLabs, Shi Yi realizou, em um ano, uma reorganização e ajuste de rota com custos claros. Demissões, descarte da arquitetura de produto anterior e redução temporária da busca por monetização — uma série de ações que, aos olhos de observadores externos, parecem ser uma constante redução.

Mas, diante da realidade da rápida iteração da indústria de IA, isso é mais como uma startup se ajustando durante mudanças intensas. A capacidade dos modelos pode sofrer um salto a cada alguns meses, e ninguém pode prever completamente o futuro. Para Shi Yi e a FlashLabs, o foco atual não é conquistar quantos mercados possível, mas sim garantir que suas escolhas tecnológicas e lógica comercial não sejam facilmente obsoletas pela próxima onda.

A indústria ainda está explorando a forma real dos Agentes; os modelos de pagamento, os limites de segurança e os modos de interação finais ainda não foram definidos. A escolha da FlashLabs pode não ser a melhor solução, mas representa um caminho realista de sobrevivência para empresas de IA verticais: sob a pressão contínua dos grandes modelos se infiltrando cada vez mais profundamente, primeiro encontrar um ponto estável para se posicionar e depois aguardar até que a indústria amadureça verdadeiramente.