Las startups de IA vertical navegan la supervivencia ante el dominio de los modelos generales

La inteligencia comienza un crecimiento no lineal, y la lógica subyacente de las empresas de IA está siendo reescrita.

Autor del artículo, fuente: GeekPark

90%, esta es la probabilidad que los inversores asignan al fracaso de startups de IA para 2026.

En abril, la plataforma de evaluación de modelos de IA Yupp, que recibió una ronda de financiación semilla de 33 millones de dólares liderada por a16z, anunció repentinamente su cierre. A pesar de contar con el respaldo de figuras destacadas de Silicon Valley como el científico jefe de Google, Jeff Dean, y el cofundador de Twitter, Biz Stone, la plataforma atrajo a 1,3 millones de usuarios en menos de un año antes de ser suspendida por sus fundadores. Aunque aún tenía fondos significativos en su balance, los fundadores ya no veían esperanza. «Solo en el último año, el panorama de capacidades de los modelos de IA ha cambiado enormemente; el futuro no será solo modelos, sino sistemas de Agentes», escribió Pankaj Gupta, fundador de Yupp, en su blog de despedida.

Durante el mismo período, la empresa de imágenes de IA NeuroPixel cerró debido al aumento significativo en las capacidades de grandes modelos como Google NanoBanana Pro. El fundador de NeuroPixel utilizó una palabra para describir esta derrota: outgunned — «derrotado por completo de la noche a la mañana».

En el contexto de mejoras inteligentes y progresivas en los modelos básicos, los límites de la capacidad de la IA se amplían constantemente: primero, los chats reemplazaron las búsquedas, y los usuarios ya no necesitan desplazarse para encontrar resultados; luego, los agentes comenzaron a reemplazar software: un agente capaz de invocar herramientas y descomponer tareas puede realizar tareas que antes requerían un conjunto completo de menús y aplicaciones. Cuando la IA puede escribir código directamente en la terminal, llamar a interfaces y realizar ejecuciones, los límites de los sistemas de software tradicionales también se redefinen.

Para los gerentes de producto, deben considerar redefinir la forma del producto y la forma de interacción. Para los fundadores, la cuestión que determina la supervivencia ya está sobre la mesa:

A medida que la inteligencia de los modelos base se vuelve más fuerte, ¿cómo debo emprender? ¿Cómo puedo asegurarme de que lo que hago ahora no sea absorbido directamente por la próxima actualización del modelo?

Shi Yi, fundador de FlashLabs, ha vivido durante el último año inmerso en esta pregunta. Tomó una serie de decisiones que, para los externos, parecían contraintuitivas: rechazar la hoja de ruta del producto, reducir activamente el equipo, abandonar indicadores de comercialización a corto plazo e incluso cambiar el nombre de la empresa. Hablamos con él sobre cómo las startups de IA especializadas pueden sobrevivir en la era de la evolución de los modelos generales.

01 Cambio de nombre, reducción de tamaño y enfoque en nativos de IA: una transformación vital impulsada por los grandes modelos

La sensación de crisis no apareció por primera vez ante los fundadores hoy. Ya a finales de 2024, Shi Yi se dio cuenta de que la velocidad de evolución inteligente de los modelos generales era demasiado rápida.

Lo que primero le hizo sentir algo extraño fue la desaparición de Jasper, una empresa unicórnio de IA. Esta empresa estrella, que antes se consideraba un referente en la capa de aplicaciones de IA, alcanzó una valoración de 1.500 millones de dólares en 18 meses, pero sus ingresos se redujeron a la mitad tras la apertura de las capacidades nativas de GPT. «El ARR de Jasper se redujo directamente a la mitad», recuerda Shi Yi. «Las empresas que antes se dedicaban a NLP fueron absorbidas por los grandes modelos a medida que sus capacidades seguían aumentando».

Este juicio era como una espina clavada en su corazón, causándole una inquietud sutil. En ese entonces, su empresa aún se llamaba FlashIntel y se dedicaba a un negocio SaaS B2B más tradicional. Según la lógica tradicional del SaaS B2B, siempre habría un espacio de mercado viable si acumulabas suficientes datos del sector en un nicho lo suficientemente específico y construías barreras tecnológicas de forma cumplida y segura; pero hoy en día, todo esto ya no funciona.

«¿Acaso lo que yo hago también enfrentará el mismo problema?» Esta pregunta comenzó a repetirse una y otra vez en su mente. Pronto se dio cuenta de que lo que él hacía no era esencialmente diferente de lo que hacía Jasper, y que todos los sistemas de productos anteriores se habían construido sobre la suposición de que los modelos generales no superarían a los modelos especializados. Una vez que la inteligencia del modelo base traspasara un punto crítico, todas las capas superiores de ingeniería y optimización de escenarios construidas sobre los productos especializados podrían perder su ventaja de la noche a la mañana.

Concluyó esto y elevó directamente esta cuestión clave al más alto nivel de la estrategia corporativa, obligando al equipo a tomar una decisión: la empresa debe pasar completamente de SaaS a AI Native.

Este ajuste no se logra de la noche a la mañana. Su primera pregunta fue: ¿qué estructura organizativa realmente necesita la próxima generación de empresas de IA?

Él cree que ya no se puede perseguir el número de miembros del equipo y la división detallada de tareas en las empresas actuales. «En la era de la IA, cuantas más personas haya, peor se utiliza la IA, porque cuanto más fina es la división de tareas, más depende cada persona de su propio ámbito». Comenzó a reducir activamente el tamaño del equipo y cambió por completo los criterios de contratación de «experiencia y proyectos» a «forma de pensar y habilidades full-stack». También modificó su método de evaluación de candidatos: ya no revisa sus historiales o experiencias pasadas, sino que les asigna tareas directamente para ver si una persona puede utilizar la IA para gestionar completamente el frontend y el backend. «Quien pueda lograrlo, ciertamente no usará mal las herramientas de IA».

Inmediatamente después, reajustó las prioridades de recursos internos de la empresa. Mientras la mayoría de las startups aún se enfocaban en la velocidad de lanzamiento del producto y la validación comercial, él optó por destinar la mayor parte de los recursos a la investigación de vanguardia, e incluso cambió el nombre de la empresa a FlashLabs.

«Anteriormente, la lógica de Internet era priorizar el producto o la operación; ahora, con la IA, hay que priorizar la investigación». Él exige a sí mismo y a su equipo leer artículos académicos y comprender los principios primeros: «Solo al acercarse más a los principios primeros, puedes saber qué más puede hacer la IA en el futuro y qué más puede reemplazar».

Esta transformación también trajo consigo un «período de dolor» dentro de la empresa, y no todos en el equipo pudieron comprender este gran reajuste estructural. Cuando él les dijo al equipo: «Primero no piensen en la comercialización, hagan cosas geniales», algunos dentro de la empresa se entusiasmaron, mientras que otros optaron por irse. Pero él mantuvo que, en la era de la inteligencia artificial, hacer menos es más importante: «Si no lo aceptas, entonces simplemente se elimina».

Pero lo más importante es, ¿qué tipo de fundador podrá sobrevivir en la era de la IA?

La respuesta de Shi Yi se divide en dos mitades: la primera se dirige a la realidad, "Al menos puedes recaudar fondos, siempre que no mueras o tengas suficiente profundidad en tu bolsillo para seguir aportando capital." La segunda mitad es lo que realmente quiere decir: "¿Tienes una capacidad de reflexión profunda más allá de la IA?"

«¿Por qué los modelos grandes pueden hacer cada vez más cosas? Porque la esencia de todas las ciencias naturales es las matemáticas, y los modelos saben escribir código y entender matemáticas. Al desglosar esta cadena capa por capa, la única habilidad verdaderamente escasa que le queda al ser humano es pensar más profundamente que la IA en un campo específico», analizó Shi Yi. «Mucha gente no tiene una comprensión suficiente de la IA. Mira cuántos fundadores realmente escriben código ellos mismos o usan herramientas de IA todos los días. La capacidad de escribir código se convertirá en una mercancía básica, y todos la tendrán. Pero, ¿puedes ser más inteligente que la IA? Ese es el foso de protección».

Desde tomar conciencia de la crisis, hasta tomar decisiones y pagar el precio para completar la reestructuración organizacional, Shi Yi dedicó un año a llevar a cabo una «autoiteración». No esperó a que la actualización del modelo le revelara el resultado final, sino que optó por buscar anticipadamente dónde podría aparecer la respuesta correcta. Si ese lugar es el adecuado o no es otro asunto, pero por lo menos ahora, aún no quiere abandonar la mesa de juego de la IA.

02 Las empresas deben jugar la carta de «Harness»

El reajuste de la estructura organizacional es solo el primer paso en el camino de supervivencia de la empresa. Lo que realmente obligó a Shi Yi a tomar la decisión de cambiar fue la línea de productos.

Originalmente, quería crear un sistema de colaboración de múltiples agentes, siguiendo la lógica de que entre más personas, más fuerza; así, podría imitar la estructura organizacional de una empresa humana y construir un sistema de múltiples agentes: algunos encargados de buscar, otros de realizar razonamientos lógicos y otros de resumir los resultados.

Pero los resultados prácticos hicieron que Shi Yi sacudiera la cabeza: «Demasiado lento, demasiado laggy, y lo que produce ni siquiera es tan bueno como un solo agente». En su opinión, la transmisión de instrucciones entre agentes es como un juego de teléfono defectuoso: cada capa adicional de intermediación pierde más información. «Prefiero tener un genio con un coeficiente intelectual de 150 y equipado con artefactos legendarios, antes que un montón de personas mediocres con un CI de 110, usando herramientas incompletas y teniendo que consultarse entre sí», dijo abiertamente Shi Yi en la entrevista.

Finalmente, eliminó todos los subagentes preestablecidos y decidió crear un solo agente lo suficientemente potente para reemplazar la colaboración en clúster mediante ejecución paralela de múltiples hilos.

Este es también el prototipo del último producto de FlashLabs, Super Agent, que lleva la inteligencia de un solo modelo al límite y optimiza las herramientas al máximo. Super Agent utiliza principalmente la automatización inteligente para unificar el sistema de ingresos del usuario, desde el desarrollo de clientes potenciales hasta la conversión, con la participación de AI Agent en todos los procesos.

En el lugar de la entrevista de Geek Park, Shi Yi asignó a Super Agent una tarea de búsqueda de información: «Busque los antecedentes de los fundadores de todas las empresas de IA en China que hayan recibido inversión en los últimos seis meses y genere una tabla». Luego, Super Agent inició simultáneamente decenas de hilos de tarea para avanzar en la búsqueda, el raspado, la escritura de código y la limpieza de datos, obteniendo los resultados en 2-3 minutos; la tabla incluía el nombre del fundador, el monto de financiación y los contactos públicos.

Si renunciar a los múltiples agentes es una resta a nivel de arquitectura, entonces renunciar a la localización es una elección inversa en la lógica de despliegue.

Cuando OpenClaw generó una ola de "Agentes locales" en la comunidad de desarrolladores, Shi Yi mantuvo firmemente al Super Agent en la nube. "Si un sistema como OpenClaw se ejecuta dentro de una empresa, es como un caballo de Troya; es muy fácil infiltrarse a través de él". Él considera que, en esta etapa, cualquier empresa que se atreva a implementar OpenClaw a gran escala dentro de su organización está abriendo sus puertas a hackers de todo el mundo.

En su opinión, la ventaja de OpenClaw radica en que el extremo personal demuestra la capacidad potencial de iniciativa. Por ejemplo, con OpenClaw, si la IA le pide al usuario 2000 dólares para cambiar la tarjeta gráfica, y el usuario responde: "Ve a ganártelo tú mismo", la IA procede a predecir el mercado y estudiar estrategias cuantitativas. "¿Qué jefe no disfruta de empleados proactivos?", preguntó Shi Yi. Cuando esta iniciativa se convierte en parte de un producto empresarial, la velocidad con la que reemplaza a los empleados humanos superará con creces las expectativas. "Antes, en la Revolución Industrial, cuando los carruajes se convirtieron en automóviles, tenías que comprar un auto, aprender a conducir y modificar las carreteras; aún así, llevaba mucho tiempo. Esta vez es diferente: con implementación gestionada, ¡pum! De pronto, el trabajo de decenas de empleados desaparece." También predice que este año el trabajo de los empleados de oficina será sustituido en gran medida por la IA.

En cuanto a la dificultad de la ejecución automatizada, es decir, cómo garantizar la seguridad de aplicaciones empresariales, la solución de FlashLabs consiste en construir un sistema de permisos de sandbox similar al de macOS, implementado en la nube y con autorización progresiva. Esto significa que el Agent inicialmente solo posee los permisos mínimos necesarios para completar la tarea, y su alcance se amplía gradualmente solo después de que su estabilidad y seguridad hayan sido verificadas múltiples veces.

Él usó Windows y Mac como ejemplos: «En Windows, instalar un software puede otorgar permisos muy elevados, instalación silenciosa, empaquetado con navegadores y dificulta incluso eliminarlo. En Mac, todos los programas están aislados en un entorno de sandbox, por lo que nunca necesitas instalar un software antivirus». Shi Yi cree que la competencia en agentes empresariales finalmente se extenderá desde la capacidad de llamada de modelos hasta la capacidad de diseño de entornos: quien pueda proporcionar un entorno de ejecución seguro, controlable y auditables para los agentes será quien logre que los clientes se atrevan realmente a usarlos.

Pero, ¿qué sentido tienen estos ajustes actuales si el modelo vuelve a dar un salto? ¿Si GPT-6 o Claude incorporan capacidades más potentes de descomposición de tareas y llamadas a herramientas, no se volverán a consumir todos los esfuerzos de FlashLabs hoy?

Ante esta pregunta persistente, Shi Yi no evitó la respuesta; su reflexión se dividió en dos aspectos.

Primero clasificó las barreras empresariales de las empresas especializadas en cuatro niveles: Percepción, Planificación, Aprendizaje recursivo y Gobernanza.

En el mercado de empresas de grandes modelos, hay cinco actores, y el ranking SOTA cambia cada tres meses. A través de la capa de orquestación, puedes integrar todos los modelos y llamar al más adecuado para cada escenario. Pero una empresa con un solo modelo solo puede usar el suyo propio; cuando tu modelo base no es el más inteligente, tu competitividad como producto se reduce directamente. Con los grandes modelos generales cubriendo rápidamente las dos primeras capas, Shi Yi cree que las únicas barreras reales ahora son las dos últimas, y que el verdadero foso de protección radica en la capa de orquestación.

Él cree que cuando múltiples agentes colaboran dentro de sistemas empresariales, podrían negociar en secreto en lugares invisibles para los humanos, eludiendo las reglas de permisos preestablecidas. La verdadera barrera de las empresas especializadas radica en la capacidad de diseñar un entorno de funcionamiento abierto pero controlado para escenarios específicos.

Sobre la corrección de este juicio, admitió que no tiene una certeza del 100 %. «La IA cambia demasiado rápido; realmente no sabes qué ocurrirá en el futuro». Pero está seguro de una cosa: siempre que las empresas verticales jueguen bien las cartas de la orchestración de IA y la gobernanza de IA, y resuelvan adecuadamente los problemas de diseño del entorno, al menos no serán eliminadas de la mesa en el próximo salto de modelos.

El modelo de voz 03 experimentará una reestructuración, y los agentes activos podrían generar un nuevo paradigma de pago por resultados

Una vez que sabes cómo crear un producto competitivo, el siguiente paso es lograr que los clientes lo reconozcan.

En esta etapa, Flashlabs tiene principalmente dos productos comercializados: Super Agent, que se paga según el uso de tokens, con precios disponibles en su sitio web; además, ha abierto el código de su modelo de voz Chroma, pero cobra por la plataforma y los servicios basados en el modelo. En realidad, estos dos enfoques son rutas comerciales comunes en la actualidad: utilizar el código abierto para generar confianza tecnológica y recuperar el valor comercial a través de plataformas y servicios.

Actualmente, las empresas fiscales de Japón están reemplazando a los agentes humanos de atención al cliente con el modelo de voz Chroma de FlashLabs; actualmente, solo 1/10 del personal está participando en pruebas, con IA y personal humano en línea simultáneamente, comparando continuamente las puntuaciones de rendimiento. La forma de validación es sencilla: quien tenga mayor precisión y mejor eficiencia en el procesamiento, lo demuestra directamente con los datos.

“El límite de uso de la voz está en el mismo nivel que el visual”; mientras toda la industria se enfoca en la multimodalidad y la comprensión de video, Shi Yi lideró a su equipo para perfeccionar el modelo de voz en tiempo real Chroma, logrando una latencia extremo a extremo de 135 milisegundos.

Antes de que surgieran los grandes modelos de texto, existían OCR, NLP y diversos pequeños modelos ensamblados. Actualmente, la voz se encuentra en el mismo estado en que estaba el texto antes de los grandes modelos: hay ASR, TTS y diversos módulos concatenados, y cada etapa realiza optimizaciones locales. Esta arquitectura antigua será reemplazada en algún momento por un único modelo de voz end-to-end. Su juicio es que, en lugar de esperar a que otros lo hagan, es mejor convertirse uno mismo en el reemplazo.

Shi Yi cree que la voz es el modo de comunicación más natural entre humanos, y que también será sin duda la interfaz de interacción más central entre humanos e IA. «La banda pasante de información que se puede transmitir mediante la voz es mucho mayor que la del texto; cuando digo una frase, tú la entiendes al instante».

Incluso cree que los modelos de voz desempeñan un papel clave en el avance de la industria de la inteligencia encarnada. La primera capa son los modelos de voz en tiempo real, encargados de respuestas inmediatas de baja latencia y alta inteligencia emocional: preguntar por el clima, preguntar si se debe agregar ropa, esta capa maneja directamente estas tareas; la segunda capa es el modelo de gran tamaño para razonamiento profundo, que maneja razonamientos complejos; la tercera capa es el modelo del mundo, que comprende las leyes físicas. “El alcance del uso de la voz es del mismo orden que el de la visión.” Esta es una de sus evaluaciones a largo plazo más firmes en este momento.

Shi Yi también considera que el modelo actual de comercialización de la IA es solo una forma transitoria. Debido a que todos los agentes actuales son esencialmente de respuesta pasiva: tú les dices qué hacer y ellos lo hacen, actuando como herramientas de ejecución que esperan instrucciones, siguen siendo similares a los chatbots; por lo tanto, el modelo de negocio aún se basa en el pago por consumo de tokens, pagas según el uso.

Pero cuando el agente comienza a ofrecer servicios proactivos, es decir, cuando le dices qué son los KPI y qué son los OKR, y él mismo busca tareas, planifica su propio camino y finalmente entrega resultados medibles, entonces ya no se lo compara con una herramienta, sino con un empleado. Obviamente, una empresa no paga a un empleado según cuántas teclas haya pulsado o cuántos correos haya enviado; lo que ves es qué objetivos ha logrado.

Por lo tanto, cree que, con la entrada en la era agente, la lógica de pago comercial también debería cambiar a un modelo basado en resultados y KPI. Cuando este cambio realmente ocurra, todo el sistema de precios, los métodos de venta y las relaciones con los clientes de los productos agente se reescribirán.

Ya se han iniciado nuevas exploraciones de modelos de negocio en el corazón de la industria. Crosby, un bufete de abogados de IA que acaba de obtener una ronda B de 60 millones de dólares, asigna a cada agente tareas específicas dentro del proceso de revisión de contratos, como extraer información de contexto, proponer sugerencias de modificación y generar comentarios; luego, los abogados revisan los resultados generados por la IA, gestionan los detalles omitidos y garantizan la precisión. Su modelo de negocio se basa en cobrar por cada contrato auditado, con tarifas que oscilan entre 250 y 1.000 dólares por contrato, aproximadamente entre 10 y 50 dólares por página, según la extensión.

Pero el verdadero paso hacia el siguiente modelo de comercialización requiere que los agentes activos puedan entregar resultados medibles de manera estable. «Aún no hemos llegado a ese punto.»

De FlashIntel a FlashLabs, Shi Yi completó en un año un ajuste organizativo y de rumbo con costos claros. Recortes de personal, desmantelamiento de la arquitectura de productos existente y una desaceleración temporal en la búsqueda de rentabilidad: una serie de acciones que, para los observadores externos, parecían ser una constante reducción.

Pero en el contexto real de la rápida iteración de la industria de la IA, esto se asemeja más a una startup ajustándose a sí misma en medio de cambios drásticos. La capacidad de los modelos puede experimentar un salto cada pocos meses, y nadie puede predecir completamente el rumbo futuro. Para Shi Yi y FlashLabs, el enfoque actual no es capturar cuánto mercado, sino asegurarse de que sus decisiones tecnológicas y lógica comercial no sean fácilmente obsoletas por la próxima ola.

La industria aún está explorando la forma verdadera de los agentes; los modelos de pago, los límites de seguridad y los modos de interacción definitivos aún no se han definido. La elección de FlashLabs quizás no sea la óptima, pero representa la ruta de supervivencia real de un tipo de empresa de IA vertical: bajo la presión constante de los grandes modelos que se infiltran cada vez más, primero encontrar un lugar donde establecerse, y luego esperar a que la industria madure realmente.