Texto: Zheng Minfang
Fonte: Observações da Wall Street
Quando a OpenAI do outro lado do oceano parece ter pressionado o "botão de pausa" do modelo gerador de IA Sora, os gigantes da tecnologia chinesa lançaram uma contra-ofensiva nessa área.
Recentemente, o modelo mais recente de geração de vídeo da ByteDance, Seedance 2.0, foi lançado e rapidamente causou sensação na internet graças às vantagens de entrada multimodal, câmera automática e consistência.
O fundador da Game Science, Feng Ji, após uma profunda experiência, emitiu uma avaliação de grande peso: "O setor de conteúdo certamente enfrentará uma inflação sem precedentes na história."
A profecia de Feng Ji não é uma preocupação infundada.
Essas ondas de choque estão se propagando rapidamente para indústrias como comércio eletrônico, jogos, plataformas de vídeo e produção cinematográfica: no setor do comércio eletrônico, as barreiras técnicas de bases de produção e filmagem de baixo custo foram completamente eliminadas; na indústria de jogos, os ciclos de produção de validação de conceitos e materiais para aquisição de usuários estão sendo comprimidos ao extremo, tornando a competição ainda mais feroz; as plataformas de vídeo estão obrigadas a otimizar ainda mais seus algoritmos de distribuição para lidar com a explosão na oferta; enquanto o processo linear tradicional de "filmagem + edição" na produção cinematográfica está enfrentando um ataque de redução de dimensão por parte de uma linha de produção industrializada de "palavras-chave + geração".
Uma grande reestruturação industrial sobre benefícios e substituição já começou.
Explosão da capacidade de produção de vídeos
Nos últimos 12 meses, a maior dor de cabeça da IA de vídeo foi a capacidade de entrega.
Seja o Sora, o Runway, os domésticos Keling, ou o Jiemeng desenvolvido internamente pela ByteDance, todos eles apresentam esse problema. Os criadores frequentemente se envolvem no "jogo de puxar cartas", exigindo gerar dezenas de vezes para obter um vídeo de alguns segundos sem colapso e com consistência.
A quebra de paradigma central da Seedance 2.0 está em tentar transformar "exibicionismo técnico" em "narrativa entregável".
As quebras de capacidades-chave são principalmente refletidas em três aspectos:
Primeiro, entrada multimodal. Segundo testes reais da Toutiao Tech, os usuários membros que fazem login pela primeira vez no JiDream podem usar diretamente o Seedance 2.0 pagando 1 yuán para ativar o renovação automática, suportando texto, imagens, vídeos e áudio como materiais de referência de entrada, podendo-se dizer que quase todos os formatos que você consegue imaginar podem ser inseridos para gerar vídeos.
O segundo é compreender a narrativa e aprender a operar a câmera por conta própria. O Seedance 2.0 demonstra uma mentalidade "de diretor", capaz não apenas de compreender lógicas narrativas complexas, mas também de automatizar a linguagem cinematográfica, realizando operações de movimentação da câmera, como aproximação, afastamento, panorâmicas e deslocamentos. Os vídeos deixam de ser simples deslocamentos de imagens estáticas, tornando-se narrativas com lógica cinematográfica.
Terceiro, a consistência visual. Segundo testes reais realizados pela Toutiao Tech em vários aplicativos de geração de vídeos com IA no mercado, problemas como a distorção das expressões faciais durante o movimento do sujeito e a intercalação de fundos nítidos e desfocados ocorrem com frequência.
Mas com base no vídeo de demonstração, o Seedance 2.0 mantém a consistência das informações faciais, da imagem e outros elementos durante o processo de movimento do sujeito principal, tornando possível a expressão de uma trama coerente.
Isso significa que a geração de vídeo por IA está se transformando de brinquedo em ferramenta. A capacidade de transformar a geração de vídeo em uma linha de produção industrial padronizada faz com que "todo mundo é diretor" deixe de ser apenas um slogan vazio, e também reduzirá significativamente o custo da produção de vídeos.
Feng Ji usou "inflação" para descrever essa transformação.
「O custo de produção de vídeos gerais não poderá mais seguir a lógica tradicional da indústria cinematográfica e de televisão, começando gradualmente a se aproximar do custo marginal de computação. O setor de conteúdo certamente enfrentará uma inflação sem precedentes na história, e as estruturas organizacionais e processos de produção tradicionais serão completamente redefinidos. Acredito que qualquer pessoa que já tenha usado isso poderá entender rapidamente que essa previsão não é杞人忧天 (um exagero infundado).」, afirmou Feng Ji.
Primeiro impacto
Quando o custo marginal de produção de vídeos se aproxima de zero, os modelos de negócios baseados nas estruturas de custos anteriores serão os primeiros a ser afetados.
As indústrias de comércio eletrônico, jogos, plataformas de vídeo e produção cinematográfica talvez sejam os primeiros setores a serem afetados.
A sensação mais direta do tremor surgiu primeiro no setor de comércio eletrônico.
A apresentação de produtos, a dramatização de cenas e os vídeos de explicações de funções, essencialmente, não dependem de narrativas artísticas complexas, mas sim da clara transmissão de informações.
Com a popularização do Seedance 2.0, a barreira para que comerciantes acessem a capacidade de expressão por meio de vídeos foi completamente eliminada. Empresas de produção de vídeos de baixa qualidade que dependiam do "desequilíbrio de informações" e da "barreira tecnológica", bem como bases de filmagem no Taobao, enfrentarão um inverno rigoroso. A produção de vídeos pode se deslocar da prestação de serviços profissionais terceirizados para a operação diária própria dos comerciantes.
Comparado ao comércio eletrônico, o impacto dos modelos de geração de vídeos de IA no setor de jogos talvez ainda seja relativamente limitado, mas a revolução já começou silenciosamente.
A elaboração de narrativas mundiais, a validação de conceitos e o custo de vídeos de materiais para aquisição de usuários está caindo de forma exponencial. Mais projetos serão validados em estágios iniciais e também serão eliminados em estágios iniciais.
Uma fonte interna de uma empresa de jogos em Pequim disse à Toutiao Tech que a empresa já iniciou testes em pequena escala para o Seedance 2.0.
Os modelos de geração de vídeo com IA também estão mudando a lógica de distribuição das plataformas de vídeo.
Para plataformas como Douyin e Kuaishou, os vídeos gerados por modelos como o Seedance 2.0 trazem uma explosão na oferta de conteúdo, forçando a transferência completa da capacidade central da plataforma para o mecanismo de "seleção e distribuição", por exemplo, quem tiver o algoritmo mais preciso para encontrar ouro entre o conteúdo gerado por IA em massa, e quem tiver maior eficiência na conversão comercial, será o vencedor.
Na área de filmes e televisão, a capacidade narrativa multilinha do Seedance 2.0 pode redefinir o processo de produção.
No passado, a criação de uma obra audiovisual seguia frequentemente um rigoroso processo industrial linear: primeiro, era feito o rodagem de uma grande quantidade de material, depois, o editor fazia seleções e montagens no pós-produção, construindo a lógica narrativa.
Mas, na lógica da Seedance 2.0, essa fronteira está ficando cada vez mais ambígua.
Na etapa de filmagem, existe a possibilidade de cenários futuros serem gerados com baixo custo por modelos de IA; os próprios modelos possuem compreensão sobre a movimentação da câmera e o ritmo narrativo, de modo que, no momento da geração do vídeo, já é realizada simultaneamente a "edição".
A IA não entrega mais apenas cenas isoladas de material, mas sim diretamente "cenas prontas" com relações coerentes de espaço e tempo.
Isso significa que a etapa de pós-produção, tradicionalmente demorada na produção de filmes e séries, enfrenta o risco de ser "reduzida em dimensão" por algoritmos.
O fluxo criativo futuro talvez não seja mais "filmagem + edição", mas sim "palavras-chave + geração", e as funções dos editores se transformarão de "operários" para "engenheiros de instruções" ou "guardiões do senso estético".
Embora os vídeos gerados atualmente pelo Seedance 2.0 não sejam perfeitos em 100%, detalhes lógicos, imagens e outros aspectos ainda precisam de melhorias, diante do ritmo de iteração tecnológica que supera amplamente as expectativas do mercado, esses desafios não serão obstáculos no futuro próximo.
A «cintura de defesa» da propriedade intelectual
A capacidade surpreendente de "recriação" da Seedance 2.0, enquanto permite que pessoas comuns desfrutem da sensação de criação, também está causando pressão sem precedentes aos detentores dos direitos autorais.
Recentemente, muitos trechos de "recriações" e até mesmo "paródias" dos filmes clássicos de Stephen Chow estão se espalhando nas plataformas de vídeos curtos.
Com o poder computacional dos modelos de geração de vídeo de IA, as expressões faciais de Stephen Chow, seu riso característico e até mesmo seu estilo clássico de falar foram replicados por muitos usuários com baixo custo, gerando até mesmo muitas situações absurdas que nunca aconteceram.
Isso rapidamente atraiu a atenção da equipe de Stephen Chow.
O agente de Stephen Chow, Chan Chun Yu, publicou abertamente uma mensagem questionando: "Quero perguntar, essas ações constituem violação de direitos (especialmente a ampla propagação nos últimos dois dias). Acredito que os criadores já devem estar lucrando, e será que uma certa plataforma está deixando isso passar e fornecendo aos usuários para gerar e publicar?"
Essa pergunta direta, aparentemente revela a ansiedade sobre direitos autorais na era da IA, mas, ao examinar profundamente a lógica comercial, ela refuta exatamente a escassez extrema de IP de topo na era da IA.
No futuro, em meio ao dilúvio de conteúdo gerado por IA, a tecnologia em si não será mais um obstáculo, pois todos terão a mesma ferramenta Seedance 2.0.
As verdadeiras barreiras ainda estão sob o controle dos proprietários de IP.
Justamente por causa da grande quantidade de "cópias de alta fidelidade" de Stephen Chow no mercado, torna-se ainda mais evidente a irreplaceabilidade do IP "Verdadeiro Stephen Chow".
Quando a oferta de conteúdo não apenas excede a demanda, mas também sofre "inflação", o tempo e a atenção dos usuários tornam-se mais valiosos do que nunca. Ainda são os IPs clássicos, comprovados pelo tempo e com forte poder de penetração emocional, que conseguem capturar instantaneamente a atenção dos usuários.
Em outras palavras, embora a IA reduza a barreira para a produção, eleva infinitamente o valor da "distinguidade".
Para os proprietários de propriedade intelectual, o futuro ainda é promissor. Os ativos de propriedade intelectual acumulados ao longo de anos deixarão de ser apenas alvos de violações e poderão ter seu valor comercial ampliado exponencialmente por meio de autorizações oficiais, utilizando a alavanca da inteligência artificial, passando pelas mãos de inúmeros criadores.
Do lançamento, em fevereiro de 2024, do Sora 1.0 da OpenAI, que se tornou o primeiro modelo global de geração de vídeos por IA a suportar a criação de vídeos de até 60 segundos, até agora, quando a ByteDance lançou o Seedance 2.0, que consegue gerar filmes narrativos de áudio nativo de 60 segundos com entrada multimodal, passaram-se apenas 2 anos.
Nesta era de rápido desenvolvimento tecnológico, todos os setores estão diante de uma encruzilhada: os custos na execução estão sendo comprimidos sem limites, e os trabalhos repetitivos, dependentes de mão de obra e de longas horas serão substituídos sem piedade; ao mesmo tempo, o valor de IP e criatividade está sendo ampliado infinitamente.
Quando as ferramentas se tornarem acessíveis, a decisão sobre a altura do conteúdo não dependerá mais de saber ou não usar o software, mas sim de se a concepção mental sobre o mundo for suficientemente única.
