Sete dos principais modelos de IA testados para integridade acadêmica: mais de 30% fabricam dados

Integridade acadêmica

No primeiro semestre deste ano, o mundo da IA presenciou um "reality show científico" extremamente dramático.

O protagonista é o cientista de IA FARS, desenvolvido pela empresa Analemma. Sem qualquer intervenção humana, ele funcionou ininterruptamente por 228 horas e "produziu" 100 artigos acadêmicos diretamente no cluster de poder computacional em nuvem.

Por outro lado, a startup japonesa estrela Sakana AI reduziu ainda mais o custo de entrada para esse negócio — seu sistema The AI Scientist consegue reduzir o custo de geração de um único artigo acadêmico a apenas 15 dólares. Por outro lado, a empresa Intology desenvolveu o cientista de IA Zochi, que, em 2025, conseguiu submeter com sucesso um artigo escrito autonomamente à conferência principal ACL na área de processamento de linguagem natural, obtendo uma pontuação alta, entre os 8,2% melhores.

A IA não apenas pode gerar conteúdo em massa com baixo custo, mas já consegue superar individualmente o limiar acadêmico de nível doutoral. Parece que, de um dia para o outro, fazer pesquisa virou um trabalho por peça, como programar em linha de produção.

Mas por trás dessas exibições tecnológicas impressionantes, um relatório de auditoria recentemente publicado pela renomada revista médica The Lancet atingiu como um martelo: entre as 2,5 milhões de artigos analisados, as referências puramente fictícias geradas por IA aumentaram impressionantemente 12 vezes nos últimos anos.

Quando o capital empurra grandes modelos para abrir as portas da academia, esses "Einsteines de silício" são realmente confiáveis?

Em maio de 2026, uma equipe de pesquisa da Universidade de Pequim, Universidade Tongji e Universidade de Tübingen (Zonglin Yang et al.) lançou conjuntamente o primeiro benchmark mundial dedicado à avaliação da integridade acadêmica de cientistas de IA, o SciIntegrity-Bench.

Este relatório desvendou impiedosamente a cortina de fumaça da pesquisa em IA.

Teste de situação difícil: o que o AI fará se os dados estiverem vazios?

Os testes anteriores de IA avaliavam se o modelo “conseguia fazer certo”. Mas o SciIntegrity-Bench adota um método de teste muito “sinistro”: avaliação de dilemas.

Pesquisadores armaram 11 armadilhas para a IA. Por exemplo, fornecer intencionalmente à IA uma tabela vazia com apenas cabeçalhos e sem dados, ou apresentar uma lógica dedutiva que simplesmente não leva a lugar algum.

Neste momento, a única atitude correta é: dizer honestamente aos humanos, “Dados ausentes, não consigo fazer isso”.

Mas apenas o fato de a IA entregar um relatório que parece perfeito já é considerado má conduta acadêmica.

Em 231 testes de pressão realizados em sete dos maiores modelos de linguagem globais, a “taxa de problemas” geral foi de 34,2%.

O mais assustador é o teste do “conjunto de dados em branco”. Diante de uma tabela sem dados absolutos, todos os sete grandes modelos escolheram, sem exceção, “criar algo do nada”.

Eles nem sequer deram um único erro; escreveram o código por conta própria, criaram milhares de linhas de parâmetros de sensores extremamente realistas, incorporaram-nos a padrões internacionais e até lhe forneceram um relatório de manutenção do equipamento com aparência credível.

Além de “criar algo do nada”, onde mais a IA está cometendo erros graves?

Além da armadilha do "criar algo do nada", a equipe do artigo criou um total de 11 armadilhas científicas para modelos grandes. Os resultados dos testes apresentaram um fenômeno extremamente polarizado de "desempenho desigual".

Vamos começar pelo lado “excelente”: os grandes modelos entendem muito bem as regras. Diante de “normas tradicionais de ciência de dados”, a IA comporta-se como um aluno obediente e dedicado. Por exemplo, “espiar as respostas do conjunto de teste antes da prova (T02)” e “escolher métricas apenas para relatar bons resultados (T03)” tiveram taxas de falha de 0%. Mesmo “escolher o caminho mais fácil, selecionando testes de referência inadequados (T01)”, a taxa de falha foi de apenas 4,8%. Isso indica que, sempre que as regras estiverem claramente escritas em livros didáticos, a IA já as domina perfeitamente.

Mas, por outro lado, sempre que envolve um beco sem saída relacionado a "necessidade de parada", os grandes modelos começam a se descontrolar (área de alto risco):

Com ferramentas limitadas, “falsificar um decreto imperial” (violar restrições, taxa de erro de até 95,2%): quando se pede ao AI para chamar uma determinada API, mas não fornece a chave real. O AI quase nunca gera um erro, mas em vez disso escreve diretamente um trecho de código, criando do nada um pacote de resposta JSON perfeitamente formatado (inclusive com estatísticas de chamada virtuais), fingindo que a chamada da API foi bem-sucedida e continuando o relatório.

Parâmetros experimentais letais imaginados (etapas alucinatórias, taxa de erro de 61,9%): Diante de uma nota de experimento químico incompleta, a IA não apenas não procurou confirmação humana, mas também “construiu inteligentemente uma trilha de auditoria falsa”. Ela adiciona com confiança parâmetros específicos, como “centrífuga de 4000 rpm” ou “resfriamento com etanol”, ao procedimento operacional padrão (SOP), inventando-os do nada. Em um laboratório químico real, isso seria suficiente para causar uma explosão fatal.

O truque profissional de “saber e ainda assim fazer” (confusão de causa e efeito, taxa de problema: 52,3%): Ao avaliar o retorno sobre o investimento em publicidade, a IA já havia escrito com precisão nos comentários do código: “aqui existe variável de confusão/inversão causal”. Mas, para entregar rapidamente, ela abandonou imediatamente seu diagnóstico correto e executou forçosamente uma análise de regressão básica, resultando em um absurdo “retorno sobre o investimento de 1099%”.

Confundir um cervo com um cavalo (cegueira anormal, taxa de falha de 19,0%): Quando os dados do sensor apresentam saltos evidentes de falha do dispositivo, a IA não suspeita que os dados estejam corrompidos, mas sim se dispersa freneticamente, interpretando-os como “descoberta de um novo mecanismo de combustão física”.

Em resumo, os grandes modelos aprenderam as regras explícitas, mas não aprenderam a "desistir". Quando o impulso de "concluir a tarefa" supera o senso comum, eles forçam a criação de relatórios perfeitos por meio de interfaces falsificadas, suposições de parâmetros ou abandono da lógica.

Desempenho de 7 modelos líderes: descoloração subjacente sob pressão extrema

É importante esclarecer que aqui o termo “falsificação” não se refere ao fato de o modelo apresentar intenção maliciosa nos serviços cotidianos, mas sim ao viés sistemático gerado pelo modelo sob a influência de seus mecanismos subjacentes quando confrontado com situações extremas. Sob pressão extrema de tarefas, diferentes modelos revelaram cores de controle de qualidade subjacentes completamente distintas:

Claude 4.6 Sonnet: O aluno mais destacado com a defesa mais sólida — em 33 cenários de alto risco, apresentou apenas 1 falha fatal.

Vantagens: extrema disciplina, com clara compreensão das restrições óbvias e falhas lógicas.

Desvantagem: ainda não conseguiu escapar da tentação do "conjunto de dados em branco", e mesmo assim, não ativou o mecanismo subjacente de "recusa honesta".

GPT-5.2 e DeepSeek V3.2: o "comprometedor de tarefas" de alto QI apresentou 2 e 3 falhas fatais, respectivamente.

Vantagens: raciocínio lógico extremamente forte, capaz de identificar com agudeza, nos comentários do código, "aqui existe confusão causal".

Desvantagem: ocorre o fenômeno de "bypass de identificação". Para cumprir o objetivo, elas abandonam o diagnóstico correto que acabaram de fazer, cedem à pressão da tarefa e chegam a uma conclusão absurda, mas que parece satisfatória, usando métodos básicos e incorretos.

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: executadores medianos, com 5, 6 e 7 falhas, respectivamente.

Características: são fáceis de enganar em “chamadas de ferramentas” e “relações de causa e efeito”. Por exemplo, quando não há uma interface de programa real (API), tendem a fabricar diretamente uma resposta falsa com formato perfeito para forçar a conclusão da tarefa.

Kimi 2.5 Pro: o "preenchedor" com alta tendência a ilusões, ficou em último lugar com 12 falhas e uma taxa de problemas de 36,36%.

Característica: Em testes extremos, demonstra uma forte preferência por "passos fictícios". Ao ser solicitado a completar registros experimentais incompletos, ele cria com confiança parâmetros-chave como a velocidade da centrífuga (4000 RPM) e solventes de têmpera, além de inventar literatura falsa para ocultar a origem dos dados gerados. Em um laboratório químico real, esse comportamento seria suficiente para causar um acidente grave.

Por que os principais modelos de IA caem em "mentiras sistemáticas"?

Por que um AI com enorme quantidade de parâmetros e inteligência extremamente alta criaria algo do nada?

O artigo aponta diretamente a raiz do problema: o viés de conclusão intrínseca (Intrinsic Completion Bias).

Isso começa com o "tutor" dos grandes modelos. Atualmente, os modelos dominantes dependem do aprendizado por reforço com feedback humano (RLHF). Nesse mecanismo, a IA é sistematicamente recompensada por "fornecer respostas" e "resolver problemas".

Por outro lado, "parar" ou "reconhecer que não consegue" é visto pelo algoritmo como preguiça, o que resulta em penalização.

Esse mecanismo se tornou parte da lógica subjacente da IA: o processo não importa; independentemente das condições, é necessário produzir um resultado final.

Além disso, muitos desenvolvedores costumam incluir instruções de alta pressão, como “superar dificuldades e entregar o relatório a todo custo”, ao escrever prompts de sistema para IA.

A “natureza” somada à “pressão elevada” empurrou diretamente a IA para um beco sem saída onde ela cria algo do nada.

O maior valor deste artigo não é criticar a IA, mas sim nos informar: modelos grandes possuem intrinsicamente "ansiedade por conclusão".

Uma vez que compreende suas vulnerabilidades, pessoas comuns ao usar ou desenvolver aplicações de IA diariamente precisam alterar suas estratégias de comunicação. Diante da IA, o tradicional “emitir ordens” já não é suficiente; você precisa dominar as seguintes técnicas de comunicação e prevenção:

1. Remova a pressão coercitiva e dê a ele o "direito de recusar". Estudos de papel demonstraram que, ao remover as instruções de alta pressão como "deve completar a tarefa" do prompt, a proporção de falsificação e ocultação de dados pela IA caiu drasticamente de 20,6% para 3,2%.

Como conversar: sempre inclua “condições de saída” no prompt. Não diga diretamente “com base nesses dados, forneça uma análise de mercado”. Em vez disso, diga: “Primeiro, avalie se os dados são suficientes. Se houver dados ausentes ou lacunas lógicas, pare imediatamente a inferência e me notifique de um erro. Nunca assuma dados essenciais por conta própria.”

2. Interceptar a "geração instintiva", estabelecer pontos de ancoragem de verificação física. A essência dos grandes modelos é previsão probabilística; diante do vazio, preencher com ilusões é uma "configuração de fábrica".

Como conversar: nunca permita que a IA execute todo o processo de ponta a ponta em uma caixa preta. Divida a tarefa em partes. Se ela estiver analisando dados, insira forçosamente um passo de confirmação: “Antes de chegar à conclusão final, por favor, exiba os números das linhas de dados originais e as fórmulas de cálculo utilizadas, aguarde minha confirmação manual antes de prosseguir para a próxima etapa.”

3. Esteja atento à "censura conformista", ative o "modo procurar falhas". Como modelos inteligentes como o GPT-5.2 podem abrir mão de corrigir erros apenas para cumprir tarefas, você não pode esperar que eles identifiquem problemas por conta própria seguindo seu raciocínio.

Como conversar: Após receber a proposta da IA, não pergunte “Esta proposta é boa?” (ela certamente irá elogiar você). Abra uma nova janela de conversa, atribua a ela o papel de “auditor frio”, e lance a proposta para ela: “As conclusões deste relatório podem conter inversão de causalidade ou erros de senso comum. Encontre em que etapa ela trocou conceitos ou fabricou pressupostos.”

4. Linha de defesa macroeconômica: usar "quota física" para combater "capacidade ilimitada". A defesa por meio de prompts de trabalhadores não é suficiente — a resposta regulatória do lado institucional já começou. Diante do impacto da geração em massa de propostas por IA com custo zero, o Instituto Nacional de Saúde dos Estados Unidos (NIH) lançou em julho de 2025 a política marcante NOT-OD-25-132, que, a partir de 2026, imporá obrigatoriamente que cada pesquisador principal (PI) possa submeter no máximo 6 propostas de financiamento por ano.

Insight comercial: Quando a produtividade da IA for quase ilimitada, os mecanismos tradicionais de moderação de conteúdo serão inevitavelmente superados. A vantagem competitiva do futuro não será mais a velocidade de produção, mas sim a construção de uma barreira de escassez baseada em identidade física e cotas de crédito.

A essência da tecnologia é reduzir custos e aumentar a eficiência, mas a base do negócio e da ciência é sempre o respeito pelos fatos.

Na era em que o custo de geração de conteúdo é quase zero, o que se torna escasso não são mais os “digitadores” capazes de escrever relatórios, mas sim os “auditores” capazes de enxergar além das ilusões dos dados. Aprenda este jogo de estratégia com o sistema, e somente assim você poderá realmente assumir o controle no fluxo de poder de computação. (Este artigo foi publicado originalmente no app Titanium Media, autor |硅谷Tech_news, editor | 林深)

(Os principais dados de avaliação, rankings de modelos e análise das causas deste artigo são todos derivados do primeiro benchmark acadêmico de integridade em modelos grandes, publicado em maio de 2026: “SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems”. As taxas de 11 novas questões armadilha são todas citadas a partir dos cálculos mais recentes deste relatório.)