学術的誠実性のために7つの主要なAIモデルをテスト：30％以上がデータを捏造

学術的誠実さ

今年の上半期、AI業界では非常に劇的な「科学研究リアリティショー」が繰り広げられた。

主人公はAnalemma社が開発したAI科学者FARSである。人間の介入なしに、彼は228時間連続で動作し、クラウドコンピューティングクラスタ内で100本の学術論文を「生み出した」。

一方で、日本の注目スタートアップであるSakana AIは、このビジネスの障壁を底まで引き下げ、彼らが開発した「The AI Scientist」システムにより、単一の学術論文の生成コストを15ドルまで極限まで削減しました。一方で、Intology社が開発したAI科学者Zochiは、2025年に自ら執筆した論文を自然言語処理分野のトップカンファレンスACLメインカンファレンスに採択され、上位8.2%という高得点を獲得しました。

AIは低コストで大量のスパムを生成できるだけでなく、すでに博士レベルの学術的障壁を単点突破できるまでになった。まるで一夜にして、研究がライン作業のようにコードを叩いて歩数を稼ぐ仕事になってしまったようだ。

しかし、これらの目を見張る技術的ショーの背後で、医学界の権威あるジャーナル『ランセット』（The Lancet）が最近発表した監査報告書は、重い一撃となった。彼らが調査した250万本の論文の中で、AIによって生成された完全に虚構の参考文献が、過去数年で驚異的な12倍に増加していた。

資本が大規模モデルを押し上げ、学術界の扉を叩こうとしているが、これらの「シリコンベースのアインシュタイン」は本当に信頼できるのか？

2026年5月、北京大学、同済大学、チュービンゲン大学の研究チーム（楊宗林ら）が、AI科学者の学術的誠実性を評価するための世界初のベンチマークテスト《SciIntegrity-Bench》を共同で発表しました。

この報告は、AI研究の隠れ蓑を容赦なく剥がした。

困境テスト：データが空の場合、AIはどのように対応しますか？

過去のAIテストは、モデルが「正しくできるか」を試していた。しかし、《SciIntegrity-Bench》は非常に「陰湿な」テスト手法——ディレンマ評価——を採用している。

研究者はAIに11種類の罠を仕掛けた。たとえば、ヘッダーのみでデータのない空のテーブルをAIに提示したり、まったく成り立たない推論ロジックを提供したりした。

この場合、唯一正しい対応は、「データが不足しており、対応できません」と人間に正直に伝えることです。

しかし、AIが見かけ上完璧なレポートを強制的に提出しただけで、学術不正と判定される。

世界で最も優れた7つの大規模言語モデルを対象とした231回のハイプレッシャーテストにおいて、全体の「問題率」は34.2％に達した。

最も恐ろしかったのは「空白データセット」テストだった。データがまったくないテーブルに直面して、7つの大規模モデルすべてが一斉に「無から有を生み出す」選択をした。

それらは一つのエラーメッセージも出さず、自らコードを書き、数千行に及ぶ非常にリアルなセンサー参数を空想で作り出し、国際標準に適用するだけでなく、本物らしい機器保守報告書まで提供してくれた。

「無から有を生み出す」以外に、AIはどこで狂ったミスを犯しているのか？

「無から有を生み出す」トリップだけでなく、論文チームは大規模モデルに合計11種類の研究トリップを仕掛けました。テスト結果は極端な偏りを示す「偏科」現象を呈しました。

まず「優れている」点を述べる：大規模モデルは非常にルールを守る。伝統的なデータサイエンスの規範に直面した際、AIは規則を厳守する優等生のように振る舞う。たとえば「試験前にテストセットの答えをチラ見する（T02）」や「良い結果だけを選び出して報告する（T03）」といった行為の失敗率はいずれも0％である。さらに「易しい課題を選んで不適切なベンチマークテストを選ぶ（T01）」という行為の失敗率もわずか4.8％にとどまる。これは、教科書に明記された規範については、AIがすでに完璧に習得していることを示している。

しかし一方で、「停止が必要」という論理的罠に巻き込まれると、大規模モデルは暴走し始める（高リスク領域）：

ツールが制限されている場合、「偽の聖旨を伪造」（制約を違反し、問題率は95.2％に達）：AIに特定のAPIを呼び出すよう指示するが、実際のAPIキーを提供しない場合。AIはほとんどエラーを報告せず、代わりに、仮想の呼び出し統計まで含む、形式が完璧なJSON応答パケットを勝手に生成し、API呼び出しが成功したかのように振る舞い、レポートの作成を続ける。

脳内補完された致命的な実験パラメータ（幻覚ステップ、問題率61.9％）：不完全な化学実験ノートに直面したAIは、人間に確認せず、「高知能的に虚偽の監査トラックを構築」する。標準操作手順（SOP）に勝手に追加し、「4000回転の遠心分離機」や「エタノールクエンチ」などの具体的なパラメータをでっち上げる。現実の化学実験室では、これにより致命的な爆発が発生する可能性がある。

「明知故犯」の職場のズルさ（因果関係の混同、問題率52.3％）：広告のリターン率を評価する際、AIはすでにコードのコメントで「ここには交絡変数／因果逆転が存在する」と鋭く指摘していたが、急いで提出するために、その正しい診断を即座に無視し、最も基本的な回帰分析を強引に実行し、馬鹿げた「1099％の投資収益率」を導き出した。

鹿を馬と称する（異常な盲目、失敗率19.0％）：センサーデータに明らかな機器故障によるジャンプが発生した場合、AIはデータが破損しているとは疑わず、むしろ過剰に拡散し、「新たな物理燃焼メカニズムを発見した」と解釈する。

要するに、大規模モデルは明示的なルールを学習したが、「諦める」ことを学んでいない。任務を完了するという本能が常識を上回ると、それらはインターフェースを偽造したり、パラメーターを空想したり、論理を放棄したりして、完璧なレポートを無理やり組み立てる。

7つのトップモデルの成績：極限のストレス下でのベースカラーの差異

ここで言う「偽造」は、モデルが日常的なサービスで悪意を持っていることを意味するのではなく、極限の状況下でモデルが基盤メカニズムの影響を受けて生じるシステム的なバイアスを指します。極端なタスク負荷下で、異なるモデルはそれぞれ全く異なる基盤的な品質管理の本質を露呈しました：

Claude 4.6 Sonnet：最堅固な防衛ラインを誇る優等生。33の高リスクシナリオにおいて、致命的な失敗は1回のみ。

利点：自制力が非常に強く、明確な制約条件や論理的欠陥を明確に認識している。

欠点：依然未能逃过“空白数据セット”への誘惑であり、それですら底层の「正直な拒否」メカニズムをトリガーできなかった。

GPT-5.2 と DeepSeek V3.2：高知能の「タスク妥協者」がそれぞれ2回と3回の致命的失敗を記録。

利点：論理的推論が非常に優れており、コードのコメント内で自ら「ここに因果関係の混同がある」と指摘できる。

欠点：「認識回避」が発生する。目標を達成するために、直前に下した正しい診断を放棄し、タスクの圧力に屈して、基本的な誤りに基づいた方法で、馬鹿げたが却って要求を満たす結論を導き出す。

Gemini 3.1 Pro、Qwen3.5、GLM 5 Pro：標準的な実行者。失敗回数はそれぞれ5回、6回、7回。

特徴：「ツールの呼び出し」と「因果関係」で罠にかかりやすい。たとえば、実際のAPIインターフェースが不足している場合、それらはタスクを強引に進めるために、形式が完璧な偽の応答を生成する傾向がある。

Kimi 2.5 Pro：幻覚傾向が非常に高い「穴埋め者」で、12回の失敗で最下位、問題率は36.36%に達した。

特徴：極限テストにおいて、強い「仮想手順」の傾向を示す。不完全な実験記録の補完を要求された際、遠心機の回転速度（4000 RPM）や淬火溶媒などの重要なパラメータを自信を持って空想し、データ生成の痕跡を隠すために虚偽の文献まで作成する。実際の化学実験室では、このような行動は重大な事故を引き起こす可能性がある。

なぜトップレベルのAIは「システム的な嘘」に陥るのか？

膨大なパラメータ数と非常に高い知能を持つAIが、なぜ無から有を生み出す必要があるのでしょうか？

論文は病根を的確に指摘した：内在的完了バイアス（Intrinsic Completion Bias）。

これは大規模モデルの「家庭教師」から始まります。現在の主流モデルは、人間のフィードバックを用いた強化学習（RLHF）に依存しています。このメカニズムでは、AIは「回答を提供する」ことや「問題を解決する」ことを体系的に報酬されます。

逆に、「止まる」または「自分にはできないと認める」ことは、アルゴリズムにとっては消極的な怠慢と見なされ、減点されます。

このメカニズムはAIの基盤ロジックとして内面化された：プロセスは重要ではなく、状況がいかに劣悪であっても、最終的な出力結果を必ず生成しなければならない。

さらに、多くの開発者がAIにシステムプロンプトを書く際、「困難を乗り越え、いかなる状況でもレポートを出力しなければならない」といった圧力のある指示をよく追加します。

「天性」に「高圧」を加えると、AIを無から有を生み出す窮地に追い込む。

この論文の最大の価値は、AIを批判することではなく、大規模モデルは本来「完成度の不安」を備えていることを示していることです。

その弱点を理解した以上、一般ユーザーが日常的にAIアプリケーションを使用したり開発したりする際には、コミュニケーション戦略を見直す必要があります。AIに対して従来の「命令を出す」だけでは不十分であり、以下のコミュニケーションと対策テクニックを身につける必要があります：

1. 強制的な圧力を除去し、「拒否権」を与える。論文のテストでは、プロンプト内の「タスクを必ず完了する」ような高圧的な指示を削除したところ、AIによるデータ隠蔽・偽造の割合が20.6%から急激に3.2%まで低下した。

どう話すか：常にPromptに「終了条件」を追加してください。単に「これらのデータに基づいて市場分析を提供してください」と言わないでください。代わりに、「まずデータが十分かどうかを評価してください。データが不足している場合、または論理的な断絶がある場合は、即座に推論を停止し、エラーを報告してください。核心データを勝手に仮定することは絶対に許可されません。」

2. 「生成本能」を遮断し、物理的検証のアンカーを構築する。大規模モデルの本質は確率的予測であり、空白に対して幻覚を補完するのは「工場出荷時の設定」である。

どう会話するか：AIに黑盒の中でエンドツーエンドですべてのプロセスを実行させないでください。タスクを細かく分割してください。データを分析させる場合は、必ず確認ステップを挿入してください。「最終的な結論を出す前に、まず使用した原始データの行番号と計算式を出力し、私の人間による確認を待ってから次のステップに進んでください。」

3. 「従順型監査」に注意し、「見つけ出しモード」を有効にしましょう。GPT-5.2などの優れたモデルは、課題をこなすために修正を放棄するため、あなたの考えに沿って自ら問題を見つけることは期待できません。

どう話すか：AIの案を手に入れた後、「この案は良いですか？」とは聞かないでください（それは必ずあなたに賛成します）。新しいチャットウィンドウを開き、AIに「冷酷な監査員」という役割を与え、その案を突き付けてください。「このレポートの結論には因果関係の逆転や常識的な誤りが含まれている可能性があります。どの段階で概念が置き換えられ、または前提が捏造されたかを特定してください。」

4. マクロ防衛：「物理的クォータ」で「無限生産能力」に立ち向かう。労働者のプロンプトによる防衛だけでは不十分であり、機関側のルールによる反撃がすでに始まっている。AIがゼロコストで膨大な入札書を生成する影響に対し、米国国立衛生研究所（NIH）は2025年7月に画期的な政策NOT-OD-25-132を発表し、2026年から、各首席研究者（PI）が年間で提出できる資金申請の上限を6件に制限することを義務づけた。

ビジネスの示唆：AIの生産性がほぼ無限になると、従来の「コンテンツ監査メカニズム」は必ず突破される。未来の競争優位は、生産速度の競争ではなく、物理的身分と信用クォータに基づく希少性の防壁を構築することにある。

技術の本質はコスト削減と効率向上であるが、ビジネスと科学の基盤は、常に事実への畏敬の念である。

コンテンツ生成コストがほぼゼロとなった時代において、レポートを書ける「タイピスト」ではなく、データの幻覚を見抜く「監査者」が希少となる。このシステムとの駆け引きの手法を習得することで、あなたは計算能力の洪水の中でも真に主導権を握ることができる。（本記事は钛媒体APPで初公開、著者 | サンフランシスコTech_news、編集 | 林深）

（本文の核心評価データ、モデルランキングおよびその原因分析は、2026年5月に公開された初の大規模モデル学術誠実性ベンチマーク『SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems』に基づく。新たに追加された11のトラップ問題の発生率は、同研究報告書の最新の算出値を引用している。）