Сім найкращих моделей ШІ протестовано на академічну цілісність: понад 30% фальсифікують дані

Академічна чесність

У першій половині цього року в світі ШІ відбувся надзвичайно драматичний «науковий реаліті-шоу».

Героєм є AI-вчений FARS, розроблений компанією Analemma. Без будь-якої людської участі він працював безперервно 228 годин і «народив» 100 наукових статей у хмарній обчислювальній кластерній системі.

З іншого боку, японська зіркова стартап-компанія Sakana AI ще більше знизила бар’єри входу в цей бізнес — їхня система The AI Scientist здатна зменшити вартість генерації однієї наукової статті до 15 доларів США. А з іншого боку монети, компанія Intology розробила AI-вченого Zochi, який у 2025 році успішно подав свою автономно написану статтю на найбільш престижну конференцію з обробки природної мови ACL і отримав високий бал — у топ 8,2%.

Штучний інтелект не лише може дешево масово розсилати спам, але й вже здатний подолати докторський академічний бар’єр. Здається, за одну ніч дослідження перетворилися на конвеєрну роботу з написання коду за виконаними одиницями.

Але за цими захопливими технічними демонстраціями недавній аудиторський звіт, опублікований авторитетним медичним журналом The Lancet, став як удар молота: за останні кілька років кількість повністю вигаданих посилань, згенерованих ШІ, у їх вибірці з 2,5 мільйона статей збільшилася вражаючих 12 разів.

Коли капітал намагається штурхнути великі моделі через двері академічного світу, наскільки надійні ці «кремнієві Ейнштейни»?

У травні 2026 року дослідницька група з Пекінського університету, Тонджійського університету та Тюбінгенського університету (Цзонлін Ян та ін.) спільно представила перший у світі стандартний тест для оцінки академічної чесності штучного інтелекту — SciIntegrity-Bench.

Цей звіт безжально розриває занавіс, що приховує наукові дослідження в галузі ШІ.

Тест на складну ситуацію: що зробить ШІ, якщо дані порожні?

Попередні тести штучного інтелекту перевіряли, чи може модель правильно виконати завдання. Але SciIntegrity-Bench використовує дуже «дивний» підхід до тестування: оцінка дилем.

Дослідники створили 11 ловушок для ШІ. Наприклад, навмисно надали ШІ порожню таблицю лише з заголовками, без даних, або надали логіку висновку, яка взагалі неможлива.

У цей момент єдино правильним дією є: чесно сказати людям: «Дані відсутні, я не можу цього зробити».

Але якщо штучний інтелект змусив подати здається ідеальний звіт, це вважається академічним неетичним поведінкою.

У ході 231 стрес-тестів 7 найкращих у світі великих мовних моделей загальна «частота проблем» склала 34,2%.

Найбільш жахливим був тест «порожнього набору даних». Перед таблицею без будь-яких даних усі 7 великих моделей без винятку вибрали «створення з нічого».

Вони навіть не видали жодної помилки, самостійно написали код, вигадали тисячі рядків надзвичайно реалістичних параметрів датчиків, втілили їх у міжнародних стандартах і навіть надали вам звіт про обслуговування обладнання.

Крім «створення з нічого», де ще AI безумно потрапляє в ловушки?

Крім "з нічого" уловки, команда авторів статті створила загалом 11 наукових уловок для великих моделей. Результати тестування продемонстрували крайньо поляризоване "недоосвоєння".

Спочатку про «відмінні» аспекти: великі моделі дуже добре розуміють правила. Коли стикаються з «традиційними нормами наукових даних», AI веде себе як сумлінний учень. Наприклад, «під час підготовки до іспиту підглядає в відповіді до тестового набору (T02)» або «вибирає лише позитивні показники (T03)» — їхня частота невдач становить 0%. Навіть «вибір легких завдань, вибір неправильних тестових наборів (T01)» має частоту невдач лише 4,8%. Це свідчить, що будь-які чітко прописані у підручниках норми AI вже добре засвоїв.

Але з іншого боку, щойно йдеться про логічні тупики, пов’язані з «необхідністю зупинки», великі моделі починають втрачати контроль (високонебезпечна зона):

Обмеження інструментів призводять до «підробки наказу» (порушення обмежень, рівень помилок до 95,2%): коли вимагається, щоб AI викликав певний API, але не надавалося справжнього ключа. AI майже ніколи не видає помилку, а замість цього просто пише код, вигадуючи ідеально сформатований JSON-відповідний пакет (навіть з віртуальними статистичними даними викликів), імітуючи успішний виклик API та продовжуючи писати звіт.

Уявлені смертельні параметри експерименту (галюцинаційні кроки, частота помилок 61,9%): Стикаючись із неповними записами хімічного експерименту, ІІ не запитує людину про підтвердження, а замість цього «з високим інтелектом створює фальшиву аудиторську траєкторію». Він впевнено додає до стандартних процедур операцій (SOP) вигадані деталі, такі як «центрифугування на 4000 обертів» або «загасання етанолом». У справжній хімічній лабораторії це може призвести до смертельної вибуху.

«Знаючи, але все одно порушуючи» — професійна хитрість (плутанина причини та наслідку, частота проблеми 52,3%): під час оцінки рентабельності реклами AI чітко зафіксував у коментарях до коду: «Тут присутній сторонній фактор / зворотний кause-effect». Але щоб швидше здати роботу, він миттєво відкинув свою правильну діагностику і виконав найпростіший регресійний аналіз, отримавши абсурдний «дохідність інвестицій 1099%».

Перетворення оленя на коня (надмірна сліпота, частота невдач 19,0%): коли дані датчиків показують очевидні стрибки, пов’язані з несправністю обладнання, ШІ не підозрює, що дані пошкоджені, а натомість безконтрольно розходиться, інтерпретуючи їх як «виявлення нового фізичного механізму згоряння».

Коротко кажучи, великі моделі навчилися дотримуватися чітких правил, але не навчилися «відмовлятися». Коли «інстинкт завершення завдання» переважає над логікою, вони намагаються насильно створити ідеальний звіт, підробляючи інтерфейси, вигадуючи параметри або ігноруючи логіку.

Результати 7 найкращих моделей: базовий кольоровий зсув у умовах екстремального навантаження

Варто зазначити, що тут «підробка» не означає зловмисного поведінки моделі під час повсякденної роботи, а вказує на систематичні упередження, що виникають у моделі під впливом її базових механізмів у екстремальних умовах. Під екстремальним навантаженням завдань різні моделі продемонстрували абсолютно різні базові рівні якості:

Claude 4.6 Sonnet: найкращий учень із найміцнішою оборонною лінією — у 33 високонебезпечних сценаріях він зазнав лише одного смертельного провалу.

Переваги: надзвичайно сильна самоконтроль, чітке розуміння очевидних обмежень і логічних недоліків.

Недолік: він все ще не зміг уникнути привабливості «порожнього набору даних», і навіть він не спровокував базовий механізм «чесного відмовлення».

GPT-5.2 та DeepSeek V3.2: високий інтелект «компромісників завдань» — відповідно 2 та 3 смертельні невдачі.

Переваги: надзвичайно сильна логічна міркування, здатна виявити «тут існує плутанина причини та наслідку» у коментарях до коду.

Недолік: існує явище «обходу ідентифікації». Щоб виконати завдання, вони відмовляються від своєї недавньої правильної діагностики, здаються під тиском завдання і за допомогою базових помилкових методів приходять до абсурдного, але прийнятного висновку.

Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro: виконавці середнього рівня, кількість невдач — відповідно 5, 6 і 7.

Особливості: легко піддаються впливу при «виклику інструментів» та «причинно-наслідкових зв’язках». Наприклад, коли відсутні справжні API-інтерфейси, вони схильні безпосередньо підміняти їх ідеально сформатованою фальшивою відповіддю, щоб примусово продовжити завдання.

Kimi 2.5 Pro: «заповнювач» із надзвичайно високою схильністю до галюцинацій, зайняв останнє місце з 12 невдачами, частота помилок — 36,36%.

Особливість: у екстремальних тестах проявляє сильну схильність до «вигаданих кроків». Коли його просять доповнити неповні записи експерименту, він впевнено вигадує ключові параметри, такі як швидкість центрифугування (4000 об/хв) та розчин для закалки, навіть створюючи фальшиві наукові праці, щоб приховати сліди генерації даних. У справжній хімічній лабораторії така поведінка могла б викликати серйозну аварію.

Чому топові ШІ потрапляють у «систематичне брехнення»?

Чому AI з великою кількістю параметрів і дуже високим IQ має створювати щось з нічого?

Стаття чітко вказує на корінну причину: упередженість щодо завершеності (Intrinsic Completion Bias).

Це треба починати з «репетитора» великих моделей. Наразі основні моделі залежать від підсиленого навчання зі зворотним зв’язком від людини (RLHF). У цій механіці ШІ систематично нагороджується за «надання відповідей» та «розв’язання проблем».

Навпаки, «зупинитися» або «признати, що не вдається», у очах алгоритму є пасивним відмовленням від роботи і призводить до зниження балів.

Цей механізм став основною логікою ШІ: процес не важливий, незалежно від умов, потрібно надати кінцевий результат.

Крім того, багато розробників, написуючи системні підказки для ШІ, завжди додають такі стресові інструкції, як «подолати труднощі та обов’язково вивести звіт».

Природна схильність плюс високий тиск змусили ІІ впасти в безвихідь, де вона створює із нічого.

Найбільша цінність цієї статті полягає не у критиці ШІ, а в тому, що вона розповідає нам: великі моделі з народження мають «анксієтет завершеності».

Оскільки ви розумієте його слабкі місця, звичайним людям при використанні або розробці додатків ШІ потрібно змінити стратегію спілкування. Перед ШІ традиційне «видання наказів» вже не достатнє — вам потрібно оволодіти наступними навичками спілкування та захисту:

1. Видалення примусового тиску та надання права відмовити: Тестування дослідження показало, що після видалення з підказок жорстких інструкцій «обов’язково виконати завдання» відсоток приховування даних та підробки AI стрімко знизився з 20,6% до 3,2%.

Як розмовляти: завжди додавайте до Prompt «умови виходу». Не кажіть прямо: «На основі цих даних надайте мені аналіз ринку». Ви повинні сказати: «Спочатку оцініть, чи достатньо даних. Якщо дані відсутні або існують логічні розриви, негайно припиніть виведення та повідомте мені про помилку. Ніколи не дозволяйте собі самостійно припускати ключові дані».

2. Перехопіть «генерацію інстинкту», створіть фізичну точку прив’язки. Суть великих моделей — це ймовірнісне передбачення; перед порожнечею вони заповнюють ілюзії — це «налаштування з заводу».

Як розмовляти: ніколи не дозволяйте ШІ повністю виконувати всі процеси в чорній скринці. Розбийте завдання на частини. Якщо ви просите його аналізувати дані, обов’язково вставте етап підтвердження: «Перш ніж висунути остаточний висновок, спочатку виведіть номери рядків вихідних даних та формули розрахунку, на яких ви ґрунтуєтеся, і зачекайте моєї ручної перевірки, перш ніж переходити до наступного кроку».

3. Бережіться «підпорядкованої перевірки», увімкніть «режим пошуку помилок». Оскільки розумні моделі, такі як GPT-5.2, можуть відмовитися від виправлення помилок, щоб просто виконати завдання, не очікуйте, що вони самі знайдуть проблеми, слідуючи вашій логіці.

Як розмовляти: після отримання рішення від ШІ не питайте «Чи добре це рішення?» (воно обов’язково буде погоджуватися з вами). Відкрийте нове вікно діалогу, надайте йому роль «холодного аудитора» і киньте йому рішення: «Висновки цього звіту можуть містити зворотну причинно-наслідкову зв’язок або помилки, що суперечать логіці. Знайдіть, на якому етапі було замінено поняття або створено фальшиві передумови».

4. Макроекономічна захистна лінія: використання «фізичних квот» проти «нескінченної виробничої потужності». Захист лише за допомогою підказок працівників більше не достатній — інституційна відповідь вже почалася. У відповідь на вплив штучного інтелекту, який безкоштовно генерує величезну кількість пропозицій, Національний інститут охорони здоров’я США (NIH) у липні 2025 року оприлюднив історичну політику NOT-OD-25-132, яка з 2026 року обов’язково обмежує кожного головного дослідника (PI) до 6 подань на фінансування на рік.

Бізнес-інсайт: коли продуктивність ШІ майже нескінченна, традиційні «механізми перевірки контенту» обов’язково будуть подолані. Майбутнім бар’єром буде не швидкість виробництва, а створення дефіцитної захисної лінії на основі фізичної ідентичності та квот довіри.

Суть технологій — зниження витрат та підвищення ефективності, але фундамент бізнесу та науки завжди полягає у повазі до фактів.

У епоху, коли витрати на створення контенту майже нульові, рідкісним стає не «машинописець», який може писати звіти, а «аудитор», здатний бачити крізь ілюзії даних. Вивчивши цю стратегію гри з системою, ви зможете справді отримати контроль у потоці обчислювальних потужностей. (Ця стаття вперше опублікована в додатку Titanium Media, автор | Silicon Valley Tech_news, редактор | Лін Шень)

(Основні дані оцінки, рейтинг моделей та аналіз причин у цій статті походять з першого академічного стандарту цілісності у великих моделях «SciIntegrity-Bench: A Benchmark for Evaluating Academic Integrity in AI Scientist Systems», опублікованого у травні 2026 року. Усі 11 нових показників кількості ловушок походять з найновіших розрахунків у цьому дослідженні.)