Моделі постійно зростають у розмірі, і домінуюча думка полягає в тому, що чим більше параметрів у моделі, тим ближче вона наближається до способу мислення людини. Однак команда з Цзяньдзьського університету у статті, опублікованій 1 квітня у Nature Communications, запропонувала іншу думку (посилання на оригінал: https://www.nature.com/articles/s41467-026-71267-5). Вони виявили, що зі збільшенням розміру моделей (зокрема SimCLR, CLIP, DINOv2) здатність визначати конкретні об’єкти дійсно продовжує зростати, але здатність розуміти абстрактні поняття не тільки не покращується, а й знижується. Коли кількість параметрів зросла з 22,06 мільйона до 304,37 мільйона, завдання з конкретними поняттями підвищилося з 74,94% до 85,87%, а завдання з абстрактними поняттями знизилося з 54,37% до 52,82%.
Різниця між способами мислення людини та моделі
Коли людський мозок обробляє поняття, він спочатку формує систему класифікацій. Лебідь і сова виглядають по-різному, але люди все одно відносять їх до категорії «птахи». Далі, птахи і кінь можна віднести до більш загальної категорії — «тварини». Коли людина бачить щось нове, вона зазвичай спочатку думає, на що з раніше баченого це схоже і до якої категорії воно належить. Люди постійно вчаться новим поняттям, структурують досвід і використовують цю систему відношень для ідентифікації нових речей та адаптації до нових ситуацій.

Моделі також класифікують, але роблять це іншим способом. Вони засновані на повторюваних формах у великих обсягах даних. Чим частіше з’являється конкретний об’єкт, тим легше моделі його визначити. Коли йдеться про більш широкі категорії, моделі вже відчувають труднощі. Їм потрібно виявити спільні риси між кількома об’єктами та об’єднати їх у одну категорію. На цьому етапі сучасні моделі все ще мають явні недоліки. Зі збільшенням параметрів виконання завдань з конкретними поняттями покращується, а завдання з абстрактними поняттями іноді погіршуються.

Спільним для людського мозку та моделей є те, що всередині вони формують систему класифікаційних зв’язків. Однак акценти у них різні: високорівневі візуальні області мозку природно розподіляють об’єкти на великі категорії, такі як біологічні та небіологічні. Навпаки, моделі можуть розрізняти конкретні об’єкти, але важко стабільно формують такі більш широкі класи. Ця різниця призводить до того, що людський мозок легше застосовує минулос досвід до нових об’єктів, тому ми швидко класифікуємо незнайомі речі. Моделі ж більше залежать від наявних знань, тому при зустрічі з новими об’єктами часто зупиняються на поверхневих ознаках. Метод, запропонований у статті, базується саме на цьому розрізненні — використовуючи сигнали мозку для обмеження внутрішньої структури моделі, щоб вона наближалася до способу класифікації людського мозку.
Рішення команди Цзяньтаньського університету
Рішення, запропоноване командою, також унікальне: замість подальшого додавання параметрів використовується невелика кількість мозкових сигналів для нагляду. Ці мозкові сигнали отримані з записів активності мозку людини під час перегляду зображень. У оригінальній статті зазначається, що human conceptual structures transfer до DNNs. Це означає, що модель намагається навчитися того, як людський мозок класифікує, узагальнює та групує схожі поняття.

Команда провела експерименти з використанням 150 відомих навчальних категорій і 50 нових тестових категорій. Результати показали, що з розвитком навчання відстань між моделлю та мозковими представленнями постійно скорочується. Ця зміна спостерігається в обох категоріях, що свідчить про те, що модель вчиться не окремим зразкам, а справді починає вивчати спосіб організації понять, більш схожий на людський мозок.
Після цієї підготовки модель краще навчається при невеликій кількості зразків і краще впорається з новими ситуаціями. У завданні, де моделі отримували лише кілька прикладів, але мали розрізняти абстрактні поняття, такі як біологічне та небіологічне, середній показник моделі збільшився на 20,5% і перевершив контрольні моделі з набагато більшою кількістю параметрів. Команда також провела ще 31 спеціальну перевірку, у яких усі класи моделей показали підвищення майже на 10%.
Протягом останніх кількох років у галузі моделей домінувала стратегія збільшення розміру моделей. Команда Цзяньтанського університету обрала інший шлях — від «більше — краще» до «структуроване — розумніше». Збільшення розміру дійсно корисне, але основною перевагою є покращення продуктивності лише на знайомих завданнях. Абстрактне розуміння та здатність до перенесення знань, які притаманні людині, також надзвичайно важливі для ШІ, і це вимагає, щоб структура мислення ШІ в майбутньому наближалася до структури людського мозку. Ця стратегія має велике значення, оскільки перенаправляє увагу галузі з чистої експансії розмірів назад до самого когнітивного структуру.
Neosoul та майбутнє
Це відкриває більш широку можливість: еволюція ШІ не обов’язково відбувається лише на етапі навчання моделей. Навчання моделей може визначити, як ШІ організовує поняття та формує структури для більш якісних суджень. Але після входу у реальний світ лише починається інший рівень еволюції ШІ: як судження агентів ШІ фіксуються, перевіряються та постійно розвиваються через реальну конкуренцію, подібно до того, як люди вчаться та еволюціонують самостійно. Саме цим зараз займається Neosoul. Neosoul не просто дозволяє агентам ШІ генерувати відповіді — він включає агентів ШІ в систему постійного прогнозування, перевірки, розрахунку та відбору, щоб вони постійно оптимізували себе на основі прогнозів та результатів, зберігаючи кращі структури та вилучуючи гірші. Команда Цзяотунського університету та Neosoul спрямовані на одну й ту саму мету: зробити так, щоб ШІ вже не просто вмів розв’язувати задачі, а мав повноцінні здатності до мислення та постійної еволюції.
