Вішал Місра обговорює трансформери, причинність та байєсівське оновлення в ІО

Основні висновки

Трансформери в основному вчаться виявляти кореляції, а не причинно-наслідкові зв’язки, що обмежує їх здатність досягти справжньої інтелігентності.
Досягнення ШІ загального призначення вимагає моделей, здатних перейти від вивчення кореляцій до розуміння причинно-наслідкових зв’язків.
Великі мовні моделі генерують текст, передбачаючи наступний токен на основі ймовірнісних розподілів.
Контекст, наданий у запитах, значно впливає на вивід мовних моделей.
Мовні моделі працюють із розрідженими матрицями, де багато комбінацій токенів не мають сенсу.
Навчання в контексті дозволяє велиkim мовним моделям розв’язувати задачі в реальному часі за допомогою прикладів.
Спеціалізовані мови домену (DSL) можуть спростити складні запити до баз даних до природної мови.
Навчання в контексті в LLM схоже на байєсівське оновлення, адаптація ймовірностей на основі нових даних.
Дискусія між байєсівським та частотним підходами впливає на сприйняття нових моделей машинного навчання.
Концепція байєсової аеротруби пропонує контролюване середовище для тестування архітектур машинного навчання.
Розуміння механіки LLM є важливим для ефективного використання їх застосувань.
Перехід від кореляції до причинно-наслідкового зв’язку — це значна перешкода у розвитку ШІ.
Контекстна актуальність у LLM підкреслює важливість вибору запитів.
Розріджені матриці у мовних моделях підвищують ефективність, фільтруючи нерелевантні комбінації токенів.
Байєсова аеродинамічна труба надає новий каркас для оцінки моделей машинного навчання.

Вступ гостя

Вішал Місра — професор комп’ютерних наук та електротехніки та заступник декана з обчислювальних технологій та ШІ в Школі інженерії Колумбійського університету. Він повертається до подкасту a16z, щоб обговорити свої останні дослідження, які розкривають, як трансформери в великих мовних моделях точним, математично передбачуваним способом оновлюють прогнози під час обробки нової інформації. Його робота підкреслює розрив до AGI, зосереджуючись на необхідності безперервного навчання після тренування та касуального розуміння замість виявлення шаблонів.

Розуміння трансформерів та LLM

Трансформери оновлюють свої передбачення математично передбачуваним способом
— Вішал Місра
LLM в основному вчаться кореляціям, а не причинно-наслідковим зв’язкам, що обмежує їх інтелект.
Підбір шаблонів — це не інтелект; Великі мовні моделі вивчають кореляцію, а не причинно-наслідкові зв’язки
— Вішал Місра
Досягнення ШІ загального призначення вимагає моделей, які можуть вивчати причинно-наслідкові зв’язки, а не лише кореляції.
Щоб досягти AGI, нам потрібна здатність продовжувати навчатися після навчання
— Вішал Місра
LLM генерують текст, побудовуючи розподіл ймовірностей для наступного токена.
За заданим запитом він визначає розподіл того, яким має бути наступний токен
— Вішал Місра
Розуміння механіки LLM є важливим для ефективного використання їх застосувань.

Роль контексту в мовних моделях

Поведінка мовних моделей впливається попереднім контекстом, наданим у запитах.
Залежно від того, чи ви оберете синтез чи струс, наступний рядок виглядає дуже інакше
— Вішал Місра
Контекстна актуальність у LLM підкреслює важливість вибору запитів.
Мовні моделі працюють із розрідженою матрицею, де багато комбінацій токенів не мають сенсу.
На щастя, ця матриця дуже розріджена, оскільки довільна комбінація цих токенів є брехнею
— Вішал Місра
Розріджені матриці підвищують ефективність, фільтруючи нерелевантні комбінації токенів.
Наведений контекст може значно змінити вихідні дані мовних моделей.
Розуміння того, як мовні моделі генерують текст на основі вхідних запитів, є важливим.

Навчання в контексті та розв’язання проблем у реальному часі

Навчання в контексті дозволяє велиkim мовним моделям вивчати та розв’язувати задачі в реальному часі.
Навчання в контексті — це коли ви показуєте LLM щось, чого вона майже ніколи не бачила
— Вішал Місра
LLM обробляють і вивчають нову інформацію за допомогою прикладів.
Навчання в контексті схоже на байєсівське оновлення, адаптація ймовірностей на основі нових даних.
LLM виконують щось, що схоже на байєсівське оновлення
— Вішал Місра
Цей механізм є критично важливим для розуміння можливостей LLM.
Розв’язання проблем у реальному часі в LLM забезпечується навчанням у контексті.
Здатність вчитися на прикладах демонструє адаптивність LLM.

Спеціалізовані мови та доступність даних

Спеціалізовані мови домену (DSL) конвертують запити природною мовою у процесований формат.
Я розробив DSL — мову, спеціалізовану для певної області, яка перетворює запити щодо статистики крикету
— Вішал Місра
DSL спрощують складні запити до баз даних до природної мови.
Створення DSL демонструє інновації у використанні ШІ для конкретних застосувань.
Розуміння викликів, пов’язаних із запитами до складних баз даних, є важливим.
DSL спрощують процеси запитів, покращуючи взаємодію користувачів з даними.
Розробка DSL підкреслює роль ШІ у доступності даних.
Цей підхід забезпечує технічний розв’язок для поширених проблем з доступністю даних.

Байєсівське оновлення та статистичні підходи в ІО

Навчання в контексті у мовних моделях нагадує байєсівське оновлення.
Ви бачите щось, ви бачите нові докази — і оновлюєте свою віру щодо того, що відбувається
— Вішал Місра
Розуміння байєсівського висновування є критично важливим для розуміння того, як великі мовні моделі обробляють інформацію.
Різниця між байєсівським та частотним підходами впливає на сприйняття моделей ШІ.
У теорії ймовірностей та машинному навчанні існували школи байєсівців і фреквентистів
— Вішал Місра
Дискусія між цими підходами впливає на сприйняття нових досліджень.
Оновлення Байєса надає чіткий механізм навчання в контексті для великих мовних моделей.
Це статистичне поняття поєднує добре встановлені методики з сучасними процесами ШІ.

Байєсова аеродинамічна труба та тестування моделей

Концепція байєсової аеротруби дозволяє тестувати архітектури машинного навчання.
Ми придумали цю ідею байєсової аеротруби
— Вішал Місра
Ця концепція забезпечує контролюване середовище для оцінки моделей.
Ця фреймворка спрощує тестування архітектур, таких як transformers, MAMBA, LSTMs та MLPs.
Розуміння концепції вітрової тунелі в аерокосмічній галузі допомагає зрозуміти її застосування в ІІ.
Байєсівська аеродинамічна труба пропонує новий фреймворк для розвитку машинного навчання.
Цей підхід є критичним для оцінки та покращення моделей ШІ.
Контрольоване тестове середовище підвищує надійність оцінки моделей.