Вишал Мисра обсуждает трансформеры, причинность и байесовское обновление в ИИ

Основные выводы

Трансформеры в основном учатся выявлять корреляции, а не причинно-следственные связи, что ограничивает их способность достигать истинного интеллекта.
Достижение ИИ общего назначения требует моделей, способных переходить от изучения корреляций к пониманию причинно-следственных связей.
Крупные языковые модели генерируют текст, предсказывая следующий токен на основе распределений вероятностей.
Контекст, предоставленный в запросах, значительно влияет на вывод языковых моделей.
Языковые модели работают с разреженными матрицами, где многие комбинации токенов бессмысленны.
Обучение в контексте позволяет большим языковым моделям решать задачи в реальном времени с использованием примеров.
Языки специализированной области (DSL) могут упрощать сложные запросы к базе данных до естественного языка.
Обучение в контексте в LLM аналогично байесовскому обновлению, при котором вероятности корректируются на основе новых данных.
Дебаты между байесовским и частотным подходами влияют на восприятие новых моделей машинного обучения.
Концепция байесовской аэродинамической трубы предлагает контролируемую среду для тестирования архитектур машинного обучения.
Понимание механики LLM важно для эффективного использования их приложений.
Переход от корреляции к причинно-следственной связи представляет собой серьезное препятствие в развитии ИИ.
Контекстная релевантность в LLM подчеркивает важность выбора запроса.
Разреженные матрицы в языковых моделях повышают эффективность, фильтруя нерелевантные комбинации токенов.
Байесовская аэродинамическая труба предоставляет новую рамку для оценки моделей машинного обучения.

Вступление гостя

Вишал Мисра — профессор компьютерных наук и электротехники и вице-декан по вычислениям и ИИ в Школе инженерии Колумбийского университета. Он возвращается в подкаст a16z, чтобы обсудить свои последние исследования, раскрывающие, как трансформеры в крупных языковых моделях обновляют прогнозы точным, математически предсказуемым образом при обработке новой информации. Его работа подчеркивает разрыв до ОИИ, акцентируя необходимость непрерывного обучения после обучения и понимания причинно-следственных связей вместо сопоставления шаблонов.

Понимание трансформеров и LLM

Трансформеры обновляют свои прогнозы математически предсказуемым образом
— Вишал Мисра
Крупные языковые модели в основном учатся выявлять корреляции, а не причинно-следственные связи, что ограничивает их интеллект.
Сопоставление по шаблону — это не интеллект; ЯПС учат корреляции, а не причинно-следственные связи
— Вишал Мисра
Достижение ИИ общего назначения требует моделей, способных учить причинно-следственные связи, а не просто корреляции.
Чтобы достичь AGI, нам нужна способность продолжать обучение после обучения
— Вишал Мисра
LLM генерируют текст, построив распределение вероятностей для следующего токена.
Учитывая запрос, он определит распределение того, каким должен быть следующий токен
— Вишал Мисра
Понимание механики LLM важно для эффективного использования их приложений.

Роль контекста в языковых моделях

Поведение языковых моделей зависит от предыдущего контекста, предоставленного в запросах.
В зависимости от того, выберете ли вы синтез или тряску, следующая строка будет выглядеть совершенно иначе
— Вишал Мисра
Контекстная релевантность в LLM подчеркивает важность выбора запроса.
Языковые модели работают с разреженной матрицей, где многие комбинации токенов бессмысленны.
К счастью, эта матрица очень разрежена, поскольку произвольная комбинация этих токенов является бессмыслицей
— Вишал Мисра
Разреженные матрицы повышают эффективность, фильтруя нерелевантные комбинации токенов.
Предоставленный контекст может значительно изменить результат работы языковых моделей.
Понимание того, как языковые модели генерируют текст на основе входных запросов, необходимо.

Обучение в контексте и решение задач в реальном времени

Обучение в контексте позволяет большим языковым моделям учиться и решать задачи в реальном времени.
Обучение в контексте — это когда вы показываете ИЯ что-то, чего оно практически никогда не видело раньше
— Вишал Мисра
LLM обрабатывают и изучают новую информацию на примерах.
Обучение в контексте напоминает байесовское обновление, при котором вероятности корректируются на основе новых данных.
LLM выполняют что-то, напоминающее байесовское обновление
— Вишал Мисра
Этот механизм важен для понимания возможностей LLM.
Решение проблем в реальном времени в LLM обеспечивается обучением в контексте.
Способность учиться на примерах демонстрирует адаптивность LLM.

Специализированные языки и доступность данных

Специализированные языки домена (DSL) преобразуют естественно-языковые запросы в формат, пригодный для обработки.
Я разработал DSL — язык, специфичный для предметной области, который преобразовывал запросы о статистике крикета
— Вишал Мисра
DSL упрощают сложные запросы к базам данных до естественного языка.
Создание DSL демонстрирует инновации в использовании ИИ для конкретных приложений.
Понимание трудностей запросов к сложным базам данных является важным.
DSL упрощают процессы запросов и улучшают взаимодействие пользователей с данными.
Разработка DSL подчеркивает роль ИИ в обеспечении доступности данных.
Этот подход предлагает техническое решение распространенных проблем с доступностью данных.

Байесовское обновление и статистические подходы в ИИ

Обучение в контексте в языковых моделях напоминает байесовское обновление.
Вы видите что-то, вы видите новые доказательства — вы обновляете свои убеждения о том, что происходит
— Вишал Мисра
Понимание байесовской инференции важно для осознания того, как LLM обрабатывают информацию.
Различие между байесовским и частотным подходами влияет на восприятие моделей ИИ.
В теории вероятностей и машинном обучении существовали лагеря байесовцев и частотников
— Вишал Мисра
Дискуссия между этими подходами влияет на восприятие новых исследований.
Обновление по Байесу предоставляет четкий механизм для обучения в контексте в LLM.
Этот статистический концепт связывает хорошо зарекомендовавшие себя методологии с современными процессами ИИ.

Байесовская аэродинамическая труба и тестирование модели

Концепция байесовской аэродинамической трубы позволяет тестировать архитектуры машинного обучения.
Мы придумали эту идею байесовской аэродинамической трубы
— Вишал Мисра
Эта концепция предоставляет контролируемую среду для оценки моделей.
Эта платформа упрощает тестирование архитектур, таких как transformers, MAMBA, LSTMs и MLPs.
Понимание концепции аэродинамической трубы в аэрокосмической отрасли помогает освоить её применение в ИИ.
Байесовская аэродинамическая труба предлагает новую рамку для развития машинного обучения.
Этот подход критически важен для оценки и улучшения моделей ИИ.
Контролируемая тестовая среда повышает надежность оценки моделей.