Основные выводы
- Трансформеры в основном учатся выявлять корреляции, а не причинно-следственные связи, что ограничивает их способность достигать истинного интеллекта.
- Достижение ИИ общего назначения требует моделей, способных переходить от изучения корреляций к пониманию причинно-следственных связей.
- Крупные языковые модели генерируют текст, предсказывая следующий токен на основе распределений вероятностей.
- Контекст, предоставленный в запросах, значительно влияет на вывод языковых моделей.
- Языковые модели работают с разреженными матрицами, где многие комбинации токенов бессмысленны.
- Обучение в контексте позволяет большим языковым моделям решать задачи в реальном времени с использованием примеров.
- Языки специализированной области (DSL) могут упрощать сложные запросы к базе данных до естественного языка.
- Обучение в контексте в LLM аналогично байесовскому обновлению, при котором вероятности корректируются на основе новых данных.
- Дебаты между байесовским и частотным подходами влияют на восприятие новых моделей машинного обучения.
- Концепция байесовской аэродинамической трубы предлагает контролируемую среду для тестирования архитектур машинного обучения.
- Понимание механики LLM важно для эффективного использования их приложений.
- Переход от корреляции к причинно-следственной связи представляет собой серьезное препятствие в развитии ИИ.
- Контекстная релевантность в LLM подчеркивает важность выбора запроса.
- Разреженные матрицы в языковых моделях повышают эффективность, фильтруя нерелевантные комбинации токенов.
- Байесовская аэродинамическая труба предоставляет новую рамку для оценки моделей машинного обучения.
Вступление гостя
Вишал Мисра — профессор компьютерных наук и электротехники и вице-декан по вычислениям и ИИ в Школе инженерии Колумбийского университета. Он возвращается в подкаст a16z, чтобы обсудить свои последние исследования, раскрывающие, как трансформеры в крупных языковых моделях обновляют прогнозы точным, математически предсказуемым образом при обработке новой информации. Его работа подчеркивает разрыв до ОИИ, акцентируя необходимость непрерывного обучения после обучения и понимания причинно-следственных связей вместо сопоставления шаблонов.
Понимание трансформеров и LLM
Трансформеры обновляют свои прогнозы математически предсказуемым образом
— Вишал Мисра
- Крупные языковые модели в основном учатся выявлять корреляции, а не причинно-следственные связи, что ограничивает их интеллект.
Сопоставление по шаблону — это не интеллект; ЯПС учат корреляции, а не причинно-следственные связи
— Вишал Мисра
- Достижение ИИ общего назначения требует моделей, способных учить причинно-следственные связи, а не просто корреляции.
Чтобы достичь AGI, нам нужна способность продолжать обучение после обучения
— Вишал Мисра
- LLM генерируют текст, построив распределение вероятностей для следующего токена.
Учитывая запрос, он определит распределение того, каким должен быть следующий токен
— Вишал Мисра
- Понимание механики LLM важно для эффективного использования их приложений.
Роль контекста в языковых моделях
- Поведение языковых моделей зависит от предыдущего контекста, предоставленного в запросах.
В зависимости от того, выберете ли вы синтез или тряску, следующая строка будет выглядеть совершенно иначе
— Вишал Мисра
- Контекстная релевантность в LLM подчеркивает важность выбора запроса.
- Языковые модели работают с разреженной матрицей, где многие комбинации токенов бессмысленны.
К счастью, эта матрица очень разрежена, поскольку произвольная комбинация этих токенов является бессмыслицей
— Вишал Мисра
- Разреженные матрицы повышают эффективность, фильтруя нерелевантные комбинации токенов.
- Предоставленный контекст может значительно изменить результат работы языковых моделей.
- Понимание того, как языковые модели генерируют текст на основе входных запросов, необходимо.
Обучение в контексте и решение задач в реальном времени
- Обучение в контексте позволяет большим языковым моделям учиться и решать задачи в реальном времени.
Обучение в контексте — это когда вы показываете ИЯ что-то, чего оно практически никогда не видело раньше
— Вишал Мисра
- LLM обрабатывают и изучают новую информацию на примерах.
- Обучение в контексте напоминает байесовское обновление, при котором вероятности корректируются на основе новых данных.
LLM выполняют что-то, напоминающее байесовское обновление
— Вишал Мисра
- Этот механизм важен для понимания возможностей LLM.
- Решение проблем в реальном времени в LLM обеспечивается обучением в контексте.
- Способность учиться на примерах демонстрирует адаптивность LLM.
Специализированные языки и доступность данных
- Специализированные языки домена (DSL) преобразуют естественно-языковые запросы в формат, пригодный для обработки.
Я разработал DSL — язык, специфичный для предметной области, который преобразовывал запросы о статистике крикета
— Вишал Мисра
- DSL упрощают сложные запросы к базам данных до естественного языка.
- Создание DSL демонстрирует инновации в использовании ИИ для конкретных приложений.
- Понимание трудностей запросов к сложным базам данных является важным.
- DSL упрощают процессы запросов и улучшают взаимодействие пользователей с данными.
- Разработка DSL подчеркивает роль ИИ в обеспечении доступности данных.
- Этот подход предлагает техническое решение распространенных проблем с доступностью данных.
Байесовское обновление и статистические подходы в ИИ
- Обучение в контексте в языковых моделях напоминает байесовское обновление.
Вы видите что-то, вы видите новые доказательства — вы обновляете свои убеждения о том, что происходит
— Вишал Мисра
- Понимание байесовской инференции важно для осознания того, как LLM обрабатывают информацию.
- Различие между байесовским и частотным подходами влияет на восприятие моделей ИИ.
В теории вероятностей и машинном обучении существовали лагеря байесовцев и частотников
— Вишал Мисра
- Дискуссия между этими подходами влияет на восприятие новых исследований.
- Обновление по Байесу предоставляет четкий механизм для обучения в контексте в LLM.
- Этот статистический концепт связывает хорошо зарекомендовавшие себя методологии с современными процессами ИИ.
Байесовская аэродинамическая труба и тестирование модели
- Концепция байесовской аэродинамической трубы позволяет тестировать архитектуры машинного обучения.
Мы придумали эту идею байесовской аэродинамической трубы
— Вишал Мисра
- Эта концепция предоставляет контролируемую среду для оценки моделей.
- Эта платформа упрощает тестирование архитектур, таких как transformers, MAMBA, LSTMs и MLPs.
- Понимание концепции аэродинамической трубы в аэрокосмической отрасли помогает освоить её применение в ИИ.
- Байесовская аэродинамическая труба предлагает новую рамку для развития машинного обучения.
- Этот подход критически важен для оценки и улучшения моделей ИИ.
- Контролируемая тестовая среда повышает надежность оценки моделей.
