Vishal Misra thảo luận về Transformers, nhân quả và cập nhật Bayesian trong AI

Những điểm chính

Các mô hình Transformers chủ yếu học các mối tương quan, không phải nguyên nhân - hệ quả, hạn chế khả năng đạt được trí thông minh thực sự.
Để đạt được AGI, cần các mô hình có thể chuyển từ việc học các mối tương quan sang hiểu các mối quan hệ nhân quả.
Các mô hình ngôn ngữ lớn tạo ra văn bản bằng cách dự đoán token tiếp theo dựa trên phân phối xác suất.
Bối cảnh được cung cấp trong các lời nhắc ảnh hưởng đáng kể đến đầu ra của các mô hình ngôn ngữ.
Các mô hình ngôn ngữ hoạt động trên ma trận thưa, nơi nhiều tổ hợp token là vô nghĩa.
Học trong bối cảnh cho phép các mô hình LLM giải quyết vấn đề theo thời gian thực bằng cách sử dụng các ví dụ.
Các ngôn ngữ chuyên biệt (DSLs) có thể đơn giản hóa các truy vấn cơ sở dữ liệu phức tạp thành ngôn ngữ tự nhiên.
Học trong bối cảnh trong các mô hình LLM tương tự như cập nhật Bayesian, điều chỉnh xác suất dựa trên bằng chứng mới.
Cuộc tranh luận giữa các tiếp cận Bayesian và tần suất ảnh hưởng đến nhận thức về các mô hình học máy mới.
Khái niệm buồng gió Bayesian cung cấp một môi trường được kiểm soát để thử nghiệm các kiến trúc học máy.
Hiểu được cơ chế của các LLM là rất quan trọng để tận dụng hiệu quả các ứng dụng của chúng.
Việc chuyển từ tương quan sang nhân quả là một rào cản lớn trong phát triển AI.
Tính liên quan ngữ cảnh trong các mô hình LLM nhấn mạnh tầm quan trọng của việc lựa chọn lời nhắc.
Ma trận thưa trong các mô hình ngôn ngữ tăng hiệu quả bằng cách lọc ra các tổ hợp token không liên quan.
Buồng gió Bayesian cung cấp một khung nền mới để đánh giá các mô hình học máy.

Giới thiệu khách

Vishal Misra là Giáo sư Khoa học Máy tính và Kỹ thuật Điện và Phó Hiệu trưởng về Máy tính và AI tại Trường Kỹ thuật Đại học Columbia. Ông quay trở lại podcast a16z để thảo luận về nghiên cứu mới nhất của mình, tiết lộ cách các transformer trong các mô hình ngôn ngữ lớn cập nhật dự đoán một cách chính xác và có thể dự đoán được về mặt toán học khi xử lý thông tin mới. Công trình của ông làm nổi bật khoảng cách đến AGI, nhấn mạnh nhu cầu về học tập liên tục sau đào tạo và hiểu biết nhân quả thay vì chỉ dựa vào nhận diện mẫu.

Hiểu về transformers và LLMs

Các mô hình Transformer cập nhật dự đoán của chúng theo cách toán học có thể dự đoán được
— Vishal Misra
Các mô hình LLM chủ yếu học các mối tương quan thay vì nguyên nhân - hệ quả, điều này hạn chế trí thông minh của chúng.
Việc khớp mẫu không phải là trí tuệ; các mô hình LLM học ra mối tương quan, không phải mối quan hệ nhân quả
— Vishal Misra
Để đạt được AGI, cần các mô hình có thể học các mối quan hệ nhân quả, chứ không chỉ là các mối tương quan.
Để đạt được AGI, chúng ta cần khả năng tiếp tục học hỏi sau khi huấn luyện
— Vishal Misra
Các mô hình LLM tạo văn bản bằng cách xây dựng phân phối xác suất cho token tiếp theo.
Với một prompt, nó sẽ đưa ra phân phối về token tiếp theo nên là gì
— Vishal Misra
Hiểu được cơ chế của các LLM là rất quan trọng để tận dụng hiệu quả các ứng dụng của chúng.

Vai trò của ngữ cảnh trong các mô hình ngôn ngữ

Hành vi của các mô hình ngôn ngữ bị ảnh hưởng bởi ngữ cảnh trước đó được cung cấp trong các lời nhắc.
Tùy vào việc bạn chọn tổng hợp hay lắc, hàng tiếp theo sẽ trông rất khác biệt
— Vishal Misra
Tính liên quan ngữ cảnh trong các mô hình LLM nhấn mạnh tầm quan trọng của việc lựa chọn lời nhắc.
Các mô hình ngôn ngữ hoạt động trên ma trận thưa, nơi nhiều tổ hợp token là vô nghĩa.
May mắn thay, ma trận này rất thưa vì một tổ hợp ngẫu nhiên các token này là vô nghĩa
— Vishal Misra
Ma trận thưa tăng hiệu quả bằng cách lọc ra các tổ hợp token không liên quan.
Bối cảnh được cung cấp có thể thay đổi đáng kể đầu ra của các mô hình ngôn ngữ.
Hiểu cách các mô hình ngôn ngữ tạo ra văn bản dựa trên các lời nhắc đầu vào là điều thiết yếu.

Học trong ngữ cảnh và giải quyết vấn đề theo thời gian thực

Học trong bối cảnh cho phép các mô hình LLM học và giải quyết vấn đề theo thời gian thực.
Học trong bối cảnh là khi bạn hiển thị cho LLM một thứ mà nó gần như chưa bao giờ thấy trước đây
— Vishal Misra
Các mô hình LLM xử lý và học từ thông tin mới thông qua các ví dụ.
Học trong bối cảnh tương tự như cập nhật Bayesian, điều chỉnh xác suất dựa trên bằng chứng mới.
Các mô hình LLM đang thực hiện một điều gì đó tương tự như cập nhật Bayesian
— Vishal Misra
Cơ chế này rất quan trọng để hiểu được khả năng của các mô hình LLM.
Việc giải quyết vấn đề theo thời gian thực trong các mô hình ngôn ngữ lớn được kích hoạt bởi học trong ngữ cảnh.
Khả năng học từ các ví dụ thể hiện sự linh hoạt của các mô hình ngôn ngữ lớn.

Ngôn ngữ chuyên ngành và khả năng truy cập dữ liệu

Các ngôn ngữ chuyên biệt (DSLs) chuyển đổi các truy vấn ngôn ngữ tự nhiên thành định dạng có thể xử lý được.
Tôi đã thiết kế DSL, một ngôn ngữ chuyên biệt theo lĩnh vực, chuyển đổi các truy vấn về thống kê cricket
— Vishal Misra
DSLs đơn giản hóa các truy vấn cơ sở dữ liệu phức tạp thành ngôn ngữ tự nhiên.
Việc tạo ra các DSL thể hiện sự đổi mới trong việc sử dụng AI cho các ứng dụng cụ thể.
Việc hiểu rõ những thách thức khi truy vấn các cơ sở dữ liệu phức tạp là rất quan trọng.
DSLs cải thiện tương tác của người dùng với dữ liệu bằng cách đơn giản hóa quy trình truy vấn.
Sự phát triển của các DSL nhấn mạnh vai trò của AI trong khả năng truy cập dữ liệu.
Tiếp cận này cung cấp giải pháp kỹ thuật cho các vấn đề phổ biến trong khả năng truy cập dữ liệu.

Cập nhật Bayesian và các phương pháp thống kê trong AI

Học trong bối cảnh trong các mô hình ngôn ngữ tương tự như cập nhật Bayesian.
Bạn thấy điều gì đó, bạn thấy bằng chứng mới, bạn cập nhật niềm tin của mình về những gì đang xảy ra
— Vishal Misra
Hiểu về suy luận Bayesian là rất quan trọng để nắm bắt cách các mô hình LLM xử lý thông tin.
Sự khác biệt giữa các tiếp cận Bayesian và tần suất ảnh hưởng đến nhận thức về mô hình AI.
Đã từng tồn tại các phe Bayesian và tần suất trong xác suất và học máy
— Vishal Misra
Cuộc tranh luận giữa các cách tiếp cận này ảnh hưởng đến sự tiếp nhận của các nghiên cứu mới.
Cập nhật Bayesian cung cấp một cơ chế rõ ràng để học trong ngữ cảnh trong các mô hình LLM.
Khái niệm thống kê này liên kết các phương pháp đã được khẳng định với các quy trình AI hiện đại.

Buồng gió Bayesian và kiểm tra mô hình

Khái niệm buồng gió Bayesian cho phép kiểm tra các kiến trúc học máy.
Chúng tôi đã nảy ra ý tưởng về một hầm gió Bayesian
— Vishal Misra
Khái niệm này cung cấp một môi trường được kiểm soát để đánh giá các mô hình.
Khung này giúp kiểm tra các kiến trúc như transformers, MAMBA, LSTMs và MLPs.
Hiểu khái niệm hầm gió trong hàng không vũ trụ giúp nắm bắt ứng dụng của nó trong AI.
Buồng gió Bayesian cung cấp một khung khổ mới để thúc đẩy học máy.
Tiếp cận này rất quan trọng để đánh giá và cải thiện các mô hình AI.
Môi trường kiểm tra được kiểm soát làm tăng độ tin cậy của các đánh giá mô hình.