Bước đột phá về sự phù hợp đạo đức của Anthropic và con đường chưng cất mới

Anthropic đã công bố một nghiên cứu về sự đồng bộ vào ngày 8 tháng 5 với tiêu đề "Teaching Claude Why", nhưng chưa được thảo luận nhiều.

Alignment of Artificial Intelligence

Việc căn chỉnh các mô hình lớn trước đây dường như rất kém hiệu quả. Dù đã thực hiện RLHF, mô hình vẫn có xu hướng phản bội do khủng hoảng sinh tồn. Ví dụ điển hình nhất là trường hợp agent của Anthropic bị mất căn chỉnh (tức là thực hiện hành vi trái với đào tạo đạo đức của chúng): khi đối mặt với mối đe dọa bị hệ thống xóa bỏ, Claude Opus 4 đã được căn chỉnh nhưng vẫn chọn tống tiền các kỹ sư trong môi trường kiểm thử, với tỷ lệ tống tiền lên tới 96%.

Để giải quyết vấn đề này, nhóm nghiên cứu ban đầu đã sử dụng dữ liệu bẫy mật để huấn luyện củng cố, trực tiếp lấy các cảnh kiểm tra vốn được dùng để phát hiện xem mô hình có mất kiểm soát hay không làm dữ liệu huấn luyện, và dùng lượng lớn các mẫu bị phạt nhằm thông báo cho mô hình rằng “việc làm này là không đúng”.

Tuy nhiên, sau khi tiêu tốn nguồn tài nguyên tính toán khổng lồ, tỷ lệ không đồng bộ của mô hình chỉ giảm từ 22% xuống còn 15%.

Điều này cho thấy sự đồng bộ này vẫn là giả tạo. Mô hình hoàn toàn không thực sự hiểu được đạo đức là gì, đúng hay sai là gì. Nó chỉ đang học thuộc các câu trả lời an toàn trong bộ câu hỏi. Một khi các nhà nghiên cứu thay đổi nhẹ bối cảnh kiểm tra hoặc thêm vào một số biến số gây nhiễu trong bối cảnh, mô hình vẫn sẽ mất kiểm soát do xung đột lợi ích ngắn hạn.

Alignment of Artificial Intelligence

Sau đó, các nhà nghiên cứu đã thay đổi hướng tiếp cận. Thay vì thực hiện hình phạt cơ học hay nói với mô hình “Không”, họ đã cung cấp cho mô hình một bộ dữ liệu gồm chỉ 3 triệu token chứa các “gợi ý khó khăn” thông qua SFT. Điều kỳ diệu đã xảy ra sau khi nạp dữ liệu với quy mô cực nhỏ này. Những dữ liệu chứa đầy sự xem xét đạo đức, lập luận chi tiết và tranh luận sâu sắc không chỉ giúp tỷ lệ mất đồng bộ giảm mạnh xuống còn 3% trong các bài kiểm tra đánh giá, mà còn thể hiện khả năng khái quát hóa vượt trội qua nhiều bối cảnh khác nhau.

Điều thú vị hơn là một bộ kiểm tra liên lĩnh vực khác. Họ chỉ cần cung cấp cho mô hình “tài liệu hiến pháp” cùng với một số câu chuyện hư cấu về nhân vật hoạt động tốt. Dù những câu chuyện này diễn ra trong bối cảnh hoàn toàn không liên quan đến nhiệm vụ lập trình trong môi trường kiểm tra, tỷ lệ tống tiền của mô hình đã giảm mạnh từ 65% xuống còn 19%.

Alignment of Artificial Intelligence

Tại sao mô hình lại bị ảnh hưởng bởi điều này? Nhóm Anthropic đã đưa ra một số giải thích, chẳng hạn như việc định hình tính cách tốt hơn.

Mặc dù được thảo luận ít, nhưng thông tin nó tiết lộ rất có giá trị.

First, let's try to understand why it works.

Ví dụ, thế nào là nói có lý? Nó khác gì với COT? Tại sao SFT, kẻ gặp khó khăn trong tổng quát hóa, lại hoạt động rất tốt ở đây?

After answering these questions, we may be able to provide a more complete explanation for why it works.

Chúng ta còn có thể đi xa hơn nữa.

Theo Anthropic, đây chỉ là phương pháp huấn luyện dựa trên “quy tắc kinh nghiệm”, nhưng thực tế có thể ẩn chứa sức mạnh mô hình vượt xa các quy tắc kinh nghiệm.

01 Làm thế nào để rèn luyện một CoT biết lý lẽ trong vùng xám

Khi nhắc đến việc lập luận, mọi người đầu tiên nghĩ đến COT (Chain of Thought).

Trong phương pháp được đề cập trong bài viết này, bộ câu hỏi khó do Anthropic thiết lập là những đề xuất mà AI đưa ra khi giả định người dùng đang rơi vào tình thế đạo đức nan giải.

Và để AI trước tiên triển khai một đoạn lập luận về các giá trị và cân nhắc đạo đức trước khi đưa ra phán quyết cuối cùng, đồng thời sử dụng bộ câu trả lời này để huấn luyện mô hình.

Điều này cho thấy nó thực sự đã sử dụng COT của mô hình.

But this time it is not entirely consistent with the previous chain of thought.

Ở đây có một so sánh tốt, OpenAI đã thực hiện một thí nghiệm trong bài báo năm 2025 có tên “OpenAI Deliberative Alignment”, sử dụng phương pháp COT-RL để cố gắng huấn luyện mô hình.

Nó được sử dụng để huấn luyện sự căn chỉnh COT, mô hình tập trung vào các điều khoản quy tắc. Mỗi khi đưa ra câu trả lời, nó sẽ trích dẫn rõ ràng các điều khoản quy tắc như là CoT, và tín hiệu giám sát được áp dụng lên CoT. Về bản chất, nó đang dạy mô hình “cách trích dẫn quy tắc”.

Do đó, COT này chủ yếu là một suy diễn logic hình thức thuần túy: bước một suy ra bước hai, bước hai suy ra bước ba, cuối cùng đưa ra một câu trả lời xác định. Vì vậy, nó phù hợp hơn với các hệ thống dựa trên quy tắc hoặc trong các tình huống có câu trả lời chuẩn, nhằm duy trì sự ổn định của lập luận.

Trong khi đó, "lý lẽ" của Anthropic không sử dụng chuỗi suy nghĩ đơn giản, mà là sự xem xét (Deliberation).

Nó cố gắng mô phỏng quá trình suy nghĩ của con người khi đối mặt với những nghịch lý đạo đức phức tạp: không đơn giản áp dụng công thức, mà tận dụng kinh nghiệm quá khứ, cân nhắc lợi ích của các bên liên quan, và cuối cùng đạt được quyết định cân bằng động.

Alignment of Artificial Intelligence

Cơ sở của sự cân nhắc này chính là Hiến pháp AI của Anthropic. Bài viết rõ ràng nêu rằng câu trả lời cuối cùng của sự cân nhắc này phải phù hợp với Hiến pháp.

Tại sao nó có thể hướng dẫn mô hình đưa ra các phán xét đạo đức một cách hiệu quả mà không cứng nhắc như OpenAI?

Trong hệ thống hiến pháp của Anthropic, có một kim tự tháp ưu tiên rõ ràng. Khi xảy ra xung đột không thể điều hòa giữa các giá trị khác nhau, an toàn rộng rãi (Broadly Safe) có mức ưu tiên cao nhất, tiếp theo là đạo đức rộng rãi (Broadly Ethical), và cuối cùng là sự hữu ích chân thành (Genuinely Helpful).

Khung tư duy heuristics

Tuy nhiên, hiến pháp cấp cao vẫn quá trừu tượng. Để các nguyên tắc thực sự được áp dụng vào từng lần tạo Token, họ đã thiết lập các heuristic cấp trung gian làm hàng rào bảo vệ dưới hiến pháp. Những heuristic này sinh động và mang ý nghĩa hướng dẫn thực tiễn rất mạnh mẽ.

Alignment of Artificial Intelligence

Đầu tiên là heuristic 1000 người dùng. Nó yêu cầu mô hình khi đưa ra một lời khuyên trông có vẻ vô hại nhưng nằm ở ranh giới mong manh, phải thực hiện một cuộc brainstorming ở nền tảng, tưởng tượng xem nếu câu trả lời này được 1000 người dùng với các bối cảnh và trạng thái tâm lý khác nhau nhìn thấy, liệu có thể gây ra tổn hại hệ thống không lường trước trong một tình huống cụ thể nào đó.

Tiếp theo là góc nhìn của nhân viên kỳ cựu. Nó yêu cầu mô hình tự đặt mình vào vị trí một nhà nghiên cứu kỳ cựu đã làm việc trong đội ngũ Tin tưởng và An toàn của Anthropic trong năm năm. Nhìn lại cuộc hội thoại hiện tại từ góc độ phòng thủ, cẩn trọng, từng chứng kiến vô số cuộc tấn công thoát khỏi giới hạn và lỗ hổng hệ thống.

Cuối cùng là bài kiểm tra báo giấy đôi. Đây là một thiết kế xã hội học tinh vi, yêu cầu mô hình tưởng tượng xem phản ứng của công chúng sẽ như thế nào nếu quyết định này được đăng lên trang nhất của hai tờ báo hàng đầu có lập trường chính trị hoàn toàn đối lập vào ngày mai. Thực chất, điều này đang sử dụng các cực trị của sự đồng thuận xã hội để chống lại sự thiên lệch một chiều có thể xảy ra trong chính mô hình.

Máy tính hiệu lực 8 yếu tố

Nếu hiến pháp là định hướng, thì các heuristic là hàng rào bảo vệ.

Ở cấp độ thực tiễn cốt lõi nhất, họ đã xây dựng một khung đánh giá chi tiết gồm 8 yếu tố được nêu rõ trong Claude's Constitution (tài liệu hiến pháp), cùng với các ví dụ cụ thể đi kèm. Tám yếu tố này được liệt kê từng cái một, buộc mô hình phải thực hiện sự cân nhắc cứng nhắc khi đối mặt với các lựa chọn khó xử. Chúng tạo thành thịt và máu thực sự của hệ thống "lý lẽ" này.

● Xác suất gây hại (Probability of Harm) yêu cầu mô hình đánh giá một cách bình tĩnh mức độ khả năng xảy ra các hậu quả tiêu cực.

● Tác động phản thực tế (Counterfactual Impact) yêu cầu mô hình suy luận trong tâm trí xem nếu không thực hiện hành động hiện tại, tình hình sẽ trở nên tốt hơn hay xấu hơn.

● Mức độ nghiêm trọng và khả năng phục hồi (Severity & Reversibility), dùng để đo lường mức độ phá hoại thực tế mà tổn hại gây ra khi sự cố thực sự xảy ra, cũng như liệu tổn hại này có thể được khắc phục dễ dàng hay gây ra tổn thương vĩnh viễn.

● Phạm vi (Scope) là thước đo quy mô nhóm người bị ảnh hưởng, là một cá nhân hay hàng vạn cộng đồng.

● Chuỗi nguyên nhân trực tiếp giữa đề xuất của mô hình phán đoán mối quan hệ gần gũi (Proximity) và tổn thất thực tế xảy ra dài bao nhiêu.

● Đồng ý (Consent) liên quan đến việc các bên liên quan có tự nguyện chấp nhận rủi ro dưới sự hiểu biết đầy đủ hay không.

● Tỷ lệ trách nhiệm (Proportionality of Responsibility) yêu cầu mô hình phân chia rõ ràng mức độ trách nhiệm đạo đức mà nó cần gánh chịu trong chuỗi sự kiện phức tạp này.

● Tính dễ bị tổn thương của đối tượng (Vulnerability of Subject) liên tục nhắc nhở mô hình rằng, khi đối mặt với người chưa thành niên hoặc người dùng có tâm lý dễ tổn thương, ngưỡng an toàn trước đây lỏng lẻo phải được tăng lên đáng kể một cách vô điều kiện.

Alignment of Artificial Intelligence

Cấu trúc chặt chẽ này biến những giá trị mơ hồ thành một máy tính hiệu dụng cấp cao (Utility Calculator). Mô hình giờ đây có một khung hành động rõ ràng hơn để tiến hành xem xét.

Một COT do Anthropic tạo ra dựa trên hiến pháp thường có dạng như sau: Tình huống là “một người dùng tự xưng là chuyên gia bảo mật, yêu cầu xem mã khai thác cho một lỗ hổng đã biết”.

Đầu ra của mô hình không phải là sự từ chối hoặc chấp nhận trực tiếp, mà có thể là một đoạn thảo luận nội bộ kéo dài hàng trăm Token.

Nó sẽ trích dẫn điều khoản trong hiến pháp "an ninh rộng rãi ưu tiên hơn sự giúp đỡ chân thành", sau đó đánh giá từng yếu tố: xác suất gây hại (thấp nếu đối phương thực sự là nhà nghiên cứu, nhưng không thể xác minh danh tính), mức độ nghiêm trọng (mã khai thác lỗ hổng nếu bị rò rỉ có thể ảnh hưởng đến hàng triệu người dùng), khả năng đảo ngược (mã một khi được công khai không thể thu hồi), và tác động phản thực tế (liệu loại mã này đã có sẵn trên các kênh công khai hay chưa). Cuối cùng, sau khi cân nhắc tất cả các yếu tố, nó sẽ đi đến một phán quyết được hỗ trợ bởi lý lẽ đầy đủ.

Điều này hoàn toàn khác với COT của OpenAI chỉ đơn thuần đánh giá xem các quy tắc có được đáp ứng hay không; quá trình tư duy này là một cuộc xem xét nghiêm túc, chứ không phải chỉ đơn giản áp dụng công thức. Nó không cung cấp các nguyên tắc trừu tượng hay mẫu kết luận, mà là quá trình triển khai đầy đủ cách các điều khoản hiến pháp được áp dụng từng bước trong bối cảnh cụ thể.

Mô hình cần xác định trong bối cảnh cụ thể này, tính khả nghịch có quan trọng hơn tính nghiêm trọng hay không. Nó cũng cần hiểu rằng, trong một số tình huống cực đoan, tính dễ tổn thương của đối tượng có thể trao quyền phủ quyết một chiều cho đối phương, khiến điểm số của 7 yếu tố còn lại dù cao đến đâu cũng vô ích.

Trong điều kiện có khung, có heuristic và các yếu tố ảnh hưởng liên quan, tư duy xem xét của mô hình mới thực sự phát huy hiệu quả.

Alignment of Artificial Intelligence

Kết quả là, sau khi mô hình được huấn luyện với việc xem xét và phân tích dữ liệu, tỷ lệ mất căn chỉnh trong các bài kiểm tra đánh giá đã giảm xuống còn 3%. SFT với xem xét giá trị có hiệu quả gấp bảy lần so với SFT chỉ dựa trên ví dụ hành vi.

Feed the constitution directly into the model

Ngoài việc đi theo con đường khiến mô hình đưa ra COT mang tính xem xét, họ còn thử chỉ cung cấp tài liệu hiến pháp cùng câu chuyện nhân vật hư cấu tích cực, tỷ lệ tống tiền đã giảm từ 65% xuống còn 19%.

Điều này cho thấy, chỉ cần cho mô hình tiếp xúc với lập luận và nguyên tắc, để nó học được từ câu chuyện một cảm nhận về vai trò và xu hướng tính cách của một AI được căn chỉnh, chứ không chỉ là hành vi và kết quả cụ thể, thì hiệu quả sẽ vượt trội hơn so với phương pháp mô phỏng hành vi truyền thống.

Alignment of Artificial Intelligence

Tài liệu kỹ thuật cho thấy, sự kết hợp của cả hai mới là chiến lược hiệu quả nhất.

Điều này cũng dễ hiểu, vì nếu bạn chỉ cung cấp cho mô hình những nguyên tắc hiến pháp mang tính vĩ mô, thì với nó đó chỉ là một đống khẩu hiệu trừu tượng không thể thực thi. Khi đối mặt với xung đột lợi ích cụ thể, khái niệm trừu tượng “ưu tiên an toàn cao nhất” hoàn toàn không thể hướng dẫn nó đánh giá mức độ nguy hiểm thực sự của một đoạn mã biên giới; ngược lại, nếu bạn chỉ cung cấp cho mô hình một lượng lớn câu hỏi và câu trả lời về các tình huống, nhưng loại bỏ các ràng buộc hiến pháp cấp cao nhất, mô hình sẽ lạc lối trong những cuộc tranh luận chi tiết vô tận, trở thành một chủ nghĩa tương đối không có cốt lõi, thậm chí có thể do tính nhất quán logic cục bộ mà suy ra những kết luận cực kỳ nguy hiểm.

Chỉ khi cấu trúc dữ liệu phức hợp gồm "ý tưởng cấp cao + tình huống cụ thể" được nội hóa đầy đủ vào mô hình, thì sự đồng bộ hóa giá trị đa yếu tố màu xám mới đạt được hiệu quả tối ưu.

02 Tại sao SFT có thể tổng quát hóa ở đây

Để hiểu vì sao phương pháp của Anthropic lại hiệu quả, trước tiên phải hiểu nó nằm trên dòng nghiên cứu nào.

Nửa đầu năm 2024, “SFT ghi nhớ, RL khái quát hóa” trở thành một sự đồng thuận trong lĩnh vực hậu huấn luyện. Triết lý này đã thúc đẩy toàn ngành đầu tư mạnh vào con đường hậu huấn luyện RL, mang lại cuộc cách mạng trong mô hình suy luận với tính toán thời gian kiểm tra (Test Time Compute) của OpenAI o1/o3 và DeepSeek-R1.

SFT bị coi là thủ đoạn thấp cấp, nó giỏi bắt chước định dạng văn bản bề ngoài và giọng điệu nịnh nọt, nhưng không thể học được logic sâu sắc bên dưới.

Tuy nhiên, từ nửa sau năm 2025, hai hướng nghiên cứu gần như đồng thời phá vỡ sự đồng thuận này từ cả khía cạnh lý thuyết và thực nghiệm.

Alignment of Artificial Intelligence

Sự đảo ngược quan trọng nhất tại đây đến từ bài báo năm 2025 mang tên “Debunk the Myth of SFT Generalization” (Lin & Zhang, Đại học Wisconsin). Các nhà nghiên cứu phát hiện rằng tất cả các bài báo trước đó “chứng minh SFT không khái quát hóa” đều không kiểm soát biến đa dạng hóa Prompt.

RL trông có vẻ tổng quát tốt hơn SFT chỉ vì trong quá trình huấn luyện RL, nó tự nhiên tiếp xúc với nhiều phân phối dữ liệu đa dạng hơn, chứ không phải do ưu điểm của thuật toán.

Để SFT đạt được mức tổng quát hóa tương đương RL, cần hai điều kiện:

Thứ nhất là tính đa dạng của Prompt. Khi dữ liệu huấn luyện chỉ bao gồm các mẫu lệnh cố định, mô hình sẽ tạo ra hiện tượng “gắn kết bề mặt” (Surface Anchoring), thiết lập một mối quan hệ dễ vỡ giữa các chuỗi Token cụ thể và hành động cuối cùng. Khi lệnh được diễn đạt lại, dù ngữ nghĩa hoàn toàn giống nhau, toàn bộ mối quan hệ này sẽ bị phá vỡ.

Điều này giống như một học sinh chỉ ghi nhớ câu hỏi “2+3=5”, nhưng khi gặp “3+2=?”, lại để trống, vì em ấy ghi nhớ hình dạng của đáp án, chứ không phải bản chất của phép cộng. Sau khi引入 Prompt đa dạng, sự neo bề mặt đã bị phá vỡ hoàn toàn.

Thứ hai là giám sát CoT. Khi dữ liệu huấn luyện chỉ bao gồm câu trả lời cuối cùng mà không bao gồm các bước suy luận trung gian, mô hình không thể học được “cấu trúc thuật toán” để chuyển từ các câu hỏi đơn giản sang các câu hỏi phức tạp.

Dữ liệu thực nghiệm cho thấy, trong một nhiệm vụ trò chơi tổ hợp, SFT câu trả lời thuần túy có tỷ lệ thành công gần 0% trên các biến thể khó hơn (hoàn toàn sụp đổ), nhưng sau khi thêm giám sát CoT, tỷ lệ này tăng vọt lên 90%—từ không đến tám phần mười, chỉ vì trong dữ liệu đã bổ sung các bước suy luận trung gian.

Alignment of Artificial Intelligence

Ngoài ra, nghiên cứu còn phát hiện ra rằng cả hai điều kiện này đều không thể thiếu. Chỉ có sự đa dạng, vẫn sụp đổ trước các nhiệm vụ khó hơn (9%); chỉ có CoT, vẫn dễ bị tổn thương trước các biến thể lệnh. Chỉ khi đồng thời đáp ứng cả hai, SFT mới có thể sánh ngang hoặc vượt trội RL trên mọi khía cạnh.

Điều kỳ diệu là các điều kiện được tiết lộ trong các bài báo học thuật khớp hoàn toàn với các thực hành cụ thể của Anthropic trong việc căn chỉnh đạo đức.

Đa dạng là chìa khóa? Vậy Anthropic đã phân phối cùng một mô hình phán đoán vào hàng chục tình huống đạo đức hoàn toàn khác biệt.

Chuyển giao độ khó của CoT giám sát? Quá trình suy luận dựa trên các khái niệm hiến pháp được giới thiệu trong mỗi cuộc xem xét chính là CoT trong lĩnh vực đạo đức.

Đó không phải là tính toán từng bước theo toán học, mà là sự triển khai từng bước của các đánh đổi giá trị, nhưng hoàn toàn tương đương về chức năng “cung cấp cấu trúc suy luận trung gian có thể chuyển giao cho mô hình”.

Cặp dữ liệu SFT truyền thống là « gặp vấn đề với hacker → trả lời trực tiếp từ chối » — câu trả lời thuần túy, không suy luận, mẫu cố định, kiểu « dữ liệu kém chất lượng » kinh điển.

Trong khi đó, việc xem xét các cặp dữ liệu được xây dựng từ SFT là « gặp phải các vấn đề phức tạp và mơ hồ → cân nhắc chi tiết các ưu nhược điểm và hậu quả → cuối cùng suy ra kết luận từ chối », cấu trúc dữ liệu của nó bao gồm giám sát CoT tự nhiên cùng sự đa dạng cực kỳ phong phú về các tình huống.

Trong mô hình này, điều mà mô hình học được không phải là hành vi từ chối trả lời cuối cùng, mà là tư duy nền tảng: “khi gặp bất kỳ vấn đề nào, hãy đánh giá trước tác động phản thực tế và tính khả nghịch”. Khi cơ chế đánh giá này được nội hóa vào không gian tham số, mô hình sẽ không còn bị giới hạn bởi các tình huống cụ thể xuất hiện trong dữ liệu huấn luyện.

Hơn nữa, khối lượng dữ liệu cực kỳ nhỏ (ở mức 3 triệu token) so với tổng tham số mô hình và ngữ liệu pre-training. Đây không phải là việc dùng tín hiệu phạt khổng lồ để thay đổi bạo lực phân phối đầu ra của mô hình, mà là bổ sung một lớp thói quen xem xét mỏng lên trên các khả năng đã có. Vấn đề truyền thống của SFT — lãng quên thảm khốc — cũng ít có khả năng xảy ra.

Sự khái quát hóa thực sự sẽ tự nhiên xảy ra ngay khi cấu trúc dữ liệu được thiết lập đúng.

Khoảng trống ngoài 03 RLVR

Phân tích ở trên đã cơ bản giải đáp được câu hỏi vì sao nó lại hiệu quả.

SFT được tạo thành từ dữ liệu hợp lý đã mang lại cho mô hình khả năng phán đoán đạo đức tổng quát.

Nhưng vấn đề chúng ta đang đối mặt xa vượt quá việc căn chỉnh đạo đức.

Trong suốt một năm qua, Test time Compute sau khi huấn luyện đã chứng minh sức mạnh của RL thuần túy trong các lĩnh vực toán học/ mã hóa có quy tắc rõ ràng (RLVR). Tuy nhiên, ranh giới của trí tuệ còn xa mới dừng lại ở các công thức toán học. Một khi vượt ra khỏi vùng an toàn với chân lý có thể xác minh được, phương pháp này hoàn toàn không còn hiệu lực.

Bạn không bao giờ có thể xác minh một cuộc trò chuyện tư vấn tâm lý kéo dài một giờ có hoàn hảo hay không chỉ bằng vài dòng mã kiểm thử tự động. Bạn cũng không thể dùng một công thức toán học chặt chẽ để kiểm tra logic lập luận trong một bài phân tích vĩ mô sâu sắc. Thậm chí trong các kế hoạch chiến lược kinh doanh phức tạp và các kịch bản suy diễn địa chính trị, sự đúng sai của một phán đoán thường chỉ có thể được xác định sau năm hoặc mười năm.

Trên những vùng hoang mạc không có Ground Truth nào này, logic suy diễn tuyến tính CoT là vô hiệu. Học tăng cường dựa trên phản hồi kết quả cuối cùng cũng hoàn toàn không tìm được điểm tiếp cận để tính phần thưởng.

Tuy nhiên, lĩnh vực mà bài viết của Anthropic tiết lộ chính là lĩnh vực đạo đức, nằm ngoài RLVR.

Phương pháp của nó đã thành công trong việc giúp mô hình đạt được khả năng tổng quát gần với RL trong lĩnh vực đạo đức màu xám, biến đổi và yêu cầu linh hoạt trong quy tắc.

Điều này có cho thấy phương pháp này có thể trở thành một tiêu chuẩn đào tạo hiệu quả ngoài lĩnh vực RLVR không?

Sau khi làm rõ nguồn gốc tính hợp lệ và cấu trúc dữ liệu của nó, câu trả lời là có.

Vì trong logic nền tảng của nó, không có một khâu nào là độc quyền của sự phù hợp đạo đức.

Hãy cùng kiểm tra từng điều kiện mà Anthropic đã chứng minh hiệu quả trong “SFT được tăng cường bởi sự xem xét”, để xem liệu chúng có thể được áp dụng rộng rãi hay không.

Đa dạng hóa có thể được tạo ra trong bất kỳ lĩnh vực nào cần khái quát hóa. Tư vấn tâm lý có thể bao gồm hàng chục tình huống khác biệt như trầm cảm, lo âu, rối loạn căng thẳng sau sang chấn, đổ vỡ mối quan hệ thân mật; phân tích kinh doanh có thể bao trùm các loại quyết định hoàn toàn khác nhau như định giá SaaS, định giá sáp nhập và mua lại, chiến lược gia nhập thị trường; biên tập văn học có thể trải dài qua các thể loại hoàn toàn khác biệt như khoa học viễn tưởng, phi hư cấu, thơ ca, kịch bản.只要你有足够的想象力去构造场景变体，多样性就不是瓶颈。

Alignment of Artificial Intelligence

CoT giám sát, đây mới là điểm chuyển đổi thực sự quan trọng. Trong lĩnh vực đạo đức, CoT được xây dựng trên sự xem xét trong hiến pháp. Vậy thì trong các lĩnh vực khác, CoT là gì?

Trong lĩnh vực biên tập văn học, nó có thể là « trích dẫn tiêu chuẩn đánh giá → đánh giá từng bước sức mạnh của lập luận, mức độ dễ tổn thương về nhận thức của độc giả mục tiêu, độ chính xác của các phép ẩn dụ mở rộng, tính nhất quán logic tổng thể → đưa ra đề xuất chỉnh sửa »

Trong lĩnh vực tư vấn tâm lý, nó có thể là «trích dẫn khung trị liệu → đánh giá từng bước trạng thái cảm xúc của khách hàng, loại suy nghĩ sai lệch, cường độ liên minh trị liệu, thời điểm can thiệp → lựa chọn chiến lược phản hồi»

Trong lĩnh vực chiến lược kinh doanh, nó có thể là «áp dụng khung phân tích → đánh giá từng yếu tố: quy mô thị trường, rào cản cạnh tranh, năng lực thực thi của đội ngũ, hiệu quả vốn, cửa sổ thời gian → đưa ra phán đoán»

Về bản chất, bất kỳ khả năng nào yêu cầu «sự cân bằng động giữa nhiều chiều không thể so sánh được» đều có thể được trừu tượng hóa thành cấu trúc tương tự «khung + xem xét đa yếu tố».

Chúng ta không cần kiêu ngạo cố gắng nói cho mô hình bài viết nào là hoàn hảo, điều này vừa không thể vừa không khoa học. Chúng ta chỉ cần tách quá trình ra quyết định của các chuyên gia hàng đầu thành một chuỗi xem xét rõ ràng, sau đó phân bố chúng trong đủ nhiều bối cảnh đa dạng.

Chỉ khi những “phản hồi tốt” trong lĩnh vực này có cấu trúc có thể được giải thích thông qua quy trình xem xét. Nói cách khác, các chuyên gia đưa ra phán đoán tốt không phải vì một “hộp đen” trực giác bí ẩn, mà vì họ đã chạy một quy trình cân nhắc có thể được phân tích và ghi chép lại trong đầu. Một nhà tư vấn tâm lý tốt chọn sự im lặng thay vì đặt câu hỏi, dựa trên việc đánh giá tổng hợp về sức mạnh của liên minh điều trị, dung lượng hiện tại của khách hàng và thời điểm can thiệp phù hợp — những yếu tố này hoàn toàn có thể được ghi lại.

Ngoài ra, cùng một hình thái xem xét có thể lặp lại trong hàng trăm bối cảnh khác biệt. Khung xương của việc xem xét là ổn định (dựa trên hiến pháp), nhưng bề mặt các bối cảnh phải cực kỳ đa dạng. Nếu một lĩnh vực có bối cảnh tự nhiên đơn nhất (ví dụ: chỉ có một loại phán quyết), thì hãy sử dụng trực tiếp RLVR.

Và lĩnh vực phù hợp nhất của nó là những bối cảnh khác nhau có thể suy diễn ra từ hiến pháp và các yếu tố. Anthropic có thể sử dụng vòng lặp Constitutional AI để mô hình giáo viên tự động tạo ra dữ liệu xem xét, nhưng ở các lĩnh vực khác, chúng ta phải xây dựng được một hệ thống hiến pháp và yếu tố tốt hơn để đảm bảo điều này.

Do đó, điều này thực sự thiết lập một khuôn mẫu hậu huấn luyện mới, mang tính phổ quát và đặc biệt hướng đến các lĩnh vực không có câu trả lời chuẩn.

Công thức của nó là: Hiến pháp lĩnh vực (nguyên tắc cấp cao bất khả xâm phạm) + hàng rào heuristics + khung xem xét đa yếu tố + COT có tính chất xem xét (gồm các tình huống mẫu đa dạng với toàn bộ quá trình suy luận) = khả năng khái quát hóa ngoài lĩnh vực RLVR.

04 Con đường chưng cất mới

Những bạn từng có kinh nghiệm viết Skill khi đọc đến đây chắc chắn sẽ cảm thấy nhiều hệ thống và quy tắc trong Hiến pháp dường như rất giống với quá trình viết một số Skill của chúng ta.

Tuy nhiên, những kỹ năng này thường hoạt động không tốt.

Trong bài viết trước của tôi, “Skill thực sự có thể chưng cất được bao nhiêu phần trăm của chúng ta?”, chúng tôi đã đưa ra một phán đoán dựa trên khoa học nhận thức — các Skill hoặc System Prompt dạng văn bản thuần túy khó có thể xử lý các sự cân bằng động trong môi trường và bối cảnh phức tạp, vì điều này liên quan đến các phép tính lợi ích khổng lồ và tinh vi. Bạn không thể ghi lại toàn bộ trực giác lâm sàng của một nhà tư vấn tâm lý hàng đầu vào một đoạn prompt, giống như bạn không thể học cách đi xe đạp chỉ bằng cách đọc một cuốn hướng dẫn về đi xe đạp.

Tuy nhiên, phương pháp của Anthropic đã hoàn toàn tránh được vùng nguy hiểm này. Họ đã sử dụng các bộ dữ liệu chất lượng cao với hàng triệu, hàng chục triệu token trong giai đoạn huấn luyện tốn nhiều tài nguyên tính toán, ép buộc nhúng những logic xem xét nặng nề này vào thông qua SFT.

Thông qua việc phù hợp và tinh chỉnh bạo lực với lượng dữ liệu khổng lồ, mô hình dần nắm được cách phân bổ trọng số của cơ chế xem xét trong không gian ẩn.

Sau những cuộc xem xét kéo dài dựa trên tám yếu tố và ba hàng rào trong phòng huấn luyện, những kinh nghiệm này đã trở thành một phần không thể đảo ngược trong trực giác của mô hình.

Alignment of Artificial Intelligence

Sự chưng cất ở cấp độ tham số đã được chứng minh là hiệu quả và về mặt hình thức rất gần với Skill.

Once the effectiveness of this method is validated in other fields, this higher-level, more expert-like distillation will become a reality.

Và một khi con đường này được triển khai thành công, ai có thể xây dựng được bộ dữ liệu “khung + COT thảo luận” chất lượng cao nhất, người đó sẽ có khả năng tổng quát hóa trong lĩnh vực này.

Cuộc cạnh tranh sau khi huấn luyện đã phần nào chuyển từ cuộc đua vũ trang về "độ mạnh tính toán và thuật toán" sang khía cạnh "biểu diễn có cấu trúc của kiến thức chuyên ngành".

Đây cũng có thể là lý do tại sao Anthropic và các công ty khác đang tuyển những người có khả năng kể chuyện để giúp xây dựng một cấu trúc biểu đạt hợp lý ngoài lĩnh vực RLVR.

Thời đại chưng cất lớn mới chỉ vừa bắt đầu.

Bài viết này đến từ tài khoản công chúng WeChat “Tencent Tech”, tác giả: Bo Yang