Mở đầu: Khi năng lực AI liên tục bước qua các giai đoạn nhảy vọt, cộng đồng đầu tư đang xuất hiện một phán đoán bi quan mới: nếu các mô hình ngày càng mạnh mẽ, tất cả các công ty ứng dụng cuối cùng sẽ bị nuốt chửng bởi các lớp mô hình và tính toán như Anthropic, OpenAI, Nvidia, và thị trường cuối cùng chỉ còn lại các mô hình tiên tiến, tính toán và một số cơ sở hạ tầng ít ỏi. Nhưng Sarah Guo cho rằng phán đoán này chỉ đúng một nửa. Những ứng dụng “thin wrapper” (bao bọc mỏng, tức là các ứng dụng đơn giản bao bọc mô hình) thực sự sẽ bị hấp thụ, mọi nhiệm vụ có thể được đo lường bằng benchmark, được huấn luyện bằng dữ liệu công khai và xác minh với chi phí thấp cũng sẽ dần trở thành hàng hóa.
Vấn đề thực sự là: Sau khi AI nuốt chửng mọi thứ có thể huấn luyện được, thì điều gì vẫn không thể huấn luyện được?
Câu trả lời cho câu hỏi này là những giá trị tồn tại bên trong các tổ chức thực tế, không thể sao chép dễ dàng từ bên ngoài: dữ liệu riêng của doanh nghiệp, các quy trình làm việc phức tạp, sự tin tưởng của người dùng, quyền truy cập hệ thống, phán đoán ngành nghề, trách nhiệm tuân thủ, cùng kinh nghiệm tích lũy qua thời gian dài vận hành. Mô hình có thể thông minh hơn, nhưng không thể tự động truy cập vào hệ thống sản xuất của ngân hàng; có thể tạo ra câu trả lời y tế, nhưng không thể trực tiếp giành được sự tin tưởng của bác sĩ và quy trình ra quyết định của bệnh viện; có thể viết ra văn bản pháp lý, nhưng không thể thay thế luật sư giàu kinh nghiệm chịu trách nhiệm, cũng không thể tự định nghĩa thế nào là công việc pháp lý đạt chuẩn.
Vì vậy, những công ty AI thực sự có lợi thế cạnh tranh trong tương lai không đơn giản là thông minh hơn các mô hình tổng quát, mà là đi sâu vào bên trong một ngành cụ thể để hoàn thành công việc “phiên dịch” khó khăn nhưng then chốt: hệ thống hóa thực tế riêng, công cụ, quy trình và tiêu chí phán xét của khách hàng thành những hệ thống mà mô hình có thể hành động, đồng thời dần dần xác định trong quá trình phục vụ dài hạn “thế nào mới là kết quả tốt”. AI càng mạnh, càng làm giảm giá trị của những nhiệm vụ có thể đo lường và sao chép; đồng thời càng làm nổi bật những “điều không thể huấn luyện” mang tính lịch sử, quan hệ, quyền hạn và phán xét chuyên môn. Đây mới chính là giá trị thực sự có thể còn sót lại sau khi các mô hình đã “tiêu hóa” mọi thứ.
Dưới đây là nội dung gốc:
Giữa năm 2026, phiên bản nhà đầu tư của “AI điên loạn” là cảm giác tuyệt vọng rằng không còn gì đáng để đầu tư nữa: dường như chúng ta nên đổ hết tiền vào Anthropic và Nvidia, rồi về nhà ngủ. Nhưng tôi chưa bao giờ có cảm giác đó. Từ nhiều phiên bản nhỏ trước đây, tôi luôn tin rằng các mô hình đã thông minh hơn tôi; nếu mua Anthropic và Nvidia theo giá thị trường, tôi cũng sẽ rất vui lòng; những người bạn thông minh nhất xung quanh tôi cũng khá chắc chắn rằng sự tự cải tiến của mô hình sẽ sớm thực sự hoạt động — nhưng tôi vẫn không có cảm giác tuyệt vọng đó.
Sự tuyệt vọng này không ngu ngốc. Lập luận của nó là như thế này: nếu mô hình liên tục trở nên mạnh mẽ hơn trong mọi việc, thì tất cả các công ty được xây dựng dựa trên mô hình đó đều chỉ là một lớp vỏ mỏng chờ bị mô hình hấp thụ; giá trị duy nhất còn lại cuối cùng chỉ còn là năng lực tính toán và trọng số mô hình tiên tiến.
Ví dụ về phần mềm là trường hợp điển hình nhất cho cảm giác tuyệt vọng này. Khi Devin được ra mắt vào năm 2024, nó chỉ có thể giải quyết 13% các nhiệm vụ trong các bài kiểm tra phần mềm tiêu chuẩn, do đó bị thị trường xem nhẹ. Một năm rưỡi sau, các Agent mạnh nhất đã đạt điểm số trên 80% và bắt đầu xử lý các công việc thực tế bên trong Goldman Sachs và Quân đội Hoa Kỳ. Hầu như tất cả đều đưa ra cùng một kết luận sai lầm: mô hình đã nuốt chửng kỹ sư phần mềm.
Nhưng khi mô hình đã tiếp thu phần dễ đo lường nhất trong kỹ thuật phần mềm, chúng ta cũng đang tái nhận thức một điều mà nhiều đội ngũ đã biết từ lâu: kỹ thuật vốn luôn chống lại việc đo lường, và những phần dễ đo lường nhất chưa chắc đã là những phần quan trọng duy nhất.
Mert Demirer từ MIT và các cộng sự của ông cuối cùng đã định lượng được điều này: trong số hơn 100.000 nhà phát triển, thế hệ mới nhất của các Agent lập trình đã tăng lượng mã được viết lên khoảng 180%, nhưng lượng mã thực sự được triển khai上线 chỉ tăng khoảng 30%. Viết mã trở nên rẻ hơn, nhưng các khâu còn lại vẫn cần con người thực hiện, và những khâu này rất quan trọng. Dĩ nhiên, tác động ròng tổng thể vẫn đáng kinh ngạc.
Benchmark là thứ bạn có thể đo lường; và bất kỳ thứ gì có thể đo lường đều có thể được dùng để huấn luyện. Do đó, các Agent lập trình đầu tiên trở nên chín muồi: trình biên dịch là bộ xác minh miễn phí, bộ kiểm thử cũng là bộ xác minh miễn phí. Khi câu trả lời gần như có thể tự kiểm tra với chi phí bằng không, bạn có thể liên tục tinh chỉnh dựa trên tín hiệu kiểm tra này cho đến khi đạt đến giới hạn.
Tuy nhiên, việc qua được kiểm thử không có nghĩa là thay đổi này là đúng đắn đối với một kho mã đã chạy suốt mười năm. Module đó tồn tại có thể do ba lý do không ai ghi lại trong tài liệu; quy trình triển khai có thể chỉ đang hoạt động nhờ một cron job mà không ai dám thừa nhận là do mình viết.
Sự chính xác này không thể đọc được từ bảng xếp hạng, thậm chí cũng không thể đọc trực tiếp từ bất kỳ điều gì khác. Bạn chỉ có thể biết liệu nó có thực sự hiệu quả hay không bằng cách cho một hệ thống phức tạp như vậy chạy trong thế giới thực trong một thời gian đủ dài. Và các mô hình thông minh hơn không làm cho thế giới thực chạy nhanh hơn. Không ai sẽ hoàn toàn tin tưởng một hệ thống lớn như Google chỉ vì nó đã chạy xong các bài kiểm tra đơn vị và thấy dấu tích xanh. Bạn tin tưởng nó vì nó đã chịu đựng được nhiều năm tải thực tế.
Sự chính xác này không chỉ là riêng tư, mà còn là một hàng rào bảo vệ được hình thành chậm rãi, một hàng rào mà vốn không thể trực tiếp rút ngắn thời gian. Ngay cả những người lạc quan cũng thừa nhận rằng chiếc đồng hồ này không thể bỏ qua. Noam Brown, người tiên phong trong các mô hình suy luận của OpenAI, gần đây đã viết: Phương pháp đáng tin cậy duy nhất để đánh giá hiệu suất của một Agent trong chu kỳ một năm có lẽ là để nó thực sự hoạt động trong suốt một năm.
Như Gabe Pereyra đã nói, tự động hóa thực sự không chỉ là việc các mô hình trở nên mạnh mẽ hơn. Đó là sự thay đổi đồng thời của sản phẩm, mô hình, quy trình làm việc và tổ chức công ty, và trong bốn yếu tố này, có ba yếu tố đang di chuyển theo tốc độ của tổ chức.
Việc khiến con người hành động là phần mà bất kỳ bài kiểm tra nào cũng không thể chạm tới: thuyết phục một đối tác hoài nghi thay đổi cách họ xử lý công việc, và giữ cho một đội ngũ duy trì sự đoàn kết trong quá trình tái cấu trúc. Đó cũng là lý do tại sao chúng tôi đánh giá khả năng xử lý con người của CEO khi tuyển dụng, ít nhất cũng quan trọng như khả năng phân tích. Việc mô hình trở nên thông minh hơn không làm thay đổi trọng số này.
Phản hồi ở đây rất mơ hồ, khoảng thời gian được tính theo năm, trong khi sự tin tưởng thuộc về một cá nhân cụ thể. Mỗi công ty mà tôi biết đều đã cho mỗi kỹ sư sử dụng các mô hình mã hóa tiên tiến, nhưng không có công ty nào có tổ chức kỹ thuật thay đổi với tốc độ gần bằng sự tiến bộ của mô hình. Việc áp dụng công cụ chỉ mất một quý, và đó là một quý kỳ diệu với sự tăng trưởng token! Nhưng việc tái cấu trúc thực sự cần vài năm.
Những công việc có thể được nhìn thấy đang dần biến mất. Những công việc thực sự có giá trị về mặt cấu trúc là không thể đọc được: bất cứ thứ gì bạn có thể đưa lên bảng xếp hạng đều có thể được dùng để huấn luyện; do đó, bất cứ điều gì có thể đo lường được đều đang tiến tới quá trình thương mại hóa. Quá trình này cần thời gian và sẽ không bao giờ hoàn toàn kết thúc, nhưng hướng đi sẽ không bao giờ đảo ngược.
Theo lời của Matt MacInnis, bạn bè của tôi tại Rippling, chuyển sang ngôn ngữ tiền tệ thì: một token chỉ dùng để trả lời một câu hỏi chung chung gần như không có giá trị, vì bất kỳ mô hình nào cũng có thể trả lời; nhưng một token thực hiện suy luận dựa trên dữ liệu công ty của bạn thì có giá trị cao hơn nhiều, vì nó thực hiện đúng những gì bạn thực sự muốn, chứ không chỉ tạo ra một câu trả lời nghe có vẻ hợp lý.
Các công việc có thể đọc sẽ bị nuốt từ hai hướng.
Từ phía dưới, nhiệm vụ sẽ bị bão hòa: một khi một công việc có thể được kiểm tra với chi phí thấp, người mua sẽ không còn quan tâm đến việc mô hình nào hoàn thành nó, mà bắt đầu hỏi nó giá bao nhiêu. Khi đó, công việc sẽ rơi vào tay mô hình mã nguồn mở hoặc mô hình đã được tinh giản rẻ nhất trong tuần. Chỉ cần biên lợi nhuận hoạt động được, cuối cùng nó chắc chắn sẽ hoạt động.
Từ trên nhìn xuống, phòng thí nghiệm đang cố gắng để mô hình nuốt chửng chính những giàn giáo của nó. Việc định tuyến giữa truy xuất, gọi chi phí thấp và gọi chi phí cao, sử dụng công cụ, thậm chí cả chiến lược suy luận — tất cả những thiết bị từng bao bọc bên ngoài mô hình — đang được kéo vào trong trọng số của mô hình, cho đến khi chính “vỏ bọc” trở thành mô hình. Đây chính là biên giới hấp thụ.
Áp lực lợi nhuận cũng sẽ hoạt động theo hướng khác: một Agent tổng quát phải luôn sẵn sàng xử lý mọi việc, do đó chi phí rất cao; trong khi một ứng dụng tập trung có thể tối ưu hóa một quy trình đến mức tối đa, chỉ tiêu tốn một phần nhỏ token. Hơn nữa, khác với các phòng thí nghiệm bán những token này, các công ty ứng dụng có thể giữ lại phần chênh lệch trung gian.
Do đó, chúng ta có thể đặt hai câu hỏi cho bất kỳ công việc nào: Tính chính xác của nó có phải là riêng tư, đắt đỏ, và có phải là một sự thật chỉ tồn tại trong dữ liệu nội bộ của một công ty không? Nó có bị cô lập trong một hệ thống mà người ngoài không thể tiếp cận không? Khi kết hợp những câu hỏi này với mức độ bão hòa của nhiệm vụ, chúng ta sẽ có được một ma trận 2×2.
Những công việc đã bão hòa và đáp án đã công khai là lĩnh vực của các token thương mại hóa, nơi các mô hình mã nguồn mở sẽ chiếm ưu thế. Những công việc前沿 nhưng đáp án đã công khai, như các bài kiểm tra mã hóa, là nơi mà các phòng thí nghiệm sẽ chiến thắng, vì khi đánh giá là miễn phí, việc sở hữu chúng trở nên không còn giá trị.
Giải thưởng thực sự nằm ở góc cuối cùng, tức là góc “không thể huấn luyện”: các công việc tiên phong, nhưng tính chính xác của chúng chỉ tồn tại trong môi trường riêng tư. Bạn có thể thấy điều này trên các nền tảng推理云 phục vụ những người đi đầu trong AI nguyên sinh: phần lớn token đều được tạo ra bởi các mô hình tùy chỉnh, chứ không phải bởi các mô hình mã nguồn mở phổ thông.
Tường dẫn đến góc cuối cùng này cao thấp không đều. Kho mã nguồn thử nghiệm của một nhà phát triển có thể di chuyển và chuẩn hóa, nên việc trèo vào không khó. Nhưng hệ thống sản xuất của một ngân hàng thì không thể di chuyển và không chuẩn hóa. Bạn sẽ không thể có quyền root của nó chỉ vì thông minh hơn 2% trên SWE-Bench Verified.
Khả năng có thể nuốt chửng rất nhiều thứ, nhưng các mô hình tốt hơn không làm cho các tiêu chuẩn thực tế riêng tư trở thành tiêu chuẩn công khai. Nó không sở hữu giấy phép, không ký tên chịu trách nhiệm, cũng không sở hữu tài liệu công ty; khi câu trả lời sai, nó cũng không thể trở thành đối tượng bị kiện. Rào cản ở đây không phải là trí thông minh, mà là quyền hạn và trách nhiệm. Bạn có thể tưởng tượng một mô hình thông minh hơn bất kỳ ai, nhưng nó vẫn phải được phép bước vào, và vẫn cần có người ký tên chịu trách nhiệm cho những việc nó làm.
Cánh cửa đó có một chiếc khóa và một thanh then.
Cái khóa đó là bối cảnh: chỉ sau khi bạn đạt được sự tin tưởng trong một hệ thống, qua đánh giá an toàn, tích hợp hoàn tất và ký hợp đồng có trách nhiệm về kết quả, bạn mới có thể xác minh liệu AI có thực sự làm được những việc hữu ích hay không.
Khóa cửa đó là người dùng. Hiện nay, hầu hết các bác sĩ Mỹ đều mở OpenEvidence mỗi ngày, điều này không thể mua được bằng bất kỳ sức mạnh tính toán nào. Một phòng thí nghiệm có thể huấn luyện một mô hình y tế hoàn hảo vào ngày mai, nhưng nó vẫn không thể xâm nhập vào thói quen sử dụng của bác sĩ hay quy trình ra quyết định của UCSF. Vì niềm tin được xây dựng từ từ, thông qua các mối quan hệ và sự đồng thuận của người dùng, chứ không phải thông qua giảm độ dốc để xóa bỏ những điều này.
Đây cũng chính là công việc của các công ty ứng dụng. Một ứng dụng có thể chiếm được vị trí trong những góc “không thể huấn luyện” nhờ vào những công việc không hề rực rỡ: sắp xếp thực tế riêng tư của một công ty để mô hình có thể hành động dựa trên đó; trao các công cụ hành động cho mô hình; cùng khách hàng thay đổi cách thức vận hành thực tế của lực lượng lao động.
Một công ty có thể thực hiện được việc “dịch thuật” này rất khó bị sao chép, và việc dịch thuật này sẽ không bao giờ kết thúc. Việc tích hợp và duy trì sẽ tiếp tục kéo dài cùng với mối quan hệ khách hàng. Những đội ngũ chiến thắng trong việc này là những đội ngũ đặt các kỹ sư chuyên sâu lĩnh vực và công cụ ngay bên cạnh khách hàng.
Ví dụ, tại một công ty luật danh tiếng hàng đầu, riêng mảng sáp nhập và mua lại đã có gần 1.000 giao dịch mỗi năm. Bạn không thể để hàng trăm trợ lý luật sư tải riêng lẻ tài liệu khách hàng xuống máy tính để bàn, sau đó giao cho một Agent chung để đọc toàn bộ. Lý do bảo mật đã không cho phép điều này, chưa kể còn có hơn chục vấn đề khác. Ngay cả khi có thể làm vậy, bạn cũng chỉ học được những mảnh ghép rời rạc: một trợ lý sửa một chút mỗi lần, không ai có thể thấy toàn bộ quy trình của một giao dịch diễn ra như thế nào.
Tín hiệu thực sự quan trọng nằm ở cấp độ giao dịch. Một giao dịch có hình dạng riêng của nó: đối với sáp nhập và mua lại, đó là NDA, danh sách điều khoản, điều tra kỹ lưỡng, thỏa thuận mua, các tài liệu phụ trợ, danh sách giao hàng; đối với tranh chấp sở hữu trí tuệ, đó là đơn yêu cầu, khám phá chứng cứ, công nghệ hiện có, thêm các đơn yêu cầu. Mỗi lĩnh vực kinh doanh đều có cấu trúc riêng, luật sư và công cụ không thể thay thế tùy ý.
Vấn đề thực sự mà văn phòng luật sư này cần giải quyết lại ở cấp độ cao hơn: làm thế nào để vận hành đồng thời mọi lĩnh vực kinh doanh, giống như các đối tác cấp cao đồng thời quản lý hàng trăm nhiệm vụ, đồng thời thu hút các vụ án mới và đào tạo luật sư thực tập. Việc cải tạo một công ty như vậy không phải là một vấn đề đơn lẻ mà bạn có thể đưa ra các nhiệm vụ đánh giá. Nó đòi hỏi một người điều hành xử lý nó như chơi “bóng chày dữ liệu”: các mục tiêu trung gian cực kỳ mơ hồ, phản hồi không đầy đủ, chu kỳ kéo dài, và môi trường bản thân cũng không bao giờ đứng yên.
Tiếc là các giá trị không thể đọc được cũng rất khó bán, vì cùng lý do khiến chúng khó trở thành hàng hóa: một công ty không thể đánh giá từ bên ngoài liệu AI có thực sự cải tạo hoạt động của nó như các bài kiểm tra hiệu suất cho thấy hay không. Do đó, những công ty mạnh nhất sẽ ngừng nỗ lực chứng minh bản thân với bên ngoài, mà thay vào đó sẽ tiến vào bên trong khách hàng, sau đó định giá dựa trên kết quả.
Sierra chỉ thu phí khi Agent của nó giải quyết được vấn đề của khách hàng; nếu vấn đề được chuyển cho con người, nó sẽ không thu phí. Do đó, giá cả tự thân trở thành cơ chế đánh giá. Và điều này hoạt động được là vì Sierra sở hữu quyền định nghĩa “đã giải quyết”. Devin của Cognition đã làm điều tương tự trong lĩnh vực phần mềm, đưa ra “cam kết hiệu suất”. Chỉ khi bạn được tin tưởng bước vào bên trong một hệ thống, bạn mới đủ tư cách để đưa ra cam kết như vậy về kết quả.
Ngay cả ở cấp độ cung cấp dịch vụ token—nơi mọi người thường gọi là hàng hóa thuần túy—nó cũng không hoạt động như một hàng hóa. Các công ty bản địa AI tốt nhất sẽ tập trung dịch vụ vào một hoặc hai nhà cung cấp, chẳng hạn như Baseten hoặc Fireworks. Vì chi phí mỗi token sẽ dần trở nên hàng hóa theo thời gian, nhưng độ tin cậy dưới lưu lượng thực tế và khả năng tiếp cận ổn định các nguồn tính toán khan hiếm thì không trở thành hàng hóa. Việc lựa chọn nơi cung cấp dịch vụ suy luận và việc lựa chọn mô hình nào để sử dụng là hai quyết định khác nhau. Phần duy nhất thực sự giống hàng hóa trong suy luận là giá cả.
Một phản biện phổ biến là: Phòng thí nghiệm là nhà cung cấp của bạn, tại sao nó lại không bán sản phẩm bên thứ nhất của chính mình với giá dưới chi phí để nhấn chìm bạn? Hoặc đơn giản là thu hồi quyền truy cập API của bạn và tự mình chiếm lấy thị trường này? Đây mới là phiên bản thực sự của cảm giác tuyệt vọng. Nhưng điều này chỉ đúng khi mô hình là một trò chơi một người.
Rõ ràng, sự thật không phải như vậy. Lớp mô hình giống như một cuộc thi sinh tử giữa ba rưỡi người chơi, bên cạnh đó là một nhóm người chơi quốc tế đang tụt hậu khoảng sáu tháng trong quá trình huấn luyện, cùng một liên đoàn phát triển lớn gấp năm lần so với năm ngoái. Khách hàng mong muốn có sự cạnh tranh giữa các nhà cung cấp của họ, trong khi các phòng thí nghiệm muốn thị phần hơn là muốn tiêu diệt bất kỳ ứng dụng cụ thể nào.
Bạn có thể thấy điều này trong thị trường cạnh tranh trực tiếp tại phòng thí nghiệm. Trong các ngữ cảnh trò chuyện người dùng, mô hình tốt nhất chưa bao giờ đơn giản là giành trọn toàn bộ thị phần. ChatGPT đã duy trì vị trí dẫn đầu trong nhiều năm cạnh tranh thực tế; phần thị phần mà nó mất đi hiện nay đang chuyển sang Gemini, do khả năng phân phối thông qua Android và tìm kiếm, chứ không phải vì mô hình tốt hơn. Anthropic hiện được đánh giá là sở hữu mô hình tốt nhất trên các thị trường dự đoán và trong không khí internet, nhưng nó gần như không phải là người chơi chính trong trò chuyện người dùng, mà đã xây dựng doanh nghiệp của mình trong các bối cảnh doanh nghiệp và lập trình.
Nếu một mô hình tốt hơn không thể lấy đi người dùng của đối thủ trong các ứng dụng cốt lõi nhất, thì nó cũng sẽ không dễ dàng chiếm lĩnh hệ thống hồ sơ bệnh án của một bệnh viện hay hệ thống trách nhiệm của một ngân hàng thông qua tích hợp. Hôm nay, công chúng lựa chọn sản phẩm không chỉ dựa vào khả năng mã hóa. Nếu lớp mô hình tiên tiến vẫn còn chật chội, thì lớp ứng dụng phía trên nó sẽ có giá trị.
Nếu một công việc không thể được đánh giá từ bên ngoài, thì bên trong phải có người quyết định thế nào mới là câu trả lời tốt. Và chính quyết định đó mới là toàn bộ trò chơi. Khi đủ nhiều quyết định như vậy được ghi lại, chúng sẽ trở thành benchmark. Harvey đã công bố benchmark trong lĩnh vực pháp lý, Sierra đã công bố benchmark cho các Agent giọng nói. Bạn có quyền định nghĩa “tốt” trong một lĩnh vực nào đó vì lĩnh vực đó đã đang sử dụng bạn. Và những công ty này đã giành được quyền lực đó thông qua những cuộc đấu tranh đầy khó khăn trong quá trình áp dụng thực tế.
Đánh giá thực sự quyết định dòng tiền là riêng tư và được hình thành từng công ty: công ty này sẽ chấp nhận gì là công việc tốt trong vấn đề này. Và điều này vẫn chưa hoàn thành, vì độ sâu của pháp lý vượt xa bất kỳ bài kiểm tra công khai nào. OpenEvidence đang tích lũy những câu trả lời lâm sàng an toàn là gì.
Tất cả những điều này thực chất không phải là “đo lường” theo nghĩa thực sự, mà là về những phán xét về cái gì là thật, cái gì là tốt. Những phán xét này được ghi lại, cho đến khi trở thành tiêu chuẩn mà tất cả những người khác đều phải chấp nhận để đo lường. Dù các phòng thí nghiệm mô hình cơ sở trở nên thông minh đến đâu, chúng cũng không thể tự tạo ra những tiêu chuẩn này, vì vị thế này chỉ tồn tại trong nội bộ lĩnh vực.
Quyền uy này thường rơi vào nơi mà nó vốn đã tồn tại. Các luật sư giàu kinh nghiệm viết ra các chuẩn mực pháp lý. Bác sĩ mới là người xác định câu trả lời lâm sàng an toàn. Công ty đã có mối quan hệ với khách hàng mới là người quyết định “đã được giải quyết” có nghĩa là gì.
Biên giới hấp thụ sẽ tiếp tục mở rộng, vì chúng ta sẽ không ngừng học cách đo lường thêm nhiều công việc, và những gì có thể đo lường được sẽ bị nuốt chửng. Mặt đất không thể huấn luyện được sẽ thu hẹp dần dưới chân những người đứng trên đó, vì vậy bạn không thể dừng lại khi tìm được một vị trí có thể phòng thủ. Bạn phải không ngừng tiến về những nơi vẫn chưa thể đánh giá được, và liên tục tái bảo hiểm, tái đánh giá rủi ro.
Trên một nhiệm vụ hẹp, với dữ liệu riêng và hệ thống đánh giá của chính bạn, bạn có thể huấn luyện đến mức tiên tiến và đánh bại các mô hình tổng quát trong các tình huống then chốt; mô hình chuyên dụng này sẽ trở thành một phần của hàng rào bảo vệ. Mặt khác, nếu bạn cạnh tranh trên năng lực của các mô hình tổng quát, đó sẽ là một cuộc chiến vốn, và bạn sẽ thua những người sở hữu nhiều năng lực tính toán nhất. Đây cũng chính là bẫy mà các công ty chỉ có quyền truy cập bề mặt và nhiệm vụ có tính dễ đọc cao dễ dàng rơi vào.
Khi một công ty quyết định đào tạo mô hình vượt trội hơn các mô hình tiên tiến trên một phạm vi rộng các nhiệm vụ chung để tồn tại, kết quả thường đã được quyết định bởi quy mô trung tâm dữ liệu. Kết cục cuối cùng thường không phải là sự xuất hiện của một nhà vô địch độc lập, mà là bị mua lại bởi một người chơi có đủ năng lực tính toán.
Tất cả những điều trên đều là phòng thủ. Khó hơn là tấn công: trước tiên phải quyết định chính xác nên xây dựng gì. Đó chính là điều tôi đã tìm kiếm suốt năm nay, và tôi chỉ tìm thấy khoảng ba lần. Mô hình không thể giúp bạn trong việc này. Bạn chỉ nó đi đâu, nó sẽ làm điều đó; nhưng nó không thể nói cho bạn biết điều gì đáng để chỉ đến. Bạn không thể tạo bài kiểm tra chuẩn cho việc này, do đó cũng không thể huấn luyện nó.
Đó cũng là lý do tại sao các ông lớn hiện tại sẽ không chiếm đoạt tất cả: chúng sẽ giữ vững vùng đất mà mình đã sở hữu, và thứ tiếp theo sẽ đến từ người phát hiện ra ứng dụng của nó trước những người khác. Có lẽ, ý định là một đầu vào khan hiếm hơn cả sức mạnh tính toán.
Cảm giác tuyệt vọng này một nửa là đúng. Lớp vỏ mỏng thực sự đang bị hấp thụ, và nhiều thứ trông giống như công ty hôm nay thực sự chỉ là lớp vỏ mỏng. Nhưng phán đoán của nó về “sau khi hấp thụ thì còn lại gì” là sai. Cơ chế thì rõ ràng, nhưng điểm kết thúc thì không.
Hướng tôi sẵn sàng đặt cược là: trí tuệ sẽ tiếp tục trở nên rẻ hơn, trong khi giá trị sẽ tiếp tục trôi dạt đến những nơi mà vài mô hình không thể với tới. Những thứ không thể huấn luyện, là những thứ mang giá trị lịch sử.
Vì vậy, hãy bước vào một trong những lĩnh vực như vậy, thực hiện những công việc dịch thuật không hề rực rỡ, và bắt đầu ghi lại định nghĩa của từ “tốt” ở đó. Vì luôn sẽ có người làm điều đó. Điểm chuẩn được trích dẫn nhiều nhất năm nay thực chất là một bản đồ lãnh thổ sắp trở nên vô giá trị, và cũng là một thông báo: thông báo cho một số người rằng họ sắp mất quyền định nghĩa thế nào là “tốt”.
[Liên kết gốc]
BlockBeats
