Dữ liệu sinh học thiếu giao diện máy tính; việc thêm lớp xử lý có thể tăng đáng kể độ chính xác của AI.

Tác giả bài viết, nguồn: Newzhong

[Giới thiệu] Mã hóa AI hàng đầu tiến bộ không ngừng, nhưng khi áp dụng vào lĩnh vực sinh học lại liên tục gặp sự cố—không phải do mô hình không đủ thông minh, mà do cơ sở dữ liệu khoa học đến nay vẫn chỉ được thiết kế để con người nhấp chuột.

Mô hình mạnh nhất lại ngã ở nơi không nên ngã nhất: đếm số?

Gần đây, Anthropic đã đăng một bài blog khoa học có tựa đề “Paving the way for agents in biology”, trong đó một loạt con số khiến người ta rùng mình.

https://www.anthropic.com/research/agents-in-biology

Các nhà nghiên cứu yêu cầu một số tác nhân trí tuệ khoa học mạnh nhất hiện nay (Claude, GPT, Biomni, Edison Analysis) thực hiện một việc nghe có vẻ cực kỳ đơn giản: đếm chính xác số lượng chuỗi virus đáp ứng điều kiện trong cơ sở dữ liệu NCBI Virus.

As a result, none of them could answer consistently correctly.

Điều còn đáng ngạc nhiên hơn là, cùng một câu hỏi, cùng một mô hình, cùng một đoạn hướng dẫn, hỏi ba lần thì câu trả lời có thể chênh lệch tới vài chục lần.

Claude Sonnet 4 tìm kiếm một chuỗi virus Ebola, lần đầu trả về 106 kết quả, lần thứ hai 15 kết quả, lần thứ ba 5 kết quả. Trong khi đó, câu trả lời chính xác là 266 kết quả.

Liệu AI có thực sự không thể làm sinh học không?

Đằng sau điều này là một sự thật khiến lòng đau: trong lĩnh vực khoa học, điểm yếu thực sự của các tác nhân không phải là suy luận, mà là chúng hoàn toàn không có một con đường ổn định, có thể lặp lại và máy móc có thể đi theo để trích xuất dữ liệu một cách chính xác.

Khi không có lớp tìm kiếm chuyên dụng, tỷ lệ chính xác trung bình của các hệ thống khác nhau dao động từ 16,9% đến 91,3%. Dù các mô hình mới đã có tiến bộ, nhưng những lỗi còn sót lại vẫn mang tính chất tử vong: vì ngưỡng đạt yêu cầu của loại nhiệm vụ này thực chất là 100%.

Thiếu một bản ghi có thể khiến một bộ xét nghiệm chẩn đoán trông như thể bao phủ được tất cả các chủng lưu hành, hoặc khiến thời điểm khởi phát dịch được ước tính sai vài tuần.

Vậy, vấn đề nằm ở đâu?

Thành được xây cho xe ngựa, không chạy được ô tô

Anthropic đã đưa ra một phép ẩn dụ rất sinh động: sử dụng tác nhân để chạy cơ sở dữ liệu sinh học giống như lái xe qua một thành phố cổ được xây dựng trước khi có ô tô.

Các con phố có thể thanh lịch và tinh tế, nhưng toàn bộ là những con hẻm hẹp và góc cua dành cho xe ngựa. Các cơ sở dữ liệu rời rạc, hàng trăm định dạng tệp khác nhau và các script truy vấn dùng một lần đều là một phần của thành phố cổ này. Bạn có thể thêm vào một vài biển báo giao thông, xây vài bãi đỗ xe, mở rộng một vài con đường, nhưng bố cục đô thị cốt lõi từ đầu đã không được thiết kế cho ô tô.

Thế giới phần mềm thì ngược lại. Nó là một thành phố mới được xây dựng dành cho xe cộ: những con đường nhựa phẳng lỳ, làn đường rõ ràng, đèn tín hiệu chuẩn hóa. Hệ thống kiểm soát phiên bản, API có tài liệu đầy đủ, trình quản lý gói — toàn bộ hệ thống này được thiết kế sẵn để giúp bạn di chuyển nhanh chóng từ điểm xuất phát đến điểm đến, dành riêng cho “xe” (tức là tác nhân).

Vì vậy, các tác nhân mã hóa tiến bộ không ngừng, trong khi các tác nhân sinh học vẫn xoay vòng tại chỗ.

Lĩnh vực phần mềm cung cấp các luồng công việc số có cấu trúc và giao diện đáng tin cậy, một vấn đề trên GitHub, tạo patch, chạy thử nghiệm và xác minh ngay tại chỗ. Lĩnh vực sinh học cung cấp cơ sở hạ tầng dễ tổn thương, đa dạng và phụ thuộc vào quy trình cụ thể, gần như không có tín hiệu phần thưởng đơn giản, có thể xác minh và có ý nghĩa.

Đối với NCBI Virus, hãy làm rõ hơn: về bản chất, đây là một cổng web. Trên trang web, bạn chọn các điều kiện: vật chủ là người, địa điểm lấy mẫu ở châu Phi, độ dài chuỗi lớn hơn một giá trị nhất định, loại trừ các mẫu đã qua truyền qua phòng thí nghiệm, thì hệ thống nền của trang web mới chuyển các điều kiện này thành truy vấn đến nhiều cơ sở dữ liệu cơ sở (GenBank, RefSeq, hệ thống INSDC), sau đó lọc và hiển thị kết quả cho bạn.

Trang chủ cổng thông tin NCBI Virus: Để tìm kiếm chuỗi virus, trước tiên bạn phải chọn tùy chọn trên trang web, nhập từ khóa và nhấp vào bộ lọc—toàn bộ tương tác này được thiết kế cho con người và khó tái sử dụng trực tiếp bởi máy móc.

Lôgic lọc lớn của nó được viết ở cấp độ trang web, không được mở thành một giao diện chương trình sạch sẽ.

Đối với các nhà virus học người, đây chỉ là vài cú nhấp chuột trên trình duyệt. Đối với máy móc (đại lý), đây thực sự là thảm họa. Bởi vì các đại lý chỉ có thể trực tiếp gọi các API gốc (REST, Datasets, E-utilities), và các API này không phơi bày ngữ nghĩa lọc giống hệt như trên trang web.

Một ví dụ cụ thể:

Trên trang web, “Mẫu lấy từ châu Phi” là một hộp chọn, đằng sau cần đồng bộ các trường siêu dữ liệu của hàng chục quốc gia, đồng thời xử lý các bản ghi có cách viết trường không nhất quán; điều kiện như “chứa glycoprotein bề mặt” không thể xác định chỉ dựa trên chuỗi, mà cần truy cập GenBank để lấy về và so sánh ghi chú gen/protein của từng bản ghi.

Các bước ẩn này, trang web đã thực hiện cho bạn, nhưng API gốc không thực hiện cho bạn.

Do đó, tác nhân chỉ có thể tự “đoán” để lắp lại logic này. Nếu lắp thiếu thì sẽ tính thiếu (bỏ sót chuỗi của một quốc gia châu Phi), nếu lắp sai thì sẽ tính thừa (hiểu sai điều kiện lọc).

Đây chính là nguyên nhân cốt lõi khiến Sonnet 4 trả lời ba câu hỏi cùng chủ đề 106, 15, 5 khác nhau: mỗi lần tái tạo, logic lọc của nó đều không hoàn toàn giống nhau.

gget virus cần giải quyết chính là việc này: tái hiện lại hành vi lọc ẩn trong giao diện web thành một hệ thống lập trình ổn định, có thể lặp lại và có thể gọi trực tiếp bởi máy móc, để các tác nhân thông minh không cần phải đoán lại mỗi lần.

Nhập sai một chuỗi, điểm khởi đầu đại dịch bị lệch vài tuần

Nếu bạn cho rằng “đếm nhầm vài chuỗi” là không vấn đề, thì buổi trực tiếp dưới đây sẽ thay đổi quan điểm của bạn.

Tháng 5 năm 2026, Congo (DRC) bùng phát dịch Ebola chủng Bundibugyo. Ngày 14 tháng 5, INRB ở Kinshasa đã phân tích 13 mẫu máu, và ngày hôm sau xác nhận 8 trường hợp. Đến ngày 29 tháng 5, WHO báo cáo đã có hơn 1.000 trường hợp được xác nhận và nghi ngờ, với hơn 200 ca tử vong.

Các nhà nghiên cứu đối mặt với ba câu hỏi sống còn: Đợt virus này khác biệt bao nhiêu so với các đợt trước? Các xét nghiệm hiện tại vẫn phát hiện được không? Các phương pháp điều trị hiện tại vẫn hiệu quả không?

Để trả lời những câu hỏi này, bạn phải so sánh từng bộ gen mới với các bộ gen Ebola lịch sử trong NCBI Virus. Và bước đầu tiên của bộ phân tích này chính là nhấn thủ công vào trang web, lặp lại thủ công một chuỗi các điều kiện lọc phức tạp, rồi cầu mong tập dữ liệu được truy xuất là đầy đủ và chính xác.

Các nhà nghiên cứu sử dụng truy vấn Ebola trước đó để yêu cầu Sonnet 4 trích xuất dữ liệu và xây dựng cây phát sinh loài, nhằm ước tính thời gian tổ tiên chung gần nhất (TMRCA). Đây là một đại lượng then chốt để suy luận thời điểm khởi nguồn của một đợt dịch.

Bộ dữ liệu được hiệu đính thủ công, giá trị TMRCA được đưa ra là tháng 1 năm 2014, phù hợp với các báo cáo trước đó.

Ba bộ dữ liệu do Sonnet 4 tạo ra, hai bộ rõ ràng bị thiếu sót. Một bộ đã kéo thời gian nguồn gốc được suy ra từ năm 2014 trở về năm 1922, vô cớ cộng thêm chín mươi năm. Bộ còn lại trông có vẻ hợp lý nhưng lại bỏ sót chuỗi của Guinea, lặng lẽ dịch chuyển thời gian nguồn gốc sang tháng 4 năm 2014, từ đó làm thay đổi toàn bộ dòng thời gian.

Cây phát sinh loài Ebola kiểu Zaire: dữ liệu được hiệu chỉnh thủ công ở góc trên bên trái, Run 1 đến 3 là kết quả tìm kiếm của Sonnet 4. Đường nét đứt màu đỏ đánh dấu TMRCA, màu xám đại diện cho thông tin quốc gia bị thiếu hoặc sai.

Cũng tương tự với phân tích liệu pháp kháng thể. Các nhà nghiên cứu muốn xem các vị trí mà hai liệu pháp kháng thể Ebola là maftivimab và MBP134 nhắm đến, có từng xuất hiện đột biến nào trong quá khứ hay không, từ đó đánh giá liệu liệu pháp này có còn theo kịp sự tiến hóa của virus hay không. Kết quả là Sonnet 4 chạy ba lần và đưa ra ba bức tranh đột biến hoàn toàn khác nhau.

Phân bố đột biến protein glycoprotein Ebola kiểu Zaire, màu đỏ càng đậm thì tần suất càng cao, các hình cầu là vị trí liên kết của kháng thể maftivimab và MBP134. Bên trái nhất là dữ liệu được hiệu chỉnh thủ công, kết quả ba lần tìm kiếm của Sonnet 4 (Run 1 đến 3) đều khác nhau.

Mô hình thất bại rất rõ ràng: dừng lại giữa chừng khi mở rộng tập kết quả sẽ bỏ sót số liệu; sử dụng điều kiện lọc sai sẽ dẫn đến vượt số. Các bản ghi về virus như cúm A, HIV-1 có lượng dữ liệu khổng lồ, độ lệch lớn nhất. Khi điều kiện lọc vượt quá ba hoặc bốn điều kiện song song, hiệu suất sẽ sụp đổ ngay lập tức.

Sai một cách tự tin là loại sai lầm đáng sợ nhất trong nghiên cứu khoa học.

Đào một hầm chuyên dụng cho máy móc đến thành phố cũ

Vậy thì sửa như thế nào?

Các nhà nghiên cứu của Anthropic và NCBI đã hợp tác tạo ra một thứ gọi là gget virus.

Nó không phải là một “plugin AI” sáo rỗng khác, mà là một lớp truy xuất xác định. Về bản chất, nó chuyển đổi các hành vi lọc trên giao diện web của NCBI Virus thành một hệ thống lập trình có thể tái tạo được.

Về mặt kỹ thuật, nó phối hợp các hệ thống nền tảng như REST, Datasets và E-utilities để tự động xác định những bộ lọc nào có thể sử dụng API và những bộ lọc nào cần kiểm tra tại chỗ. Nó xử lý việc lấy dữ liệu theo lô, đảm bảo các tập kết quả lớn được tải đầy đủ thay vì bị cắt ngang giữa chừng.

Nó tải về chuỗi nucleotide virus và siêu dữ liệu liên kết từ hệ thống INSDC (NCBI, ENA, DDBJ), đầu ra ở các định dạng mà cả con người và máy tính đều có thể đọc được như FASTA, CSV, JSONL, kèm theo nhật ký chi tiết để bạn hiểu rõ kết quả này được tính toán như thế nào. Đối với các truy vấn thường xuyên, nó đã nén lượng dữ liệu truyền tải hơn 98%.

Hiệu quả tức thì.

Sau khi kết nối với gget virus, độ chính xác của tất cả các hệ thống được kiểm tra đều tăng lên trên 90,0%, GPT-5.5 tăng lên 99,7%. Sự dao động ngẫu nhiên giữa các lần chạy gần như biến mất, độ ổn định tăng lên từ 0,92 đến 1,00.

Điều tuyệt vời nhất là khoảng cách giữa các mô hình cũng đã được thu hẹp đáng kể.

Tỷ lệ chính xác của các tác nhân trên nền tảng VirBench: sau khi tích hợp gget virus (tối), tất cả đều vượt quá 90%, bên phải nhất là gget virus chạy độc lập.

Sau khi thêm lớp công cụ xác định, việc bạn sử dụng mô hình nào trở nên không quá quan trọng.

Đây mới là điều đáng chú ý thực sự.

Việc xây dựng bộ dữ liệu đáng tin cậy không nên phụ thuộc vào việc bạn có mua được mô hình mới nhất và đắt nhất hay không, cũng không nên phụ thuộc vào việc bạn tình cờ biết mô hình nào phù hợp với cơ sở dữ liệu nào. Một mô hình rẻ hơn nhưng đi kèm công cụ phù hợp vẫn có thể ổn định.

Còn một chi tiết thú vị khác: trong 360 lần chạy, GPT-5.5 đã tự tìm ra và sử dụng gget virus mà không cần bất kỳ hướng dẫn nào, và đó là lần duy nhất nó trả lời đúng câu hỏi đó.

Giá trị của công cụ đã được chính mô hình bỏ phiếu bằng cách sử dụng nó.

Thực sự, chìa khóa chiến thắng nằm ở việc chuyển từ mô hình sang nền tảng

Hãy mở rộng tầm nhìn của bạn, sự việc này không chỉ đơn thuần về virus.

Sự ma sát tương tự xuất hiện trong mọi môi trường được thiết kế vì con người, chứ không phải vì các tác nhân.

Vài tháng trước, Karpathy nói về phần mềm trong thời đại AI, phàn nàn rằng khi anh ấy dùng vibe coding để tạo một ứng dụng web nhỏ, việc đưa nó lên trực tuyến (đăng nhập, thanh toán, triển khai) lại tốn hết một tuần chỉ để liên tục nhấp chuột trong trình duyệt. Kết luận của anh ấy là: “Viết mã là phần dễ nhất.”

Slide bài nói của Karpathy “Docs for people”: Tài liệu cấu hình cho các dịch vụ như Vercel, Clerk đều được thiết kế dành cho con người với hướng dẫn “bấm vào đây, điền vào đó”, không thể gọi trực tiếp bởi LLM.

Sau khi nghe Karpathy than phiền, các nhà sinh học có lẽ sẽ rất đồng cảm: nỗi đau này, họ có thể đã chịu đựng trong nhiều năm.

gget virus không phải là trường hợp duy nhất; cùng đang xây dựng “công cụ ngữ cảnh” này còn có ToolUniverse, Robin, Biomni và một số tác nhân sinh học y tế khác.

Vấn đề nằm ở chỗ: sự xác định nên được đặt ở tầng nào và nên xây dựng như thế nào.

Tất nhiên, cũng sẽ có người hỏi: Mô hình tiến bộ nhanh đến vậy, nếu một ngày nào đó tác nhân trở nên mạnh đến mức có thể tự mình xuyên qua cổng hỗn loạn, căn chỉnh ID, lật trang chính xác, tự sửa lỗi, thì những thứ như "giá đỡ" như gget virus có sẽ lập tức trở về không?

Có thể. Nhưng câu trả lời của Anthropic là: Ngay cả khi tác nhân có thể làm được, điều đó không có nghĩa là mỗi lần đều nên để nó tự sáng tạo lại từ đầu.

Một mô hình có thể tự mình xử lý quy trình lấy dữ liệu hỗn loạn này có thể quá đắt, quá chậm, quá khó kiểm toán và quá khó tin cậy để hỗ trợ nghiên cứu hàng ngày.

Hơn nữa, dù hệ thống scaffolding cuối cùng sẽ trở nên lỗi thời, bài học từ cơ sở dữ liệu sinh học vẫn còn nguyên giá trị: ngay từ bây giờ, chúng ta phải coi các tác nhân như người dùng quy mô lớn và xây dựng chúng ngay từ đầu để hỗ trợ việc gọi lớn.

表面上看，这场竞赛是比谁的模型更聪明；再深入一层，比的是谁的地基更适合机器奔跑。

Chúng ta muốn mô hình tự do tưởng tượng khi đưa ra giả thuyết và thiết kế thí nghiệm. Nhưng lớp nền dưới cùng của nó: các trình nhận dạng gen, schema dữ liệu, logic truy vấn, hệ tọa độ, các quy ước siêu dữ liệu — phải tuyệt đối đáng tin cậy và nhàm chán.

Đường cong mô hình vẫn đang tăng lên.

Nhưng chìa khóa thực sự của đợt này có lẽ không nằm ở các mô hình lớn trên đám mây, mà nằm ở lớp hạ tầng dữ liệu bên dưới – nơi không ai muốn sửa chữa, nhưng lại quyết định thành bại.

Claude tính sai nguồn gốc virus đến 90 năm do hạn chế của giao diện web

Thành được xây cho xe ngựa, không chạy được ô tô

Nhập sai một chuỗi, điểm khởi đầu đại dịch bị lệch vài tuần

Đào một hầm chuyên dụng cho máy móc đến thành phố cũ

Thực sự, chìa khóa chiến thắng nằm ở việc chuyển từ mô hình sang nền tảng