Biyolojik bilim verilerinde makine arayüzü eksik; işleme katmanı AI doğruluğunu büyük ölçüde artırabilir.

Yazı yazarı, kaynak: Yeni Zihin

【Giriş】Üst düzey AI kodlama gün geçtikçe ilerliyor, ancak biyoloji alanında sürekli hata yapıyor; bu, modelin yeterince akıllı olmaması değil, bilimsel veritabanlarının hâlâ yalnızca insanların fare tıklamaları için oluşturulmuş olması.

En güçlü model, en az beklenen yerde düştü: saymada?

Son zamanlarda Anthropic, "Biyojik varlıklar için yol açmak" adlı bir bilimsel blog gönderisi yayınladı ve bu gönderideki bir dizi sayı korkutucu geldi.

https://www.anthropic.com/research/agents-in-biology

Araştırmacılar, mevcut en güçlü bilimsel akıllı sistemlerden (Claude, GPT, Biomni, Edison Analysis) NCBI Virus veritabanından uygun koşullara sahip virüs dizilerinin tam olarak kaç adet olduğunu saymalarını istediler.

Sonuç olarak, hiçbiri sabit bir şekilde doğru cevap veremedi.

Daha da absürd olan, aynı soru, aynı model ve aynı uyarı metniyle üç kez sorulduğunda cevaplar onlarca kat farklı olabiliyor.

Claude Sonnet 4, bir Ebola virüs dizilişi sorgusunu ilk kez 106 sonuçla, ikinci kez 15 sonuçla, üçüncü kez 5 sonuçla döndürdü. Ancak doğru cevap 266'dır.

Yapay zekâ'nın biyolojiyle uğraşması gerçekten mümkün mü değil mi?

Bu, bilimsel alanda agentlerin gerçek zayıflığının akıl yürütme değil, verileri doğru bir şekilde çıkarmak için kararlı, tekrarlanabilir ve makineye uygun bir yolun tamamen olmaması gerçeğidir.

Özel bir arama katmanı olmadan, sistemlerin ortalama doğruluk oranı %16,9'dan %91,3'e kadar değişiyor; yeni modellerde ilerleme olsa da, kalan hatalar hâlâ ölümcül: çünkü bu tür görevlerin geçme sınırı aslında %100.

Bir kayıt eksik olabilir, bu da bir teşhis reajentinin tüm dolaşımdaki virüs türlerini kapsıyor gibi görünmesine ya da bir salgının başlangıcının birkaç hafta yanlış hesaplanmasına neden olabilir.

Peki, sorun tam olarak nerede?

Araba için yapılmamış bir araba yolu

Anthropic, veritabanlarını çalıştırmak için agenleri kullanmanın, arabaların bulunmadığı dönemde inşa edilmiş bir şehirde araba sürmeye benzediğini özellikle açıklayıcı bir benzetmeyle ifade etti.

Sokaklar belki de zarif ve dikkatli tasarlanmış olsa da, hepsi araba için değil, at arabaları için tasarlanmış dar caddeler ve keskin virajlardan oluşuyor. Dağınık veritabanları, garip dosya formatları, tek kullanımlık arama betikleri, bu eski şehrin bir parçası. Buna trafik işaretleri ekleyebilir, birkaç otopark açabilir, birkaç yolu genişletebilirsiniz, ancak temel şehir düzeni, baştan beri arabalar için değil.

Yazılım dünyası tam tersidir. Bu, arabalar için inşa edilmiş yeni bir şehirdir: düzgün asfalt yollar, net şeritler, standartlaştırılmış ışıklar. Sürüm kontrolü, iyi belgelenmiş API'ler, paket yöneticileri—başlangıçtan hedefe hızlıca ulaşmanızı sağlayan, doğuştan "araba" (yani ajan) için hazırlanmış bir sistem bütünü.

Bu nedenle kod akıllı varlıkları gün geçtikçe ilerlerken, biyolojik akıllı varlıklar yerinde dönmeye devam ediyor.

Yazılım alanında yapılandırılmış sayısal iş akışları ve güvenilir arayüzler verilir; bir GitHub sorunu, bir tamir oluşturur, testleri çalıştırır ve anında doğrular. Biyoloji alanında ise kırılgan, heterojen ve belirli süreçlere bağımlı altyapılar verilir; basit, doğrulanabilir ve anlamlı ödül sinyalleri neredeyse yoktur.

NCBI Virus'e özel olarak, bu bir web portalıdır. Web sitesindeki koşulları seçerseniz: konakçı insan, örnek alma yeri Afrika, dizi uzunluğu belirli bir değerin üzerinde, laboratuvar geçiş örnekleri hariç tutulur; site arka planı bu koşulları altta yatan birçok veritabanına (GenBank, RefSeq, INSDC sistemi) dönüştürür ve sonuçları size filtreler.

NCBI Virüs portalının ana sayfası: Virüs dizilerini aramak için önce web sayfasında seçenekleri seçmek, anahtar kelimeleri yazmak ve filtrelemek gerekir; bu tüm etkileşim, insanlar için tasarlanmıştır ve makine tarafından doğrudan kullanılamaz.

Büyük miktarda filtre mantığı, web sayfası katmanında yazılmıştır ve temiz bir program arayüzü olarak dışa açılmamıştır.

İnsan virüsologları için bu, sadece bir tarayıcıda birkaç tıklamaktır. Makineler (agente) için ise bu tamamen bir felaket. Çünkü agente'ler doğrudan erişebildikleri temel API'lerdir (REST, Datasets, E-utilities), ve bu API'ler web sayfasıyla tamamen aynı filtre anlamlarını ortaya çıkarmaz.

Bir örnek verelim:

Web sayfasında "Örnek alma yerleri Afrika'da" bir onay kutusudur; arka planda onlarca ülkenin meta veri alanlarının senkronizasyonu ve bu alanların tutarsız biçimde yazıldığı kayıtların işlenmesi gerekmektedir. "Yüzey glikoproteini içeriyor" gibi bir koşul, sadece dizilimle değerlendirilemez; her kaydın gen/protein notasyonlarını almak için GenBank'a geri dönüp karşılaştırma yapılmalıdır.

Bu gizli adımları web sitesi sizin için yapıyor, ancak orijinal API yapmıyor.

Bu nedenle agent, bu mantığı kendi başına tekrar birleştirmek zorunda kaldı. Bir şeyi kaçırdıysa daha az hesapladı (Afrika’daki bir ülkenin dizisini atladı), yanlış birleştirdiysa daha fazla hesapladı (filtreleme koşulunu yanlış anladı).

Bu, Sonnet 4'ün aynı konuda üç cevap vermesinin (106, 15, 5) temel nedenidir: her yeniden oluşturulduğunda filtre mantığı tamamen aynı değildir.

gget virüsünün çözmeye çalıştığı tam olarak bu: web arayüzündeki gizli filtreleme davranışını, kararlı, tekrarlanabilir ve makinenin doğrudan çağırabileceği bir programlı sisteme dönüştürmek, böylece akıllı ajanlar her seferinde tekrar tahmin etmek zorunda kalmaz.

Bir dizgi hatalı sayıldı, pandeminin başlangıcı birkaç hafta kaydı.

Eğer "birkaç diziyi yanlış saymak"ın önemli olmadığını düşünüyorsanız, aşağıdaki canlı gösteri görüşünüzü değiştirecektir.

Mayıs 2026'da Kongo Demokratik Cumhuriyeti'nde Bāndibūjō türü Ebola salgını patlak verdi. 14 Mayıs'ta Kinshasa'daki INRB, 13 kan örneği analiz etti ve bir gün sonra bunların 8'inin pozitif olduğunu doğruladı. 29 Mayıs'a kadar WHO, onaylanmış ve şüpheli vakaların 1.000'i aştığını ve 200'den fazla kişinin öldüğünü bildirdi.

Bilim insanı karşısında üç hayati soru duruyor: Bu virüs, öncekilerden ne kadar farklı? Mevcut teşhis yöntemleri hâlâ tespit edebiliyor mu? Mevcut tedaviler hâlâ etkili mi?

Bu soruları yanıtlamak için yeni genomlarla NCBI Virüs'teki tarihsel Ebola genomlarını tek tek karşılaştırmalısınız. Bu analizin ilk adımı, tamamen web sayfasını elle tıklamak, uzun bir dizi karmaşık filtre koşulunu elle yeniden oluşturmak ve ortaya çıkan veri setinin tam ve doğru olacağını ummak.

Araştırmacılar, önceki Ebola sorgusunu kullanarak Sonnet 4'ten veri çekip filogenetik ağaç oluşturarak "en son ortak ataların zamanı (TMRCA)" hesapladı. Bu, bir salgının ne zaman başladığını tahmin etmek için kritik bir ölçüttür.

Elle doğrulanmış veri kümesine göre TMRCA, önceki raporlarla uyumlu olarak Ocak 2014'tür.

Sonnet 4'ün çıkardığı üç veri setinden ikisi açıkça eksik. Bunlardan biri, hesaplanan köken zamanını 2014'ten 1922'ye geri çekerek, rastgele doksan yıl daha ekledi. Kalanı görünüşte düzgün gibi görünüyordu ancak Gine dizisini atladı ve köken zamanını gizlice Nisan 2014'e taşıdı, böylece zaman çizelgesi değiştirildi.

Zaire tipi Ebola filogenetik ağacı: Sol üstte elle düzeltilmiş veriler, Run 1 ila 3 Sonnet 4 arama sonuçlarıdır. Kırmızı kesikli çizgi TMRCA'yi işaretlemektedir, gri renk eksik veya hatalı ülke bilgilerini temsil eder.

Antikor tedavisi analizi de aynıdır. Araştırmacılar, maftivimab ve MBP134 adlı iki Ebola antikor tedavisinin hedef aldığı bölgelerin geçmişte mutasyon geçip geçmediğini inceleyerek tedavilerin virüsün evrimiyle aynı tempoda ilerleyip ilerleyemeyeceğini belirlemek istemiştir. Sonuçta Sonnet 4, üç tamamen farklı mutasyon senaryosu üretmiştir.

Zaire tipi Ebola glikoproteini mutasyon dağılımı, kırmızı renk ne kadar derinse frekans o kadar yüksek; küreler maftivimab ve MBP134 antikorları bağlanma noktalarıdır. En solda elle düzeltilmiş veriler, Sonnet 4 üç arama (Çalışma 1 ila 3) sonuçları farklıdır.

Hata modu açık: sonuç kümesini genişletirken ara kesitte durursanız sayıları kaçırsınız; filtre koşullarını yanlış kullanırsanız sayılar aşılır. İnfluenza A, HIV-1 gibi kayıtlar çok sayıda virüs içerir ve en büyük sapmaya sahiptir. Filtre koşulları üç veya dörtten fazla paralel olduğunda performans doğrudan çöker.

Yanlış yapmak ve bunu haklı göstermek, bilimsel araştırmada en korkutucu hatalardan biridir.

Eski şehir için bir makine专用 tünel kazın

Peki, nasıl tamir edilir?

Anthropic ve NCBI araştırmacıları, gget virus adlı bir şey oluşturdu.

Bu, sadece başka bir şık bir “AI eklentisi” değil, belirleyici bir arama katmanıdır. Temelde, NCBI Virus web arayüzündeki filtreleme davranışlarını tekrarlanabilir bir programlı sisteme çevirir.

Teknik olarak, REST, Datasets ve E-utilities gibi alt sistemleri yönetir ve hangi filtrelerin API üzerinden yürütülebileceğini, hangilerinin yerel olarak doğrulanması gerektiğini otomatik olarak belirler. Büyük sonuç kümelerinin kesintilere uğramadan tamamen indirilmesini sağlar.

INSDC sistemi (NCBI, ENA, DDBJ)’den virüs nükleotid dizilerini ve bağlantı meta verilerini indirir, FASTA, CSV, JSONL gibi insanlar ve makinelerin anlayabileceği formatlarda çıktı verir ve sonuçların nasıl hesaplandığını açıklayan ayrıntılı bir günlük sunar. Sık yapılan sorgularda veri transfer hacmini %98’den fazla azaltır.

Etkisi hemen görülür.

gget virüsüne bağlandıktan sonra, tüm test edilen sistemlerin doğruluk oranı %90,0'ın üzerine çıktı, GPT-5.5 %99,7'ye ulaştı. Çalışma arasındaki rastgele dalgalanmalar neredeyse tamamen ortadan kalktı ve istikrar %0,92 ile %1,00 arasına yükseldi.

En iyi olan, modeller arasındaki farkın da büyük ölçüde kapatılmasıdır.

VirBench üzerindeki tüm ajanların arama doğruluk oranı: gget virus (koyu) ile entegre edildiğinde tümü %90'ı aştı, en sağda gget virus tek başına çalıştırılmıştır.

Belirginlik aracı katmanı eklendikten sonra hangi modeli kullandığınız önemli değil.

Bu gerçekten dikkat edilmesi gereken nokta.

Güvenilir bir veri seti oluşturmak, en yeni ve en pahalı modeli satın alıp alamamanıza ya da hangi modelin hangi veritabanına en uygun olduğunu bilip bilmemenize bağlı olmamalıdır. Uygun araçlarla düşük maliyetli modeller de aynı şekilde kararlıdır.

Bir başka ilginç detay: 360 seferlik çalışmadan birinde, GPT-5.5, hiçbir ipucu verilmeksizin kendi kendine gget virüsünü bulmuş ve kullanmıştı. Ve o sefer, o soruda tek doğru cevabı vermiş oldu.

Araçların değeri, model kendi kendine oy verdi.

Gerçek zafer anahtarı, modelden temele doğru kaymaktadır.

Daha geniş bir bakış açısıyla bakarsanız, bu olay sadece virüsle ilgili değil.

Aynı sürtünme, her “insanlar için, değil akıllı varlıklar için” tasarlanmış ortamda ortaya çıkar.

Bazı aylar önce Karpathy, AI çağındaki yazılımı anlatırken, kendi vibe coding ile küçük bir web uygulaması yaptığını ve gerçek bir şekilde上线 (giriş, ödeme, dağıtım) yapmak için bir hafta boyunca tamamen tarayıcıda tıklamaya harcadığını eleştirdi. Sonucu şöyle oldu: “Kod yazmak en kolay kısım.”

Karpathy'nin sunumu: "İnsanlar İçin Dokümanlar" – Vercel, Clerk gibi hizmetlerin yapılandırma dokümanları tamamen insanlar için "buraya tıkla, orayı doldur" tarzında; LLM'ler doğrudan kullanamaz.

Karpathy'nin şikayetini duyan biyologlar, bu acıyı yıllardır dayandıkları için büyük ölçüde anlayış gösterebilir.

gget virus yalnızca bir örnek değildir; benzer şekilde bu «bağlam motorunu» kurmuş olanlar arasında ToolUniverse, Robin, Biomni ve diğer biyomedikal akıllı sistemler de yer almaktadır.

Sorun şu: belirginlik tam olarak hangi katmanda olmalı ve nasıl kurulmalı.

Elbette, bazıları şunu sorar: Model bu kadar hızlı ilerliyorsa, bir gün agenter kargaşa kapılarından kendi kendine geçebilir, ID'leri hizalayabilir, sayfaları doğru şekilde çevirebilir, hataları kendi kendine düzeltebilirse, gget virus gibi bu «iskele»ler anında sıfırlanmaz mı?

Mümkün. Ancak Anthropic'in cevabı şuydu: Ajantın yapabilmesi, her seferinde yeniden keşfetmesi gerektiği anlamına gelmez.

Bu karışık veri alma sürecini kendi başına aşabilen bir model, çok pahalı, çok yavaş, çok zor denetlenebilir ve çok güvenilmez olabilir ve günlük bilimsel araştırmaları destekleyemez.

Daha da önemlisi, iskeletlerin nihayetinde eskidiğinde bile biyolojik veritabanlarına verilen ders geçerlidir: Artık agenteri ölçekli kullanıcılar olarak görmeli ve büyük ölçekli çağrılar için baştan itibaren tasarlamalıyız.

Bu yarışmanın yüzeyinde, kimin modelinin daha akıllı olduğu görülür. Bir kat daha aşağıya inildiğinde, kimin temelinin makineye daha uygun olduğu ölçülür.

Modelin varsayımlar üretirken ve deneyler tasararken serbest kalmasını istiyoruz. Ancak alt tabakası: genetik tanımlayıcılar, veri şeması, arama mantığı, koordinat sistemi, meta veri sözleşmeleri, mutlak güvenilir olacak şekilde "can sıkıcı" olmalıdır.

Model eğrisi hâlâ yükselişte.

Ancak bu turun gerçek kritik noktası, belki de bulutta büyük modellerde değil, kimse onarmak istemese de başarının belirlendiği veri altyapısında olacak.

Claude, web arayüzü sınırlamaları nedeniyle virüs kökenini 90 yıl yanlış hesaplıyor

Araba için yapılmamış bir araba yolu

Bir dizgi hatalı sayıldı, pandeminin başlangıcı birkaç hafta kaydı.

Eski şehir için bir makine专用 tünel kazın

Gerçek zafer anahtarı, modelden temele doğru kaymaktadır.