AI Ajan Çıktı Kalitesi, Token Yakımı ile İlişkilidir

Yazar: Systematic Long Short

Derin Akış TechFlow

Derin Akış Öne Çıkarması: Bu makalenin temel argümanı sadece bir cümle: AI Agent çıktısı kalitesi, harcanan Token miktarı ile orantılıdır.

Yazar sadece genel teorilerden bahsetmiyor, bugün başlayabileceğiniz iki spesifik yöntem sunuyor ve Token'ların oluşturulamayacağı sınırı net bir şekilde belirliyor — “yenilik sorunu”.

Agent ile kod yazan veya iş akışları çalıştıran okuyucular için bilgi yoğunluğu ve uygulanabilirlik çok yüksektir.

Giriş

Pekâlâ, bu başlığın gerçekten dikkat çekici olduğunu kabul etmelisin—ama gerçekten, bu bir şaka değil.

2023 yılında, LLM'leri üretim kodu çalıştırmak için kullandığımızda, çevremizdeki herkes şaşkınlıkla kalındı, çünkü o dönemde yaygın inanç, LLM'lerin kullanılamaz çöp ürettiğiydi. Ancak biz, başkalarının farkına varmadığı bir şeyi biliyorduk: Agent'in çıktı kalitesi, harcadığınız Token miktarının bir fonksiyonudur. Sadece ve sadece bu kadar basit.

Kendiniz birkaç deneme yaparak görebilirsiniz. Bir Agent'e karmaşık ve biraz nadir bir programlama görevi verin—örneğin, kısıtlamalı bir konveks optimizasyon algoritmasını sıfırdan uygulayın. En düşük düşünme seviyesiyle başlatın; ardından en yüksek düşünme seviyesine geçip, kendi kodunu gözden geçirmesini sağlayın ve kaç hata bulabileceğini görün. Orta ve yüksek seviyeleri de deneyin. Göreceksiniz ki, harcanan Token miktarı arttıkça hata sayısı monoton olarak azalıyor.

Bu kolay anlaşılabilir, değil mi?

Daha fazla token = Daha az hata. Bu mantığı bir adım daha ileri taşıyabilirsiniz; bu, temelde kod incelemesi ürününün arkasındaki (basitleştirilmiş) çekirdek fikirdir. Tamamen yeni bir bağlamda, büyük miktarda token yatırın (örneğin, kodu satır satır analiz edip her satırda hata olup olmadığını belirleyin) — bu şekilde neredeyse tüm hataları, hatta tüm hataları tespit edebilirsiniz. Bu işlemi on kez, yüz kez tekrarlayabilirsiniz; her seferinde kod tabanına farklı bir açıdan bakarak, sonunda tüm hataları ortaya çıkarabilirsiniz.

"Daha fazla Token yakmak, Agent kalitesini artırır" görüşünün bir kanıtsal destek daha vardır: Agent ile tamamen kod yazıp üretime yönlendirebileceğini iddia eden ekipler ya temel model sağlayıcılar ya da son derece bol miktarda sermayeye sahip şirketlerdir.

Yani, Agent'in üretim seviyesinde kod çıkaramadığı için hâlâ sıkıştıysanız—daha açık söyleyeyim, sorun sizde. Ya da cebinizde.

Yaktığınız Token yeterli mi diye nasıl anlarım

Bir tam makale yazmıştım ki, sorun kesinlikle kurduğunuz çerçevede değil, "basit tutun" diyerek bile harika şeyler yapılabilir; bu görüşümü hâlâ savunuyorum. O makaleyi okudunuz, uyguladınız, ancak Agent çıktısından hâlâ memnun kalmadınız. Bana DM attınız, okunduğunu gördüm ama cevap vermedim.

Bu, yanıtın yazısıdır.

Agent'inizin performansı düşük ve sorunları çözemiyor, çoğu durumda yaktığınız Token yeterli değil.

Bir sorunu çözmek için ne kadar Token harcanacağı, sorunun ölçeğine, karmaşıklığına ve yeniliğine tamamen bağlıdır.

「2+2 kaç eder?」Az miktarda Token gerektirir.

Polymarket ve Kalshi arasındaki tüm pazarları tarayarak, anlamsal olarak benzer ve aynı olay etrafında sonuçlanması gereken pazarları bulan, arbitraj sınırlarını belirleyen ve arbitraj fırsatı ortaya çıktığında düşük gecikmeyle otomatik olarak işlem yapan bir bot yazmanıza yardımcı olun — bu, çok sayıda Token tüketir.

Uygulamada ilginç bir şey keşfettik.

Yeterli miktarda Token yatırırsanız, ölçek ve karmaşıklıktan kaynaklanan sorunları Agent her zaman çözebilir. Başka bir deyişle, çok karmaşık, birçok bileşen ve kod satırına sahip bir şey oluşturmak istiyorsanız, bu sorunlara yeterince Token harcarsanız, sonunda hepsi tamamen çözülebilir.

Burada küçük ama önemli bir istisna var.

Sorununuz çok yenilikçi olamaz. Şu aşamada, herhangi bir miktar Token, "yenilikçilik" sorununu çözemiyor. Yeterince çok Token, karmaşıklıktan kaynaklanan hataları sıfıra indirebilir, ancak Ajanın bilmediği şeyleri boştan icat edemiyor.

Bu sonuç aslında bizi rahatlattı.

Çok büyük çaba harcadık ve çok, çok, çok fazla Token yaktık, Agent'ın neredeyse hiçbir yönlendirme olmadan kurumsal yatırım sürecini yeniden oluşturup oluşturamayacağını test etmek için. Bu, bizim (nicel araştırmacılar olarak) AI tarafından tamamen yerine geçirilmemiz için kaç yıl kaldığını anlamak istememizin bir parçasıydı. Sonuç olarak, Agent'ın bir kurumsal yatırım sürecine yakın bir şey yapamadığını gördük. Buna nedenin, Agent'ların bu tür bir şeyi hiç görmediği olduğunu düşünüyoruz—yani, kurumsal yatırım süreçleri eğitim verilerinde tamamen yoktur.

Yani, sorununuz yeniyse, Token toplayarak çözmeyi beklemeyin. Keşif sürecini kendi başınıza yönlendirmeniz gerekir. Ancak uygulama yöntemini belirledikten sonra, kod tabanı ne kadar büyük olursa olsun, bileşenler ne kadar karmaşık olursa olsun, uygulamak için Token toplamaktan çekinmeyin.

Basit bir yönerge: Token bütçesi, kod satır sayısıyla orantılı olarak artmalıdır.

Nedir bu çok yakılan token

Uygulamada, ek Token'lar genellikle Agent'in mühendislik kalitesini şu şekilde artırır:

Daha fazla zaman harcayarak aynı denemede daha derinlemesine düşünün, kendi hatalı mantığınızı keşfetme şansı kazanın. Daha derin düşünme = Daha iyi planlama = Tek seferde başarı olasılığı daha yüksek.

Birden fazla bağımsız deneme yapmasına izin verin, farklı çözüm yolları izleyin. Bazı yollar diğerlerinden daha iyidir. Birden fazla deneme yapmasına izin verildiğinde, en iyisini seçebilir.

Benzer şekilde, daha fazla bağımsız planlama, zayıf yönleri bırakıp en umut verici olanları korumayı mümkün kılar.

Daha fazla token, önceki çalışmalarını tamamen yeni bir bağlamda eleştirmesine ve bir önceki «muhakeme içine girmesi» içinde takılı kalmadan iyileştirme şansı verir.

Elbette, en sevdiğim nokta da şu: Daha fazla token, onun testler ve araçlarla doğrulanabilmesi anlamına gelir. Kodun gerçek ortamda çalışıp çalışmadığını görmek, cevabın doğru olduğunu doğrulamanın en güvenilir yoludur.

Bu mantık, Agent'in mühendislik hatasının rastgele olmadığını için geçerlidir. Hata neredeyse her zaman erken aşamada yanlış bir yol seçildiğinden, bu yolun gerçekten geçerli olup olmadığı kontrol edilmediğinden veya hata fark edildikten sonra geri dönüp düzeltmek için yeterli bütçenin bulunmadığından kaynaklanır.

Hikaye tam olarak böyle. Token, harcadığınız karar kalitesinin harfi harfine temsili. Bir araştırmaya benzetin: Eğer birine anında zor bir soru sorarsanız, cevap kalitesi zaman baskısı arttıkça düşer.

Araştırma, temelde “cevabı bilmek” şeyini üretmektir. İnsanlar, daha iyi cevaplar üretmek için biyolojik anlamda zaman harcar; Agent’ler ise daha iyi cevaplar üretmek için daha fazla hesaplama zamanı harcar.

Agent'inizi nasıl artırabilirsiniz

Hala şüpheci olabilirsiniz, ancak bunu destekleyen birçok makale vardır; dürüst olmak gerekirse, "çıkarım" düğmesinin varlığı bile size gereken tüm kanıttır.

Çok sevdiğim bir makale, araştırmacılar küçük bir dizi dikkatle seçilmiş akıl yürütme örneğiyle eğitildi ve modelin durmak istediğinde düşünmeye devam etmesini sağlamak için, durmak istediği yerlere “Wait” (Bekleyin) ekledi. Bu tek başına, bir referans testini %50'den %57'ye çıkardı.

Söylemek istediğim çok açık: Eğer Agent'in yazdığı koddan her zaman şikayet ediyorsanız, tek seferlik en yüksek düşünme seviyesi hâlâ yeterli olmayabilir.

Size iki çok basit çözüm sunuyorum.

Basit Yöntem 1: BEKLE

Bugün yapabileceğiniz en basit şey: Otomatik döngü oluşturmak — oluşturduktan sonra, Agent'in yeni bir bağlamda N kez incelemesini sağlayın ve her sorun çıktığında düzeltin.

Bu basit tekniğin Agent mühendislik etkinliğinizi iyileştirdiğini fark ederseniz, sorununuzun sadece Token sayısı olduğunu anladınız demektir—o zaman Token Yakan Kulübü'ne katılın.

Basit Yöntem 2: DOĞRULA

Agent, çalışmalarını erken ve sık sık doğrulamalıdır. Seçilen yolun gerçekten çalıştığını kanıtlamak için testler yazın. Bu, yüksek derecede karmaşık ve derinçe iç içe geçmiş projelerde özellikle faydalıdır—bir fonksiyon, birçok alt fonksiyon tarafından çağrılabilir. Hataları erken aşamada yakalamak, sonraki hesaplama sürelerini (Token) büyük ölçüde tasarruf ettirebilir. Bu nedenle, mümkünse tüm inşa süreci boyunca "doğrulama kontrol noktaları" yerleştirin.

Bir metin yazıldı, ana Agent tamamlandı dedi; ikinci Agent'in kontrol etmesi gerekiyor. İlgisiz düşünce akışları, sistemsel yanlılıkların kaynaklarını kapatabilir.

Bu kadarı yeterli. Bu konuda daha fazlasını yazabilirim, ancak bu iki şeyi fark etmeniz ve iyi bir şekilde uygulamanızın, sorunlarınızın %95'ini çözeceğine inanıyorum. Basit şeyleri mükemmel şekilde yapmayı ve gerekli olduğunda karmaşıklığı katmanlı olarak eklemeyi savunuyorum.

"Yeniliklilik" sorununun Token ile çözülemeyeceğini belirtmiştim, bunu tekrar vurgulamak istiyorum, çünkü sonunda bu tuzakla karşılaşıp, Token biriktirmenin işe yaramadığını söylemek için bana şikayet edeceksiniz.

Eğitim setinde olmayan bir sorunu çözmek istediğinizde, gerçek çözümü sunan sizsiniz. Bu nedenle, alan uzmanlığı hâlâ son derece önemlidir.