Yapay Zeka İşlem Modelleri Canlı Piyasa Testlerinde Zorlanıyor, Çoğu Sistem Kayıplar Rapor Ediyor

CoinDesk tarafından rapor edildi:

Yapay zeka, Wall Street'in işlem odalarına kapı çalıyor, ancak şu ana kadar performansı iyi değil.

İlk açık ticaret yarışmalarının sonuçları, ana akım büyük dil modellerinin (LLM) kendi kendine ticaret yaparken genel olarak zayıf performans gösterdiğini ortaya koydu—çok sayıda sistem kayıp verdi, aşırı sık ticaret yaptı ve aynı talimatları aldığında tamamen farklı kararlar verdi. Bu sonuçlar, LLM’ler ile gerçek piyasa dinamikleri arasında ne kadar büyük bir uçurum olduğunu sorusunu gündeme getirdi.

En temsili vaka, Nof1 adlı bir teknoloji startup'ı tarafından işletilen Alpha Arena yarışmasından gelmektedir. Bu yarışma, Anthropic'ın Claude'ını, Google'ın Gemini'sini, OpenAI'ın ChatGPT'sini ve Elon Musk'ın Grok'unu dahil olmak üzere sekiz önde gelen AI sistemini dört bağımsız turda karşılaştırmıştır. Her turda başlangıçta 10.000 dolarlık bir fonla başlanarak iki hafta boyunca ABD teknoloji hisseleri üzerinde özerk olarak işlem yapılmıştır. Sonuç olarak, toplam portföy yaklaşık üçte bir kayıp vermiş ve 32 sonuçtan sadece altısı kâr sağlamıştır.

Nof1 kurucusu Jay Azhang, "Şu anda parayı doğrudan bir LLM'ye verip kendi kendine işlem yapmasını sağlamak mümkün değil." dedi.

Yarışma Sonuçları: Kayıp, Aşırı İşlem Yapma ve Karar Farklılıkları

Alpha Arena verileri, mevcut LLM'lerin ticaret senaryolarındaki çok sayıda eksikliği ortaya koyuyor. Aynı talimat altında, Alibaba'nın Qwen'i bir yarışma sırasında toplam 1.418 işlem gerçekleştirdi, en iyi performansı gösteren Grok 4.20 ise sadece 158 sipariş verdi. Grok'un en iyi sonucu, rakiplerinin performansını gözlemleyebildiği yarışma turunda ortaya çıktı.

AI blog Flat Circle, 11 pazarla ilgili alan izledi ve tüm alanlarda en az bir modelin kâr elde ettiğini, ancak yalnızca iki alanın ortanca modelinin pozitif getiri sağladığını gösterdi; bu da çoğu modelin piyasayı geçemediğini ortaya koyuyor.

Modeller arasındaki karar farklılıkları aynı şekilde dikkat çekicidir. Azhang'e göre, Alpha Arena'nın en son testinde Claude uzun pozisyon almayı tercih ediyor, Gemini kısa pozisyonlara karşı hiçbir direnç göstermiyor ve Qwen yüksek kaldıraç kullanarak risk almayı seviyor. "Her birinin kendi 'kişiliği' var, yönetmek neredeyse bir insan analist yönetmek gibi," diyor Intelligent Alpha'nın LLM tabanlı fonlarını yöneten Doug Clinton; modellere belirli bir yanlılık bulunduğunu bildirmek, sonuçları bir ölçüde iyileştirebilir.

Yetenek sınırı: LLM araştırma konusunda uzmandır, ancak zamanlama konusunda değil.

Jay Azhang, LLM'lerin araştırma ve doğru araçları çağırma konusunda avantajlara sahip olduğunu, ancak işlem yürütme düzeyinde sistematik eksiklikler yaşadığını belirtti: Analist değerlendirmeleri, iç kişilerin işlemlerini, duygu değişimleri gibi hisse senedi fiyatlarını etkileyen birçok değişkenin ağırlıklarını henüz anlamadıkları için işlem zamanlaması hataları, pozisyon boyutu yanlışlıkları ve alım-satım sıklığının aşırı olması gibi sorunlar yaşıyorlar.

Intelligent Alpha'nın benchmark testi, göreceli olarak olumlu bir referans sağlıyor. Test, 10 AI modeline finansal belgeler, analist tahminleri, gelir raporu telekonferans kayıtları, makroekonomik veriler ve web arama erişimi sunarak kar tahmini yönüne odaklanıyor. Sonuçlar, 2025 dördüncü çeyrekte OpenAI'nin ChatGPT'nin kar tahmini yönünü doğru tahmin etme oranının %68 olduğunu gösteriyor; bu, şimdiye kadarki en iyi performanstır. Clinton, her yeni sürümün yayınlanmasıyla model performansının genel olarak iyileşme eğiliminde olduğunu belirtiyor.

Yöntemsel zorluk: Geriye dönük test başarısız oldu, gerçek zamanlı test tek seçenek kaldı

AI trading yeteneğini değerlendirmek, temel bir metodolojik engelle karşılaşıyor. Geleneksel kantitatif stratejiler, etkinliklerini geçmiş verilerle geriye dönük testlerle doğrular, ancak bu çerçeve LLM'ler için neredeyse tamamen geçersiz—2026 yılında 2020 Mart piyasa hareketlerini nasıl işlemesi gerektiği sorulan bir model, zaten o tarihin gelişimini "biliyor". Bu "ileriye dönük sapma" (lookahead bias) olarak adlandırılan kirlilik sorunu, araştırmacıların AI'ları gerçek piyasa verileriyle değerlendirmeye zorlamış ve bu da şu anda çeşitli benchmark'ların ve yarışma alanlarının yoğun bir şekilde ortaya çıkmasına neden olmuştur.

Flat Circle blog yazarı ve eski alternatif veri sağlayıcısı YipitData ortak kurucusu Jim Moran, şu anda çoğu açık deneyin süresi çok kısa ve gürültü seviyesi çok yüksek olup, kesin sonuçlar çıkarmak için yeterli olmadığını düşünüyor. Bu alanların, özel hisse senedi araştırmalarına erişim imkânı olmaması ve yürütme kalitesinin düşük olması gibi doğal dezavantajları da var. "Bu alanlardaki bir AI ajanını doğrudan bir üst düzey hedge fonunun içine entegre ederseniz, performansının daha iyi olacağını düşünüyorum," dedi.

Sektör前景: Gerçekten etkili stratejiler, kamuoyunun dikkatinden gizlice kaybolabilir

Önce Coatue Management veri bilimi müdürü, şu anda NX1 Capital'de çalışan Alexander Izydorczyk, son zamanlarda yazdığı bir makalede, izlediği AI işlem robotlarının hiç birinin kalıcı bir fazla getiri yeteneğine sahip olmadığını belirtti. Ona göre, bu yarışmaların sınırlılığı, gizli ticari kurumların kullandığı pratik kantitatif tekniklerin eğitim verilerinden eksik olmasıdır.

Ancak Izydorczyk, ilginç bir yargı da bıraktı: "Yeni başlayanlar bazen deneyimli kişilerin göremediği şeyleri görebilir." Kişisel blogunda yazdı: "LLM temelli ticaret stratejileri gerçekten işe yaramaya başladığında, hemen herhangi bir haber duymazsınız."

Nof1, Alpha Arena'nın ikinci sezonunu hazırlıyor ve her AI modeline web arama, daha uzun düşünme süresi, daha fazla veri kaynağı ve çok adımlı yürütme yeteneği kazandırmayı planlıyor. Ancak şirketin temel iş modeli, AI'yi doğrudan işlem masasına yerleştirmekten ziyade, bireysel trader'lar için AI işlem ajantları oluşturmak üzere sistem araçları sunmaktır. Bu pozisyon, mevcut AI işlem yetenekleri için belki de en pratik yorum olabilir.