SEC belgelerinden kullanışlı veri çıkarmaya çalışmışsanız, bu deneyimin hiyeroglif okumakla IKEA mobilyası kılavuz olmadan monte etmek arasında bir yerde olduğunu biliyorsunuz. Belgeler yoğun, tutarsız biçimlendirilmiş ve makine öğrenimi modelleri değil, insan avukatlar için tasarlanmıştır.
Stanford’ın Gelişmiş Finansal Teknolojiler Laboratuvarı’ndan bir ekip, bunu değiştirebilecek bir şey çıkardı. Stanford EDGAR Dosyaları Veri Kümesi (SEFD), 1994’ten günümüze kadar olan ABD SEC EDGAR dosyalarının büyük ölçekli bir yeniden yapılandırmasıdır ve finansal anlamın yapının içinde gömüldüğü bir düzenlemeyi koruyarak makinelerin gerçekten yorumlayabileceği MultiMarkdown stiline dönüştürülmüştür.
Bu veri kümesini neyin farklı kıldığını
İlk kamu arşivi, Ocak 2022 ile Haziran 2025 arasındaki beyanları kapsayan 152 milyar token içerir. Tam veri seti tamamlandığında, yaklaşık 18,5 milyon beyandan elde edilen yaklaşık 550 milyar tokene ulaşması beklenmektedir.
Proje, UCLA ile bağlantılı ve Stanford ile iş birliği yapan Nick Bettencourt tarafından yönetildi. 16 Haziran 2026'da duyuruldu.
Geçmişte yapılan çıkarma çabaları, finansal belgeleri kullanışlı kılan yapısal ve anlamsal bileşenleri düzenli olarak yok etti. Tablo hiyerarşileri düzleştirildi. Sayısal işaretler kayboldu. Bir analistin bir sayının alt toplam, negatif ayarlama mı yoksa dipnot referansı mı olduğunu anlamasını sağlayan ince biçimlendirme kaldırıldı.
SEFD’nin MultiMarkdown yaklaşımı bu öğeleri korur. Takım, insan değerlendirmelerine göre yapısal doğruluk oranının %99’un üzerinde olduğunu rapor ediyor. Finansal verilerdeki küçük hatalar, yanlış yerleştirilmiş bir eksi işareti, çöken bir tablo hiyerarşisi, AI modelleri tarafından işlendiğinde anlamlı yanlış sonuçlara yol açabilir.
Diğer dikkat çekici ayrıntı: Common Crawl'den türetilmiş veri kümeleriyle %0,1'den az örtüşme. Çoğu büyük dil modeli, büyük internet taramaları üzerinde önceden eğitilir ve Common Crawl bunların en büyüğünden biridir. Neredeyse sıfır örtüşme, SEFD'nin modellerin zaten gördüğü şeyleri tekrarlamayacak, gerçekten yeni bir eğitim verisi sunduğunu gösterir.
Finansal AI için yeni standartlar
Veri kümesi yalnızca gelmedi. Takım, bu tür verilerle modellerin ne kadar iyi çalışabileceğini test etmek için iki referans noktası da tanıttı.
EDGAR-Forecast, sayısal tahmin bir benchmark'tır. Modellerin geçmiş beyanat verilerini inceleyerek gelecekteki finansal metrikleri tahmin edip edemeyeceğini test eder. EDGAR-OCR, finansal tablo transkripsiyonuna odaklanır ve temel olarak bir modelin SEC beyanatlarının temelini oluşturan yapılandırılmış tabloları ne kadar doğru okuyup yeniden üretebileceğini ölçer.
Neden kripto yatırımcılar dikkat etmeli
Artık artan sayıda borsada işlem gören şirket, bilançolarında bitcoin tutuyor, kripto ile ilgili menkul kıymetler çıkarıyor ya da dijital varlık alanında faaliyet gösteriyor. SEC tarafından sunulan belgelerde bu faaliyetlerle ilgili açıklamalar yer alıyor. Bu belgeleri analiz etmek için daha iyi yapay zeka araçları, geleneksel finans şirketlerinin kripto ile ne yaptığını, bunu nasıl muhasebeleştirdiğini ve düzenleyicilere hangi riskleri işaret ettiğini anlamak için daha iyi araçlar anlamına geliyor.
Finansal veri endüstrisi, yapılandırılmış veri akışları için premium fiyatlar talep eden Bloomberg ve Refinitiv gibi oyuncular tarafından hakimdir. 550 milyar tokenlik SEC beyanlarının açık ve yüksek kaliteli bir veri kümesi, finansal analizleri güçlendiren ham malzemenin erişimini demokratik hale getirebilir.
Her zaman olduğu gibi, açık veri kümeleriyle ilgili risk, yanlış kullanımındadır. %99 yapısal doğruluk oranı etkileyici olsa da, 18,5 milyon beyanda kalan %1'in altındaki hata oranı, önemli bir sayıda potansiyel hata anlamına gelir. SEFD üzerinde üretim sistemleri oluşturan herkes, özellikle geleneksel finans kadar standartlaştırılmamış kripto alanlarında, güçlü doğrulama katmanlarına ihtiyaç duyacaktır.
