Jika anda pernah mencuba untuk mengekstrak data yang berguna daripada fail-fail SEC, anda tahu pengalaman ini berada di antara membaca tulisan hieroglif dan memasang perabot IKEA tanpa panduan. Dokumen-dokumen ini padat, diformat secara tidak konsisten, dan direka untuk peguam manusia, bukan model pembelajaran mesin.
Sebuah pasukan dari Laboratorium Teknologi Kewangan Lanjutan Stanford baru sahaja memperkenalkan sesuatu yang boleh mengubah itu. Set Data Permohonan EDGAR Stanford, atau SEFD, ialah rekonstruksi besar-besaran permohonan EDGAR SEC AS yang merangkumi dari tahun 1994 hingga kini, diformat semula ke dalam gaya MultiMarkdown yang setia kepada susunan asal supaya mesin benar-benar boleh membaca tanpa kehilangan makna kewangan yang tersembunyi dalam struktur.
Apa yang membuat set data ini berbeza
Gambaran awal awam mengandungi 152 bilion token yang merangkumi fail daripada Januari 2022 hingga Jun 2025. Set data penuh, apabila selesai, dianggarkan mencapai sekitar 550 bilion token yang ditarik daripada kira-kira 18.5 juta fail.
Projek ini dipimpin oleh Nick Bettencourt, yang berhubungan dengan UCLA dan bekerjasama dengan Stanford. Ia diumumkan pada 16 Jun 2026.
Usaha pengekstrakan sebelum ini sering menghancurkan komponen struktur dan semantik yang menjadikan dokumen kewangan berguna. Hierarki jadual menjadi rata. Tanda nombor hilang. Pemformatan halus yang memberitahu analis sama ada nombor itu subjumlah, penyesuaian negatif, atau rujukan kaki teks telah dipadamkan.
Pendekatan MultiMarkdown SEFD mempertahankan elemen-elemen tersebut. Pasukan melaporkan bahawa ketepatan struktur melebihi 99% berdasarkan penilaian manusia. Kesalahan kecil dalam data kewangan, tanda negatif yang salah tempat, hierarki jadual yang runtuh, boleh membawa kepada kesimpulan yang salah secara bermakna apabila diproses oleh model AI.
Butiran lain yang penting: kurang daripada 0.1% tindih dengan korpus yang diperoleh daripada Common Crawl. Kebanyakan model bahasa besar dilatih pra-sebelumnya pada pemeriksaan internet yang besar, dan Common Crawl adalah salah satu yang terbesar. Memiliki tindih hampir sifar bermakna SEFD menawarkan data latihan yang benar-benar baharu yang tidak akan sekadar memperkuat apa yang telah dilihat oleh model.
Pengukuran baru untuk AI kewangan
Set data tidak tiba sendirian. Pasukan juga memperkenalkan dua tolok ukur yang direka untuk menguji sejauh mana model boleh berfungsi dengan data sebegini.
EDGAR-Forecast ialah tolok ramalan nombor. Ia menguji sama ada model dapat melihat data pengajuan sejarah dan meramalkan metrik kewangan masa depan. EDGAR-OCR berfokus pada transkripsi jadual kewangan, pada dasarnya mengukur sejauh mana model dapat membaca dan menghasilkan semula jadual berstruktur yang membentuk tulang belakang kebanyakan pengajuan SEC.
Mengapa pelabur kripto perlu memperhatikan
Semakin ramai syarikat yang disenaraikan di bursa kini memegang bitcoin dalam neraca mereka, mengeluarkan sekuriti berkaitan kripto, atau beroperasi dalam ruang aset digital. Fail-fail SEC mereka mengandungi pengungkapan mengenai aktiviti-aktiviti tersebut. Alat AI yang lebih baik untuk menganalisis fail-fail tersebut bermaksud alat yang lebih baik untuk memahami apa yang sebenarnya dilakukan oleh syarikat-syarikat kewangan tradisional dengan kripto, bagaimana mereka mengakuntannya, dan risiko-risiko apa yang mereka tanda kepada regulator.
Industri data kewangan didominasi oleh pemain seperti Bloomberg dan Refinitiv yang menetapkan harga premium untuk aliran data terstruktur. Satu set data terbuka dan berkualiti tinggi sebanyak 550 bilion token fail SEC boleh mendemokratisasikan akses kepada bahan mentah yang memacu analisis kewangan.
Risiko, seperti biasa dengan set data terbuka, ialah penyalahgunaan. Kadar ketepatan struktur 99% adalah mengagumkan, tetapi kadar ralat kurang daripada 1% yang tinggal di seluruh 18.5 juta fail masih mewakili bilangan yang bukan kecil kemungkinan ketidaktepatan. Sesiapapun yang membina sistem pengeluaran berdasarkan SEFD akan memerlukan lapisan pengesahan yang kukuh, terutamanya dalam bidang seperti kripto di mana fail peraturan sudah kurang standard berbanding kewangan tradisional.
