Jika Anda pernah mencoba mengekstrak data yang berguna dari dokumen SEC, Anda tahu pengalaman ini berada di antara membaca hieroglif dan merakit perabot IKEA tanpa panduan. Dokumen-dokumen tersebut padat, berformat tidak konsisten, dan dirancang untuk pengacara manusia, bukan model pembelajaran mesin.
Sebuah tim dari Stanford’s Advanced Financial Technologies Lab baru saja merilis sesuatu yang bisa mengubah itu. Stanford EDGAR Filings Dataset, atau SEFD, adalah rekonstruksi besar-besaran dari pengajuan SEC EDGAR AS dari tahun 1994 hingga sekarang, yang diformat ulang ke dalam gaya MultiMarkdown yang setia terhadap tata letak sehingga mesin benar-benar dapat memprosesnya tanpa kehilangan makna keuangan yang tersembunyi dalam strukturnya.
Apa yang membuat dataset ini berbeda
Snapshot publik awal berisi 152 miliar token yang mencakup pengajuan dari Januari 2022 hingga Juni 2025. Seluruh dataset, saat selesai, diperkirakan mencapai sekitar 550 miliar token yang diambil dari sekitar 18,5 juta pengajuan.
Proyek ini dipimpin oleh Nick Bettencourt, yang terafiliasi dengan UCLA dan berkolaborasi dengan Stanford. Proyek ini diumumkan pada 16 Juni 2026.
Upaya ekstraksi sebelumnya secara rutin menghancurkan komponen struktural dan semantik yang membuat dokumen keuangan bermanfaat. Hierarki tabel menjadi datar. Tanda numerik hilang. Format halus yang memberi tahu analis apakah sebuah angka merupakan subtotol, penyesuaian negatif, atau referensi catatan kaki telah dihilangkan.
Pendekatan MultiMarkdown SEFD mempertahankan elemen-elemen tersebut. Tim melaporkan bahwa akurasi struktural melebihi 99% berdasarkan evaluasi manusia. Bahkan kesalahan kecil dalam data keuangan, tanda negatif yang salah tempat, atau hierarki tabel yang runtuh, dapat menyebar menjadi kesimpulan yang secara signifikan salah ketika diproses oleh model AI.
Detail penting lainnya: kurang dari 0,1% tumpang tindih dengan korpus yang berasal dari Common Crawl. Sebagian besar model bahasa besar dilatih terlebih dahulu pada pengumpulan data internet yang sangat besar, dan Common Crawl adalah salah satu yang terbesar. Memiliki hampir tidak ada tumpang tindih berarti SEFD menawarkan data pelatihan yang benar-benar baru dan tidak hanya memperkuat apa yang sudah pernah dilihat model sebelumnya.
Patokan baru untuk AI keuangan
Dataset tersebut tidak datang sendirian. Tim juga memperkenalkan dua tolok ukur yang dirancang untuk menguji seberapa baik model dapat bekerja dengan data semacam ini.
EDGAR-Forecast adalah tolok ukur peramalan numerik. Ini menguji apakah model dapat melihat data pengajuan historis dan memprediksi metrik keuangan masa depan. EDGAR-OCR berfokus pada transkripsi tabel keuangan, pada dasarnya mengukur seberapa akurat model dapat membaca dan mereproduksi tabel terstruktur yang membentuk tulang punggung sebagian besar pengajuan SEC.
Mengapa investor kripto harus memperhatikan
Semakin banyak perusahaan yang terdaftar di bursa yang kini memegang bitcoin di neraca mereka, menerbitkan sekuritas terkait kripto, atau beroperasi di ruang aset digital. Pengajuan mereka ke SEC berisi pengungkapan tentang aktivitas-aktivitas tersebut. Alat AI yang lebih baik untuk menganalisis pengajuan tersebut berarti alat yang lebih baik untuk memahami apa yang sebenarnya dilakukan perusahaan keuangan tradisional dengan kripto, bagaimana mereka mencatatnya, dan risiko apa yang mereka tandai kepada regulator.
Industri data keuangan didominasi oleh pemain seperti Bloomberg dan Refinitiv yang menetapkan harga premi untuk aliran data terstruktur. Sekumpulan data terbuka dan berkualitas tinggi sebanyak 550 miliar token dari pengajuan SEC dapat mendemokratisasi akses terhadap bahan baku yang menjadi dasar analisis keuangan.
Risikonya, seperti selalu terjadi dengan dataset terbuka, adalah penyalahgunaan. Tingkat akurasi struktural 99% memang mengesankan, tetapi tingkat kesalahan kurang dari 1% yang tersisa di seluruh 18,5 juta pengajuan tetap mewakili jumlah ketidakakuratan potensial yang tidak sepele. Siapa pun yang membangun sistem produksi berbasis SEFD akan memerlukan lapisan validasi yang kuat, terutama di bidang seperti kripto di mana pengajuan regulasi sudah kurang terstandarisasi dibandingkan keuangan tradisional.
