スタンフォード大学、機械可読なSEC提出書用のSEFDデータセットを公開

SECの提出書類から有用なデータを抽出したことがあるなら、その体験は象形文字を読むことと、マニュアルなしでIKEAの家具を組み立てることの間にあることを知っているでしょう。これらの文書は、機械学習モデルではなく、人間の弁護士を対象に作られており、情報が濃密でフォーマットが不統一です。

スタンフォード大学の高度な金融技術ラボのチームが、それを変える可能性のあるものを発表しました。スタンフォードEDGAR提出書類データセット（SEFD）は、1994年から現在に至るまでの中の米国SEC EDGAR提出書類を大規模に再構築したもので、構造に埋め込まれた財務的意味を損なうことなく、マシンが実際に解析できるレイアウト忠実なMultiMarkdown形式に再整形されています。

このデータセットが異なる理由は

初期の公開スナップショットには、2022年1月から2025年6月までの提出書類をカバーする1520億トークンが含まれています。完成時には、約1850万件の提出書類から抽出された約5500億トークンに達すると推定されています。

このプロジェクトはUCLAに所属し、スタンフォード大学と協力したニック・ベッテンコートが主導しました。2026年6月16日に発表されました。

過去の抽出作業では、財務文書を有用にする構造的および意味的要素が頻繁に破壊されてきました。テーブルの階層がフラット化され、数値の符号が消え、数字が小計、負の調整、または脚注参照であることを示す繊細な書式が削除されました。

SEFDのMultiMarkdownアプローチはこれらの要素を保持します。チームは、人間による評価に基づき、構造的正確性が99％以上であると報告しています。財務データの小さなエラー、負号の誤った配置、テーブル階層の崩壊などは、AIモデルによって処理された際に、意味的に間違った結論へと連鎖的に影響を及ぼす可能性があります。

もう一つの注目すべき点：Common Crawl由来のコーパスとの重複率は0.1％未満です。大規模言語モデルの多くは、膨大なインターネットスクレイピングデータで事前学習され、Common Crawlはその中でも最大級のデータソースの一つです。ほぼ重複がないということは、SEFDはモデルがすでに学習済みの内容を再強化するのではなく、真正に新規な学習データを提供していることを意味します。

金融AIの新たなベンチマーク

データセットは単独で到着したわけではありません。チームは、この種のデータに対してモデルがどれほど効果的に動作できるかをテストするための2つのベンチマークも導入しました。

EDGAR-Forecastは数値予測のベンチマークです。モデルが過去の提出データを分析し、将来の財務指標を予測できるかをテストします。EDGAR-OCRは財務テーブルの転写に焦点を当て、モデルがSEC提出書類の基盤となる構造化されたテーブルをどれだけ正確に読み取り、再現できるかを測定します。

暗号資産投資家が注目すべき理由

上場企業の増加が、バランスシートにBitcoinを保有したり、暗号資産関連証券を発行したり、デジタル資産分野で事業を展開しています。これらの企業のSEC提出書類には、これらの活動に関する開示が含まれています。これらの提出書類を分析するためのより優れたAIツールにより、従来の金融企業が暗号資産を実際にどのように扱い、どのように会計処理し、規制当局にどのようなリスクを警告しているかをより深く理解できるようになります。

金融データ業界は、構造化されたデータフィードにプレミアム価格を課すブルームバーグやリファティビブなどの大手企業が支配している。5500億トークンに及ぶSEC提出書類のオープンで高品質なデータセットは、金融分析を支える原素材へのアクセスを民主化する可能性がある。

オープンデータセットであることに常に伴うリスクは誤用です。99％の構造的正確性は印象的ですが、1850万件の提出書類全体で残る1％未満のエラー率は、依然として無視できない数の不正確さを意味します。SEFDを基にプロダクションシステムを構築する際には、特に従来の金融と比べて規制関連ファイルの標準化が進んでいない暗号資産分野において、堅牢な検証レイヤーが必要です。