Stanford lance l'ensemble de données SEFD pour les déclarations SEC lisibles par machine

Si vous avez déjà essayé d’extraire des données utiles à partir des documents déposés auprès de la SEC, vous savez que l’expérience se situe quelque part entre la lecture de hiéroglyphes et l’assemblage d’un meuble IKEA sans le manuel. Ces documents sont denses, mal formatés et conçus pour des avocats humains, pas pour des modèles d’apprentissage automatique.

Une équipe du laboratoire Advanced Financial Technologies de Stanford vient de publier quelque chose qui pourrait changer cela. Le jeu de données Stanford EDGAR Filings (SEFD) est une reconstruction massive des déclarations EDGAR de la SEC américaine couvrant la période de 1994 à aujourd’hui, reformatées en style MultiMarkdown fidèle à la mise en page, que les machines peuvent analyser sans perdre le sens financier caché dans la structure.

Ce qui rend ce jeu de données différent

La capture initiale publique contient 152 milliards de jetons couvrant les déclarations de janvier 2022 à juin 2025. L'ensemble complet des données, une fois terminé, est estimé à environ 550 milliards de jetons provenant d'environ 18,5 millions de déclarations.

Le projet a été mené par Nick Bettencourt, affilié à l'UCLA et en collaboration avec Stanford. Il a été annoncé le 16 juin 2026.

Les tentatives d'extraction précédentes ont systématiquement détruit les composants structurels et sémantiques qui rendent les documents financiers utiles. Les hiérarchies de tableaux ont été aplatis. Les signes numériques ont disparu. Le formatage subtil qui permet à un analyste de déterminer si un nombre est un sous-total, un ajustement négatif ou une référence à une note de bas de page a été supprimé.

L'approche MultiMarkdown de SEFD préserve ces éléments. L'équipe indique que la précision structurelle dépasse 99 % selon les évaluations humaines. Même de petites erreurs dans les données financières, un signe négatif mal placé, une hiérarchie de tableau effondrée, peuvent se propager et conduire à des conclusions gravement erronées lorsqu'elles sont traitées par des modèles d'IA.

Un autre détail notable : moins de 0,1 % de recouvrement avec les corpus dérivés de Common Crawl. La plupart des grands modèles linguistiques sont pré-entraînés sur d'immenses extractions d'Internet, et Common Crawl en est l'une des plus importantes. Avoir presque aucun recouvrement signifie que SEFD offre des données d'entraînement véritablement novatrices qui ne se contentent pas de renforcer ce que les modèles ont déjà vu.

Nouveaux repères pour l'IA financière

Le jeu de données n’est pas arrivé seul. L’équipe a également introduit deux références conçues pour tester la capacité des modèles à travailler avec ce type de données.

EDGAR-Forecast est un benchmark de prévision numérique. Il évalue la capacité des modèles à analyser des données historiques de dépôts et à prédire des indicateurs financiers futurs. EDGAR-OCR se concentre sur la transcription de tableaux financiers, mesurant essentiellement la précision avec laquelle un modèle peut lire et reproduire les tableaux structurés qui constituent la base de la plupart des dépôts de la SEC.

Pourquoi les investisseurs en crypto doivent prêter attention

Un nombre croissant d'entreprises cotées détiennent désormais du bitcoin sur leurs bilans, émettent des titres liés à la crypto, ou opèrent dans l'espace des actifs numériques. Leurs déclarations à la SEC contiennent des divulgations concernant ces activités. De meilleurs outils d'IA pour analyser ces déclarations signifient de meilleurs outils pour comprendre ce que les entreprises de finance traditionnelle font réellement avec la crypto, comment elles la comptabilisent et quels risques elles signalent aux régulateurs.

Le secteur des données financières est dominé par des acteurs comme Bloomberg et Refinitiv qui facturent des prix premium pour des flux de données structurées. Un jeu de données ouvert et de haute qualité contenant 550 milliards de jetons de déclarations à la SEC pourrait démocratiser l'accès à la matière première qui alimente l'analyse financière.

Le risque, comme toujours avec les jeux de données ouverts, est une utilisation abusive. Un taux de précision structurelle de 99 % est impressionnant, mais ce sous-1 % d'erreurs restant sur 18,5 millions de déclarations représente quand même un nombre non négligeable d'inexactitudes potentielles. Toute personne développant des systèmes de production sur SEFD devra intégrer des couches de validation robustes, notamment dans des domaines comme la crypto où les déclarations réglementaires sont déjà moins standardisées que dans la finance traditionnelle.