ستانفورد تطلق مجموعة بيانات SEFD للإقرارات المالية التابعة للجنة الأوراق المالية والبورصات قابلة للقراءة آليًا

iconCryptoBriefing
مشاركة
AI summary iconملخص

إذا جربت من قبل استخراج بيانات مفيدة من مستندات لجنة الأوراق المالية والبورصات (SEC)، فأنت تعرف أن التجربة تقع في مكان ما بين قراءة الهيروغليفية وتركيب أثاث IKEA دون الدليل. المستندات مكثفة، ومُنسَّقة بشكل غير متسق، ومصممة للمحامين البشريين، وليس نماذج التعلم الآلي.

فريق من مختبر تقنيات التمويل المتقدمة في جامعة ستانفورد أطلق للتو شيئًا يمكن أن يغير ذلك. مجموعة بيانات إيدجار ستانفورد، أو SEFD، هي إعادة بناء ضخمة لملفات إيدجار التابعة للجنة الأوراق المالية والبورصات الأمريكية من عام 1994 حتى الآن، وأعيد تنسيقها بأسلوب MultiMarkdown يحافظ على التخطيط الأصلي بحيث يمكن للآلات تحليلها دون فقدان المعنى المالي المدفون في الهيكل.

ما الذي يجعل هذا المجموعة البيانات مختلفة

تحتوي لقطة العرض العامة الأولية على 152 مليار رمز مميز تغطي الإقرارات من يناير 2022 إلى يونيو 2025. ومن المتوقع أن يصل مجموعة البيانات الكاملة، عند اكتمالها، إلى حوالي 550 مليار رمز مميز مستمدة من حوالي 18.5 مليون إقرار.

تم قيادة المشروع من قبل نيك بيتينكورت، المرتبط بجامعة كاليفورنيا في لوس أنجلوس والتعاون مع ستانفورد. تم الإعلان عنه في 16 يونيو 2026.

إعلان

كانت جهود الاستخراج السابقة تدمر بشكل روتيني المكونات الهيكلية والدلالية التي تجعل المستندات المالية مفيدة. تم تسطيح هرمية الجداول. اختفت العلامات الرقمية. تم إزالة التنسيق الدقيق الذي يخبر المحلل ما إذا كان الرقم مجموعًا جزئيًا، أو تعديلًا سالبًا، أو إشارة إلى حاشية سفلية.

يحافظ نهج SEFD المتعدد بتنسيق Markdown على هذه العناصر. ويشير الفريق إلى أن الدقة الهيكلية تتجاوز 99% بناءً على التقييمات البشرية. حتى الأخطاء الصغيرة في البيانات المالية، مثل علامة سالبة موضعها خاطئ أو هيكل جدول منهار، يمكن أن تؤدي إلى استنتاجات خاطئة بشكل جوهري عند معالجتها من قبل نماذج الذكاء الاصطناعي.

تفاصيل أخرى ملحوظة: أقل من 0.1% تداخل مع مجموعات البيانات المشتقة من Common Crawl. معظم النماذج اللغوية الكبيرة تُدرَّب مسبقًا على عمليات مسح ضخمة للإنترنت، وCommon Crawl هو أحد أكبرها. وجود تداخل شبه صفري يعني أن SEFD يقدم بيانات تدريب جديدة حقًا لن تُعزز فقط ما رآه النماذج من قبل.

معايير جديدة للذكاء الاصطناعي المالي

لم يصل مجموعة البيانات وحدها. كما قدم الفريق معيارين مصممين لاختبار مدى كفاءة النماذج في التعامل مع هذا النوع من البيانات.

EDGAR-Forecast هو معيار تنبؤي عددي. فهو يختبر ما إذا كانت النماذج تستطيع الاطلاع على بيانات الإيداعات التاريخية والتنبؤ بالمقاييس المالية المستقبلية. ويركز EDGAR-OCR على نسخ الجداول المالية، ويقيس أساسًا مدى دقة النموذج في قراءة وإعادة إنتاج الجداول المهيكلة التي تشكل العمود الفقري لأغلب إيداعات SEC.

لماذا يجب على مستثمري العملات المشفرة الانتباه

يُظهر عدد متزايد من الشركات المدرجة في البورصة أنها تحتفظ ببيتكوين على ميزانياتها، أو تصدر أوراقًا مالية مرتبطة بالعملات المشفرة، أو تعمل في مجال الأصول الرقمية. تحتوي مستندات هذه الشركات المقدمة إلى لجنة الأوراق المالية والبورصات الأمريكية على إفصاحات عن هذه الأنشطة. وتعني أدوات الذكاء الاصطناعي الأفضل لتحليل هذه المستندات أدوات أفضل لفهم ما تقوم به شركات التمويل التقليدي فعليًا مع العملات المشفرة، وكيفية محاسبتها لها، وما المخاطر التي تُشير إليها للجهات التنظيمية.

يهيمن قطاع بيانات المالية على لاعبين مثل بلومبرغ وريفيتييف الذين يفرضون أسعارًا مرتفعة مقابل تدفقات بيانات منظمة. يمكن لمجموعة بيانات مفتوحة وعالية الجودة تضم 550 مليار رمز من مستندات SEC أن تُمكّن الوصول إلى المادة الخام التي تُدرّب التحليل المالي.

المخاطر، كما هو دائمًا مع مجموعات البيانات المفتوحة، هي الاستخدام غير السليم. إن معدل دقة هيكلية بنسبة 99% مثير للإعجاب، لكن نسبة الخطأ المتبقية التي تقل عن 1% عبر 18.5 مليون ملف لا تزال تمثل عددًا غير ضئيل من عدم الدقة المحتملة. سيحتاج أي شخص يبني أنظمة إنتاجية على SEFD إلى طبقات تحقق قوية، خاصة في المجالات مثل التشفير حيث تكون ملفات التنظيم أقل توحيدًا مقارنة بالتمويل التقليدي.

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة قد حصلت عليها من أطراف ثالثة ولا تعكس بالضرورة وجهات نظر أو آراء KuCoin. يُقدّم هذا المحتوى لأغراض إعلامية عامة فقط ، دون أي تمثيل أو ضمان من أي نوع ، ولا يجوز تفسيره على أنه مشورة مالية أو استثمارية. لن تكون KuCoin مسؤولة عن أي أخطاء أو سهو ، أو عن أي نتائج ناتجة عن استخدام هذه المعلومات. يمكن أن تكون الاستثمارات في الأصول الرقمية محفوفة بالمخاطر. يرجى تقييم مخاطر المنتج بعناية وتحملك للمخاطر بناء على ظروفك المالية الخاصة. لمزيد من المعلومات، يرجى الرجوع إلى شروط الاستخدام واخلاء المسؤولية.