ستانفورڈ نے ماشینی قابل پڑھنے والی SEC فائلز کے لیے SEFD ڈیٹا سیٹ شروع کیا ہے

iconCryptoBriefing
بانٹیں
AI summary iconخلاصہ

اگر آپ نے کبھی SEC فائلز سے مفید ڈیٹا نکالنے کی کوشش کی ہے، تو آپ جانتے ہیں کہ یہ تجربہ ہائروگلائفکس پڑھنے اور بیرونی ہدایات کے بغیر IKEA کے فرنیچر کو اسٹال کرنے کے درمیان کہیں بیٹھتا ہے۔ یہ دستاویزات زبردست، نامنظم شکل میں ہوتی ہیں اور مشین لرننگ ماڈلز کے لیے نہیں، بلکہ انسانی وکلاء کے لیے ڈیزائن کی گئی ہیں۔

斯坦福大學先進金融技術實驗室的一個團隊剛剛推出了一個可能改變這一局面的成果。斯坦福 EDGAR 提交數據集(SEFD)是對從 1994 年至今美國證券交易委員會 EDGAR 提交文件的全面重建,並重新格式化為機器可解析的布局忠實 MultiMarkdown 格式,不會遺失結構中隱藏的財務含義。

یہ ڈیٹا سیٹ کیا بناتا ہے مختلف

اولیہ عوامی اسناپ میں جنوری 2022 سے جون 2025 تک کے فائلز پر مشتمل 152 ارب ٹوکن شامل ہیں۔ جب مکمل ہو جائے تو مکمل ڈیٹا سیٹ تقریباً 18.5 ملین فائلز سے لیے گئے 550 ارب ٹوکن تک پہنچنے کا اندازہ لگایا جا رہا ہے۔

اس منصوبے کی قیادت نک بیٹنکورٹ نے کی، جو یو سی ایل اے سے منسلک ہیں اور سٹینفورڈ کے ساتھ تعاون کر رہے ہیں۔ اس کا اعلان 16 جون، 2026 کو کیا گیا۔

اعلان

گزشتہ ایکسٹریکشن کے کوششیں عام طور پر وہ ساختی اور معنائی اجزاء تباہ کر دیتی تھیں جو مالی دستاویزات کو مفید بناتے ہیں۔ جدول کی حکمرانی کو سیدھا کر دیا گیا۔ عددی علامات غائب ہو گئیں۔ وہ ظریفہ فارمیٹنگ جو ایک تجزیہ کار کو بتاتی تھی کہ کوئی عدد ایک سب ٹوٹل، منفی ایڈجسٹمنٹ، یا حاشیہ نوٹ کا حوالہ ہے، ختم کر دی گئی۔

SEFD کا ملٹی مارکڈاؤن طریقہ کار ان عناصر کو برقرار رکھتا ہے۔ ٹیم کے مطابق، انسانی جائزہ کے مطابق ساختی درستگی 99% سے زیادہ ہے۔ مالیاتی ڈیٹا میں چھوٹی غلطیاں، جیسے کہ ایک غلط منفی علامت یا ایک کرشر ہو چکی ٹیبل ہائرارکی، جب AI ماڈلز کے ذریعہ پروسیس کی جائے تو معنی خیز غلط نتائج کا باعث بن سکتی ہیں۔

ایک اور قابل ذکر تفصیل: کامن کرال سے حاصل کردہ کارپورا کے ساتھ 0.1 فیصد سے کم ڈھکاؤ۔ زیادہ تر بڑے زبانی ماڈلز بڑے انٹرنیٹ اسکریپس پر پری ٹرینڈ ہوتے ہیں، اور کامن کرال اس میں سے ایک سب سے بڑا ہے۔ تقریباً صفر ڈھکاؤ کا مطلب یہ ہے کہ SEFD حقیقی طور پر نئے تربیتی ڈیٹا فراہم کرتا ہے جو ماڈلز کو صرف اسی چیز کو دوبارہ تقویت نہیں دے رہا جو وہ پہلے ہی دیکھ چکے ہیں۔

مالیاتی AI کے لیے نئے معیارات

ڈیٹا سیٹ اکیلے نہیں آیا۔ ٹیم نے دو بینچ مارکس بھی متعارف کرائے جو ماڈلز کی اس قسم کے ڈیٹا کے ساتھ کام کرنے کی صلاحیت کا جائزہ لینے کے لیے ڈیزائن کیے گئے ہیں۔

EDGAR-Forecast ایک عددی پیشگوئی کا معیار ہے۔ یہ ٹیسٹ کرتا ہے کہ کیا ماڈلز قدیم فائلنگ ڈیٹا دیکھ کر مستقبل کے مالی اعداد و شمار کا پیشگوئی کر سکتے ہیں۔ EDGAR-OCR مالی جدولوں کی نقل کرنے پر مرکوز ہے، جو بنیادی طور پر یہ پیمانہ ہے کہ ماڈل زیادہ تر SEC فائلنگز کی بنیاد بننے والے ساختاری جدولوں کو کتنی درستگی سے پڑھ سکتا اور دوبارہ تخلیق کر سکتا ہے۔

کرپٹو سرمایہ کار کیوں توجہ دیں

اُب بڑھتی ہوئی تعداد میں عوامی طور پر ٹریڈ ہونے والی کمپنیاں اپنے بیلنس شیٹس پر بٹ کوائن رکھتی ہیں، کرپٹو متعلقہ سیکورٹیز جاری کرتی ہیں، یا ڈیجیٹل ایسٹس کے شعبے میں کام کرتی ہیں۔ ان کے SEC فائلز میں ان سرگرمیوں کے بارے میں اطلاعات ہوتی ہیں۔ ان فائلز کے تجزیہ کے لیے بہتر AI ٹولز کا ہونا، روایتی فنانس کمپنیوں کے کرپٹو کے ساتھ ان کے عمل، ان کا اس کا اکاؤنٹنگ طریقہ، اور وہ خطرات جو وہ ریگولیٹرز کو نشان زد کرتے ہیں، سمجھنے کے لیے بہتر ٹولز کا مطلب ہے۔

فینانشل ڈیٹا صنعت میں بلومبرگ اور ریفرٹیو جیسے کھلاڑی ڈھانچہ بند ڈیٹا فیڈس کے لیے پریمیم قیمتیں وصول کرتے ہیں۔ سی ای سی فائلز کا ایک کھلا، اعلیٰ معیار کا ڈیٹا سیٹ جس میں 550 ارب ٹوکن ہیں، فینانشل تجزیہ کو چلانے والے خام مال تک رسائی کو عوامی بناسکتا ہے۔

جیسا کہ ہمیشہ کھلے ڈیٹاسیٹس کے ساتھ ہوتا ہے، خطرہ غلط استعمال ہے۔ 99 فیصد ساختی درستگی کی شرح حیرت انگیز ہے، لیکن 18.5 ملین فائلوں میں باقی کم سے کم 1 فیصد کی غلطی کی شرح اب بھی غیر معمولی تعداد میں ممکنہ غلطیوں کو ظاہر کرتی ہے۔ جو کوئی SEFD پر پروڈکشن سسٹمز بنائے گا، اسے مضبوط تصدیق کے لیے لیئرز درکار ہوں گے، خاص طور پر کرپٹو جیسے شعبوں میں جہاں تنظیمی فائلیں پارمپرک فنانس کے مقابلے میں پہلے سے کم معیاری ہوتی ہیں۔

اعلان دستبرداری: اس صفحہ پر معلومات تیسرے فریق سے حاصل کی گئی ہوں گی اور یہ ضروری نہیں کہ KuCoin کے خیالات یا خیالات کی عکاسی کرے۔ یہ مواد کسی بھی قسم کی نمائندگی یا وارنٹی کے بغیر صرف عام معلوماتی مقاصد کے لیے فراہم کیا گیا ہے، اور نہ ہی اسے مالی یا سرمایہ کاری کے مشورے کے طور پر سمجھا جائے گا۔ KuCoin کسی غلطی یا کوتاہی کے لیے، یا اس معلومات کے استعمال کے نتیجے میں کسی بھی نتائج کے لیے ذمہ دار نہیں ہوگا۔ ڈیجیٹل اثاثوں میں سرمایہ کاری خطرناک ہو سکتی ہے۔ براہ کرم اپنے مالی حالات کی بنیاد پر کسی پروڈکٹ کے خطرات اور اپنے خطرے کی برداشت کا بغور جائزہ لیں۔ مزید معلومات کے لیے، براہ کرم ہماری استعمال کی شرائط اور خطرے کا انکشاف دیکھیں۔