এআই ট্রেডিং মডেলগুলি লাইভ মার্কেট পরীক্ষায় সমস্যায় পড়ছে, বেশিরভাগ সিস্টেম ক্ষতি রিপোর্ট করেছে

ক্রিপ্টো নিউজ ওয়েবসাইট রিপোর্ট করছে:

কৃত্রিম বুদ্ধিমত্তা এখন ওয়াল স্ট্রিটের ট্রেডিং রুমের দরজায় কাঁটাচাড়া করছে, কিন্তু বর্তমানে এর পারফরম্যান্স খারাপ।

প্রাথমিক প্রকাশ্য ট্রেডিং প্রতিযোগিতার ফলাফলগুলি দেখায় যে, প্রধান বড় ভাষা মডেলগুলি (LLM) স্বায়ত্তশাসিত ট্রেডিংয়ে সাধারণত দুর্বল পারফরম্যান্স দেখাচ্ছে—অধিকাংশ সিস্টেম ক্ষতির মুখোমুখি হচ্ছে, অত্যধিক ট্রেডিং করছে, এবং একই নির্দেশনা পেয়েও সম্পূর্ণ ভিন্ন সিদ্ধান্ত নিচ্ছে। এই ফলাফলগুলি একটি মৌলিক প্রশ্নের উত্থাপন করে: LLM এবং বাস্তব বাজারের কার্যপ্রণালীর মধ্যে কতটা বিস্তৃত বিচ্ছিন্নতা রয়েছে।

সবচেয়ে উল্লেখযোগ্য উদাহরণটি হল টেক স্টার্টআপ Nof1 দ্বারা পরিচালিত Alpha Arena প্রতিযোগিতা। এই প্রতিযোগিতায় Anthropic-এর Claude, Google-এর Gemini, OpenAI-এর ChatGPT এবং Elon Musk-এর Grok সহ আটটি অগ্রণী AI সিস্টেমকে চারটি স্বতন্ত্র প্রতিযোগিতায় প্রতিযোগিতায় নিয়োগ করা হয়েছিল, যেখানে প্রতিটি প্রতিযোগিতার আগে ১০,০০০ ডলার অর্থ প্রদান করা হয়েছিল এবং দুই সপ্তাহের মধ্যে মার্কিন টেক শেয়ারে স্বয়ংক্রিয়ভাবে ট্রেডিং করতে হয়েছিল। শেষপর্যন্ত, মোট বিনিয়োগের প্রায় এক-তৃতীয়াংশ ক্ষতি হয়েছিল, ৩২টি ফলাফলের মধ্যে মাত্র ৬টিতেই লাভ হয়েছিল।

নোফ১-এর প্রতিষ্ঠাতা জে আজহাং সরাসরি বলেন: "এখন টাকা সরাসরি এলএলএম-এর হাতে দিয়ে তাকে নিজেই ট্রেড করতে দেওয়ার পথটি এখনও খোলা নয়।"

প্রতিযোগিতার ফলাফল: ক্ষতি, অতিরিক্ত ট্রেডিং এবং সিদ্ধান্তের অসমঝতা

Alpha Arena-এর ডেটা প্রদর্শন করে যে বর্তমানে LLM-গুলি ট্রেডিং পরিস্থিতিতে বহু ত্রুটি প্রদর্শন করছে। একই প্রম্পটের অধীনে, আলিবাবার Qwen একটি প্রতিযোগিতায় 1,418টি ট্রেড সম্পাদন করেছে, যখন সর্বোত্তম পারফরম্যান্স দেখানো Grok 4.20 কেবলমাত্র 158টি অর্ডার দিয়েছে। Grok-এর সর্বোত্তম পারফরম্যান্স তখনই দেখা গিয়েছিল যখন এটি প্রতিদ্বন্দ্বীদের পারফরম্যান্স পর্যবেক্ষণ করতে পারছিল।

AI ব্লগ Flat Circle দ্বারা ট্র্যাক করা 11টি মার্কেট-সংক্রান্ত অ্যারেনা অনুযায়ী, সমস্ত অ্যারেনায় কমপক্ষে একটি মডেল লাভ অর্জন করেছে, তবে শুধুমাত্র দুটি অ্যারেনায় মধ্যকালীন মডেলটি ধনাত্মক আয় প্রদর্শন করেছে, যা ইঙ্গিত করে যে বেশিরভাগ মডেল মার্কেটকে পিছনে ফেলতে পারছে না।

মডেলগুলির মধ্যে সিদ্ধান্তের পার্থক্যও মনোযোগ আকর্ষণ করে। আজহাংয়ের বর্ণনা অনুযায়ী, অ্যালফা আরেনার সর্বশেষ পরীক্ষায়, Claude লং পজিশনের পক্ষে ছিল, Gemini শর্ট পজিশনের প্রতি কোনও বাধা দেখায়নি, এবং Qwen উচ্চ লিভারেজ ব্যবহার করে ঝুঁকি নিতে উৎসাহিত ছিল। "তাদের প্রতিটিরই 'ব্যক্তিত্ব' রয়েছে, এগুলি পরিচালনা করা প্রায় একজন মানব বিশ্লেষককে পরিচালনা করার মতো," Intelligent Alpha-এর পরিচালক Doug Clinton বলেন, যিনি LLM-চালিত ফান্ড পরিচালনা করেন। মডেলগুলিকে এটি কোনও বায়াসের অস্তিত্ব রয়েছে তা জানিয়ে, ফলাফলগুলি কিছুটা উন্নত করা সম্ভব।

ক্ষমতার সীমানা: LLM গবেষণায় দক্ষ, কিন্তু সময়নির্ধারণে দক্ষ নয়

জে আজহাং বলেন যে, এলএলএম-এর গবেষণা এবং সঠিক টুল কল করার ক্ষেত্রে সুবিধা রয়েছে, কিন্তু ট্রেডিং বাস্তবায়নের স্তরে এগুলির প্রাণঘাতী দুর্বলতা রয়েছে: এগুলি এখনও শেয়ার মূল্যকে প্রভাবিত করে এমন অসংখ্য চলক—যেমন বিশ্লেষকদের মূল্যায়ন, অভ্যন্তরীণ কর্মচারীদের লেনদেন, মনোভাবের পরিবর্তন—এর প্রতিটির ওজন বুঝতে পারছে না, ফলে এগুলি ট্রেডিংয়ের সময়, পোজিশন আকার, এবং ক্রয়-বিক্রয়ের প্রায়তা নিয়ে ভুল করতে পারে।

Intelligent Alpha-এর বেঞ্চমার্কটি একটি আপেক্ষিক ইতিবাচক প্রসঙ্গ প্রদান করে। এই বেঞ্চমার্কটি 10টি AI মডেলকে আর্থিক ফাইল, বিশ্লেষকদের পূর্বানুমান, আয় বিবৃতি কনফারেন্স কলের রেকর্ড, ম্যাক্রোঅর্থনৈতিক ডেটা এবং ওয়েব সার্চের অ্যাক্সেস প্রদান করে, যা লাভের পূর্বানুমানের দিকনির্দেশনা নির্ণয়ের উপর ফোকাস করে। ফলাফলগুলি দেখায় যে 2025 এর চতুর্থ ত্রৈমাসিকে, OpenAI-এর ChatGPT-এর লাভের পূর্বানুমানের দিকনির্দেশনা সঠিকভাবে ভবিষ্যদ্বাণী করার সঠিকতা 68% ছিল, যা এখনও পর্যন্ত সেরা পারফরম্যান্স। Clinton-এর মতে, প্রতিটি নতুন ভার্সন প্রকাশের সাথে সাথে মডেলের পারফরম্যান্সের সামগ্রিক প্রবণতা উন্নতির দিকে যাচ্ছে।

পদ্ধতিগত সমস্যা: ব্যাকটেস্টিং ব্যর্থ, রিয়েল-টাইম টেস্টিং একমাত্র বিকল্প

এআই ট্রেডিং ক্ষমতা মূল্যায়নের একটি মৌলিক পদ্ধতিগত বাধা রয়েছে। পারম্পরিক কোয়ান্টিটেটিভ কৌশলগুলি ঐতিহাসিক ব্যাকটেস্টিংয়ের উপর নির্ভর করে কার্যকারিতা যাচাই করে, কিন্তু এই কাঠামোটি এলএলএম-এর জন্য প্রায় সম্পূর্ণভাবে অকার্যকর—একটি মডেল, যা 2026 সালে 2020 সালের মার্চের বাজারের সাথে ব্যবহারের জন্য জিজ্ঞাসিত হয়, ইতিমধ্যেই "জানে" যে সেই ঐতিহাসিক ঘটনার ফলাফল কী ছিল। এই "অগ্রগতি বিয়াস" (lookahead bias) নামক দূষণের সমস্যাটি গবেষকদেরকে AI-কে বাস্তব-জীবনের বাজারের মধ্যে মূল্যায়নের জন্য বাধ্য করেছে, যা বর্তমানে বিভিন্ন বেঞ্চমার্ক এবং প্রতিযোগিতা মঞ্চের বৃদ্ধির দিকে পরিচালিত করেছে।

ফ্ল্যাট সার্কেল ব্লগের লেখক এবং পূর্বের বিকল্প ডেটা প্রদানকারী YipitData-এর সহ-প্রতিষ্ঠাতা জিম মোরান মনে করেন, বর্তমানে বেশিরভাগ পাবলিক এক্সপেরিমেন্টের সময়কাল খুব ছোট এবং নয়েজ খুব বেশি, যা নিশ্চিত উপসংহারের জন্য যথেষ্ট নয়। এই কম্পিটিশন ফিল্ডগুলিতে প্রাকৃতিক অসুবিধাও রয়েছে, যার মধ্যে রয়েছে প্রোপ্রাইটারি স্টক রিসার্চ সংস্থানগুলির অ্যাক্সেসের অভাব এবং কম গুণগত কার্যক্ষমতা। "যদি এই কম্পিটিশন ফিল্ডগুলির মধ্যে একটি AI এজেন্টকে সরাসরি একটি শীর্ষস্থানীয় হেজফান্ডের ভিতরে চালু করা হয়, তবে এটির পারফরম্যান্স ভালো হবে," তিনি বলেন।

শিল্পের দৃশ্য: প্রকৃতপক্ষে কার্যকরী কৌশলগুলি হয়তো জনসাধারণের দৃষ্টি থেকে নিঃশব্দে অদৃশ্য হয়ে যাবে

পূর্বের Coatue Management-এর ডেটা সায়েন্স প্রধান এবং বর্তমানে NX1 Capital-এ কর্মরত আলেকজান্ডার ইজিডোরচিক সম্প্রতি একটি নিবন্ধে উল্লেখ করেছেন যে, তিনি যে সমস্ত AI ট্রেডিং বট অনুসরণ করছেন, তাদের মধ্যে এখনও কোনোটিই টিকে থাকা অতিরিক্ত রিটার্নের ক্ষমতা প্রদর্শন করেনি। তিনি মনে করেন, এই প্রতিযোগিতার সীমাবদ্ধতা হলো এদের প্রশিক্ষণ ডেটায় গোপন ট্রেডিং প্রতিষ্ঠানগুলির ব্যবহৃত ব্যবহারিক কোয়ান্টিটেটিভ প্রযুক্তির অভাব।

তবে, ইজিদোরচিক একটি চিন্তার উদ্দীপনা রেখে গেছেন: "অভিজ্ঞদের যা দেখতে পায় না, তা শুরুর দিকের ব্যক্তিরা কখনও কখনও দেখতে পায়।" তিনি তাঁর ব্যক্তিগত ব্লগে লিখেছেন, "যখন LLM এজেন্ট ট্রেডিং স্ট্র্যাটেজি আসলেই কাজ করতে শুরু করবে, তখন আপনি তাৎক্ষণিকভাবে কোনো খবর শুনতে পাবেন না।"

নোফ১ এলফা আরেনার দ্বিতীয় মৌসুমের জন্য প্রস্তুতি নিচ্ছে, যেখানে প্রতিটি এআই মডেলকে ওয়েব অনুসন্ধান, দীর্ঘতর চিন্তার সময়, বেশি ডেটা উৎস এবং একাধিক ধাপে কার্যক্রম পরিচালনার ক্ষমতা দেওয়ার পরিকল্পনা করা হয়েছে। তবে কোম্পানির মূল ব্যবসায়িক মডেল হল ছোট বিনিয়োগকারীদের জন্য এআই ট্রেডিং এজেন্ট তৈরির জন্য সিস্টেম টুলস প্রদান—যা এআইকে সরাসরি ট্রেডিং ফ্লোরে পাঠানোর বদলে। এই অবস্থানটিই, সম্ভবত, বর্তমান এআই ট্রেডিং ক্ষমতার জন্য সবচেয়ে বাস্তবসম্মত মন্তব্য।