چگونگی به کارگیری علم داده (Data Science) در بازار سهام

شرح مباحث علم داده با استفاده از بازار های مالی

این روز ها علم داده (Data Science) بحث رایج در صنعت ‌های مختلف محسوب می شود. همه به دنبال این هستند که داده‌ ها (Data) چه مفهومی دارند و چطور می‌ توانند به ما کمک کنند. بیشتر اوقات این داده ‌ها (Data) می‌ توانند به صورت یه سری اعداد باشند و این اعداد قادر هستند اطلاعات مختلفی به ما دهند. برای مثال این اعداد می‌ توانند مقدار فروش، فهرست موجودی، مشتری و از همه مهم تر - در مورد پول باشند.

تمرکز این مقاله بر روی بازار مالی و به طور دقیق تر بر روی بازار سهام (Stock Market) است. سهام، کالا و اوراق بهادار همگی معنای یکسانی دارند، وقتی در مورد بازار معامله صحبت می‌کنیم. ما سهام را می فروشیم، می خریم یا نگه می داریم برای اینکه سود بیشتری نصیب ما بشود. سوالی که پیش می‌ آید این است که:

چطور علم داده می تواند در زمینه داد و ستد در بازار های مالی به ما کمک کند؟

مفاهیم علم داده (Data Science) در بازار سهام

بسیاری از افراد از مفاهیم علم داده مطلع نیستند. بگذارید در اول بحث به توضیح آنها بپردازیم. علم داده به صورت ذاتی با دانش‌ آمار (Statistics)، ریاضیات و برنامه نویسی در ارتباط است. در این مقاله لینک‌ هایی مختلف در مورد این موضوعات موجود است که می‌ توانید از آنها بازدید فرمایید. حالا به موضوعی می پردازیم که مطمئنم همه ما اینجا برای آن جمع شده ایم - استفاده از علم داده برای تحلیل بازار سهام. علم داده کمک می کند که با تجزیه و تحلیل اطلاعات یک سهام مطلع شویم که باید روی سهام مورد نظر سرمایه گذاری انجام شود یا خیر.

الگوریتم (Algorithm)

در علم داده (Data Science) الگوریتم ‌ها بسیار زیاد استفاده می شوند. الگوریتم ‌ها مجموعه‌ ایی از قوانین هستن که به ما کمک می کنند تا کار مشخصی (Task) را انجام دهیم. شما شاید با اصطلاح تجارت الگوریتمی (Algorithmic Trading) روبرو شده باشید که به صورت رایج از این تکنیک در بازار سهام استفاده می شود. تجارت الگوریتمی از یکسری الگوریتم هایی که برای بازار سهام طراحی شده استفاده می کند. برای مثال، خرید سهامی که ارزش آن در همان روز ۵% کاهش یافته است. یا فروش سهامی که ۱۰% ارزش خود را از زمان خرید از دست داده است.

این دسته از الگوریتم‌ ها قادر به انجام معامله در بازار سهام بدون هیچ نیاز به کمک از سمت انسان‌ ها هستند. این الگوریتم‌ ها ربات تجاری نامگذاری شده ا‌ند زیرا از یکسری قوانین برای معامله استفاده می کنند. اگر مایل به دیدن مثالی در مورد درست کردن الگوریتم‌ های تجاری هستید به لینک پایین مراجعه فرمایید.

لینک: Coding Your Way to Wall Street

آموزش (Training)

در علم داده (Data Science) و هوش مصنوعی (Machine Learning) منظور از آموزش دادن انتخاب داده ‌ها (Data) یا قسمتی از داده‌ ها برای آموزش دادن مدل هوش مصنوعی (Machine Learning Model) بر روی آنها است. تمام اطلاعات (Data Set) به دو دسته متفاوت آموزش (Training) و آزمون (Testing) تقسیم می شوند، که آموزش ۸۰% و امتحان ۲۰% آن را دربر می‌گیرد. این دسته از اطلاعات که برای آموزش استفاده می شوند Training Data یا Training Set نیز نام دارند. برای اینکه مدل هوش مصنوعی تخمین دقیق تری را ارائه دهد، از اطلاعاتی که از قبل در دسترس است استفاده می شود. به فرض اگر ما مایل هستیم تا مدل هوش مصنوعی قیمت سهام مورد نظر کاربر در ماه آینده را تخمین بزند، باید اطلاعات در مورد قیمت همان سهام در سال گذشته در اختیار مدل هوش مصنوعی قرار دهیم.

آزمون (Testing)

بعد از پایان مرحله آموزش با استفاده از Training set، حالا فرصت به بررسی بازدهی مدل می رسد. در اینجا ما از ۲۰% باقیمانده اطلاعات که Testing Data یا Testing Set نام دارند استفاده می‌کنیم. در واقع ما تخمین بدست آماده توسط مدل را با Testing Set مقایسه و بازدهی مدل را محاسبه می‌کنیم.

ویژگی ‌ها و هدف (Features & Target)

در علم داده معمولا اطلاعات به صورت جدول بندی نشان داده می شوند (برای نمونه Excel Sheets یا DataFrames). این اطلاعات می‌توانند نقش مهمی رو ایفا کنند. برای مثال، یک ستون می تواند قیمت سهام ها، نسبت P/B، حجم (Volume) یا اطلاعات مالی دیگری در خود گنجانده باشد.

در این مورد قیمت سهام ‌ها - هدف (Target) و بقیه اطلاعات مالی - ویژگی ‌های بازار (Features) محسوب می شوند. در علم داده‌ ها (Data Science) یا آمار (Statistics) هدف همان متغیر وابسته (Dependent Variable) و بقیه ویژگی های بازار متغیر‌ غیر وابسته (Independent Variable) محسوب می شوند. در واقع،
مدل هوش مصنوعی سعی بر تخمین مقدار هدف با استفاده از ویژگی های بازار دارد.

مدل سازی: سری زمانی (Time-Series)

علم داده از مدل سازی (Modeling) استفاده زیادی می‌کند. مدل سازی استفاده از رویکرد ‌های ریاضیاتی بر روی اطلاعات موجود در گذشت برای پیشبینی مقدار هدف در آینده می‌ باشد. وقتی از اطلاعات مالی در بازار سهام صحبت می‌کنیم منظور از مدل سازی، مدل سازی سری زمانی (Time Series Modeling) است. سوالی که پیش می‌ آید این است که سری زمانی چه تعریف می‌شود؟

سری زمانی به یک سری از اطلاعات گفته می شود که به صورت ماهانه، روزانه، ساعتی، یا دقیقه ای نشان گذاری (Indexed) شده ا‌ند. در مورد بازار سهام، اطلاعات و نمودار‌ های یک سهام بر اساس سری زمانی ساخته شده ا‌ند. بر همین اساس، زمانی که یک Data Scientist قصد مدل سازی برای یک بازار سهامی را دارد باید از سری زمانی استفاده کند. برای کار کردن با یک مدل سری زمانی (Time-Series Model) بر روی قیمت ‌های بازار سهام باید از هوش مصنوعی یا یادگیری عمیق (Deep Learning) استفاده شود. این مدل ها به ما کمک می‌کند تا پیشبینی بر روی قیمت ‌های بازار سهام در بازه زمانی مشخص داشته باشیم. برای آشنایی بیشتر در مورد اینکه چگونه می شود از هوش مصنوعی یا یادگیری عمیق در مورد پیشبینی قیمت Bitcoin استفاده کنیم، به لینک‌های پایین مراجعه کنید.

لینک: Predict Bitcoin Prices with Machine Learning
لینک: Predict Bitcoin Prices with Deep Learning

مدل سازی: طبقه بندی (Classification)

گونه دیگری از مدل سازی در علم داده و هوش مصنوعی طبقه بندی (Classification) نام دارد. در این نمونه از مدل سازی، اطلاعاتی در مورد بازار سهام به مدل داده شده و مدل تعیین می‌کند یا تخمین می زند که اطلاعات ارائه شده به کدام دست بندی تعلق دارد.

در بازار سهام، ما می توانیم اطلاعاتی مالی یک سهم از قبیل نسبت P/E، حجم روزانه، کل بدهی، و غیر به هوش مصنوعی دهیم. مدل پس از بررسی سهام را در یکی از دست‌های خرید، فروش یا نگه داشتن قرار می دهد و معین می‌کند که آیا این سهام از نظر اقتصادی دارای یا فاقد ارزش می‌ باشد.

این لینک‌ها شامل مثل هایی در مورد طبقه بندی سهام ها هستند.

لینک: Teaching a Machine to Trade Stocks like Warren Buffett, Part I
لینک: Teaching a Machine to Trade Stocks like Warren Buffett, Part II

پوشیدن بیش از حد و پوشیدن غیر کافی (Overfitting & underfitting)

در زمان ارزیابی کارایی یک مدل، ما ممکن است به اشتباه "دمای بسیار" بالا یا "دمای بسیار پایین" را به جای "دمای کاملا مناسب" انتخاب کنیم؛ مثال تخم مرغ. این‌ها از قبیل اشکالاتی هستند که باید زمان بررسی مدل‌های خود در نظر داشته باشیم. در بازار سهام، پوشیدن بیش از حد زمانی اتفاق می افتد که مدل نمی‌تواند گرایش‌های بازار را تشخیص دهد و قادر به سازگاری و وقف به شرایط آینده بازار نیست. همچنین، پوشش غیر کافی زمانی اتفاق می افتاد که مدل تنها میانگین قیمت تمام سهام‌های موجود در بازار بورس را به ما ارائه می دهد. به عبارت دیگر، پوشیدن بیش از حد و پوشیدن غیر کافی منجر به پیشبینی ضعیف و غیر قابل اعتماد در مورد قیمت سهام در آینده می شود.

لینک: Underfitting and Overfitting in Machine Learning

در پایان

موضوع هایی که مورد بحث قرار گرفته اند مفاهیم مشترک میان علم داده و هوش مصنوعی است. این مفاهیم نقش بسیار مهمی را برای یادگیری علم داده دارند. این مفاهیم قسمت کوچکی از مجموعه موضوع‌های هستند که به علم داده مرتبط می شوند. امیدوارم این مقاله کمکی باشد به علاقه مندان به علم داده در بازار سهام.

لینک مقاله: How to Use Data Science on the Stock Market

مترجم: حسن رضوانی - گروه مالی صدر