کلان داده یا همان Big Data چیست؟

1. چکیده

در این تحقیق تلاش شده است تا مفهوم Big Data مورد بحث قرار گرفته و بیان شود که ابتداً مفهوم داده چیست و سپس در چه مواقعی با داده های بزرگ سروکار خواهیم داشت و همین طور دسته بندی داده ها به چه شکلی است و از چه روش هایی برای ذخیره سازی و تحلیل این داده های بزرگ استفاده می شود. سپس نگاهی کلی به استفاده از مفاهیم هوش مصنوعی مثل یادگیری ماشین درباره داده های بزرگ می اندازیم.

2. معنا شناسی کلمه Data

معنای لغت نامه: حقایق و آمار و ارقام ای که در کنار یکدیگر جمع شده اند به منظور رجوع یا آنالیز.

معنای کاربردی: مقادیر، کاراکتر ها و سمبل ای که به وسیله عملیات های کامپیوتری تولید و به کار گرفته می شوند و می تواند ذخیره شده و یا به شکل سیگنال های الکتریکی ارسال شوند و در نوار های مغناطیسی یا نوری یا مکانیکی ذخیره شوند.

کلمه Data حالت جمع کلمه Datum می باشد.

3. انواع داده چیست ؟

داده به چند دسته کلی تقسیم می شوند:

متن
اعداد
عکس
صوت
فیلم

این دسته بندی یک دسته بندی کلی است، اما باید توجه داشت که برای مثال طول و عرض جغرافیایی پدیده های طبیعی زمین، اطلاعات آب و هوایی، اطلاعات رشد گیاهان و بررسی های آزمایشگاهی، اطلاعات سیستم های حمل و نقلی عمومی و خصوصی و بسیاری دیگر از داده هایی که به صورت روزمره با آن ها درارتباط هسیتم نیز زیرمجموعه این موارد قرار می گیرند و جدای از این ها نیستند.

4. خصوصیات کلان داده

به صورت غیرآکادمیک و در محیط تجاری برای کلان داده‌ها و نحوه‌ی کار با آن‌ها چندین ویژگی منحصر به فرد می‌شمارند که هر یک از آن‌ها به یک بعد از این موضوع اشاره دارد. این ویژگی‌ها که با نام «وی‌های بیگ دیتا» (Vs of big data) شناخته می شوند (دلیل آن شروع هر یک از این خصوصیات با حرف V انگلیسی است)، به تعداد مختلفی بیان شده‌اند که به جهت رعایت اختصار در زیر به 5 مورد از آن‌ها اشاره شده است:

4.1 . حجم (Volume)

با توجه به اینکه بیش از ۹۰ درصد تمام داده‌های امروز در چند سال گذشته به دلیل گسترش سکوهای ارتباط جمعی ایجاد شده‌است، حجم عظیم داده‌ی تولید شده موجب شگفتی نیست. مقدار فعلی اطلاعات می‌تواند واقعا سرسام‌آور باشد و همین ویژگی است که به صورت کاملاً مشخص حتی در نام این حوزه (Big Data) دیده می‌شود. در اینجا چند مثال آورده شده‌است:

· در هر دقیقه ۳۰۰ ساعت ویدئو در یوتیوب آپلود می‌شود.

· تخمین زده می‌شود که ۱.۱ تریلیون عکس در سال ۲۰۱۶ گرفته شده‌است و این تعداد در سال ۲۰۱۷ به میزان ۹ درصد افزایش خواهد یافت. از آنجا که از هر عکس معمولاً چندین نمونه در محیط های گوناگون - خدمات وب، سایت‌های ارتباط جمعی و ... – وجود دارد، انتظار می‌رود تعداد کل عکس‌ها نیز از ۳.۹ تریلیون در سال ۲۰۱۶ به ۴.۷ هزار میلیارد در سال ۲۰۱۷ رشد داشته باشد.

در سال ۲۰۱۶ تخمین زده شد که ترافیک هوایی جهانی بالغ بر6.2 اگزابایت (6.2 میلیارد گیگابایت) در ماه است.

4.2 . سرعت (Velocity)

این ویژگی همانطور که از نام آن برمی‌آید مربوط به سرعت تولید داده است که با توجه به گسترش وسایل ارتباطات و نیز شرکت حجم عظیمی از مردم جهان در آن‌ها بعید به نظر نمی‌رسد. اما شاید رو‌به‌رو شدن با اعداد و ارقام واقعی آن ما را طور دیگری با این وجه از کلان داده آشنا کند. البته به این موضوع بخش شماره 5 پرداخته شده است.

4.3 . تنوع (Variety)

تنوع، یکی از جالب‌ترین تحولات در تکنولوژی است، همانطور که اطلاعات گوناگونی روز به روز تبدیل به داده‌های دیجیتال می‌شوند. داده‌هایی که از داده‌های سنتی (داده‌های ساختاریافته – Structured Data) مانند اطلاعات یک نامه‌ی بانکی (تاریخ و زمان و ...) تا داده های غیرساختاریافته (Unstructured Data) مانند فایل‌های صوتی، تصاویر MRI، صفحات وب و ... را دربر میگیرد که در بخش شماره 8 به آن پرداخته خواهد شد.

4.4 . صحت (Veracity)

به نظر می‌رسد صحت برای داده‌های کلان یک ویژگی دور از دسترس باشد. از آنجا که هر یک از ویژگی‌های بالا افزایش می‌یابد، صحت (اعتماد یا اطمینان در داده‌ها) افت می‌کند. این مشابه با، اما نه یکسان، اعتبار (Validity) داده است. صحت به منشأ یا منبع قابلیت اطمینان داده‌ها، بافت آن و میزان معنی‌دار بودن آن با توجه به تحلیل آن اشاره دارد.

به عنوان مثال در مورد داده‌های مربوط به آنچه که مردم در طی پنج سال گذشته در رستوران‌ها و این موارد خرید کرده‌اند پاسخ به سؤالاتی از قبیل، چه کسی این منبع این داده‌ها بوده است؟ آن‌ها در جمع‌آوری داده‌ها چه روشی را دنبال کردند؟ سازندگان داده‌ها اطلاعات را خلاصه می‌کنند؟ آیا اطلاعات توسط شخص دیگری ویرایش شده یا اصلاح شده‌اند؟ و ... برای تعیین صحت این اطلاعات ضروری است.

دانش صحت اطلاعات به نوبه‌ی خود به ما کمک می‌کند تا خطرات مرتبط با تحلیل و تصمیمات کسب‌وکار را براساس این مجموعه داده‌ی خاص بیابیم.

4.5 . ارزش (Value)

آخرین، اما مسلماً مهم‌ترین ویژگی، ارزش است. اگر شما ارزش کسب‌وکار را از داده‌ها کسب نکنید، ویژگی‌های دیگر داده‌های بزرگ بی‌معنی هستند.

ارزش قابل‌توجهی را می توان در داده‌های بزرگ یافت؛ از جمله: درک بهتر مشتریان، هدف گذاری بهتر بر روی آن، بهینه‌سازی فرآیندها و بهبود عملکرد دستگاه و ... . که البته این موضوع نیز با توجه به اهمیت آن به صورت جداگانه در یکی از عناوین مقاله آورده شده است.

5. سرعت تولید داده

سرعت تولید داده در عصر حاضر بسیار بالاست، درصورتی که به روند رشد تعداد کاربران اینترنت نگاهی بکنیم، متوجه خواهیم شد که این رشد کاربران بسیار مشهود می باشد.(شکل 1)

شکل 1 - سرعت رشد کاربران اینترنت – منبع سایت Demo

این افزایش کاربران تاثیرات زیادی دارد و مشهود ترین آن ها تولید محتوای بسیار بالا در شبکه های اجتماعی و سایت ها و رسانه های دیجیتال می باشد. در سال 2019 سرعت تولید داده در بعضی از شبکه های اجتماعی و سایت ها در شکل زیر آمده است که خود نشان دهنده سرعت بالای رشد داده در جهان است.(شکل 1)

1. ارزش کلان داده (Big Data Value)

در عصر حاضر که از آن با نام «عصر اطلاعات» (Information Era) نیز یاد می‌شود، ارزش اطلاعات به طور چشمگیری ملموس است. به طوری که علت ایجاد شرکت‌های امنیتی در حوزه سایبری را در بسیاری از کشورها میتوان در این مقوله دانست.

با این تعریف داده‌هایی که در فضای سایبر تولید و در اینترنت به اشتراک گذاشته می‌شوند روز به روز و با پیشرفت تکنولوژی‌های جمع آوری داده (Data Mining) اهمیت بیشتری پیدا می‌کنند. اما اگر بخواهیم به لحاظ علمی و مختصر به آن بنگریم ارزش این اطلاعات در 2 رویکرد قابل بررسی است.

رویکرد اول، که مربوط به نتایج مراحل فرآوری داده است، هرمی را نشان می‌دهد که موسوم به «هرم دانش» (Knowledge Pyramid / DI-KW pyramid) است. در این هرم با فرآوری داده‌های خام و انجام عملیات‌های متعدد یک داده‌ی خام که در ابتدا شاید از ارزش کمی برخوردار باشد تبدیل به تحلیل یا مقاله‌ای پر ارزش می‌شود که در سطوح مدیریتی بالا از آن استفاده می‌شود.

رویکرد دوم نیز مربوط به همان مراحل است اما به طور خاص به فرآیند، و نه نتیجه و محصول، می‌پردازد. به صورتی که در طی این مراحل که داده‌ی خام ورودی آن است ارزش یک داده افزایش پیدا می‌کند. البته این رویکرد بیشتر در فضای تجاری کاربرد دارد.

1. کاربردهای کلان داده

در حاضر که به دلیل گستردگی وسایل ارتباطات جمعی، مقیاس بزرکی از داده در ابعاد مختلفی از زندگی اجتماعی در بستر اینترنت تولید می‌شود باعث شده تا شرکت‌ها و نهادهای مختلف با توجه و اهداف گوناگون با به کارگیری الگوریتم‌ها و تکنیک‌های داده‌کاوی و نیز با جمع‌آوری و ذخیره‌ی داده از این علم در راستای اهداف خود بهره گیرند که کاربردهای این علم را در بسیاری از حوزه‌ها تشکیل می‌دهد. برخی از این داده ها که در زندگی روزمره با آن برخورد می‌کنیم به صورت زیر است:

توییت‌های ذخیره‌شده در سرورهای توییتر
اطلاعاتی که گوگل از ردیابی خودروهای سواری به‌دست می‌آورد
مجموعه‌ای کامل از نتایج انتخابات محلی و ملی کشور که ابتدایی‌ترین رکوردها را نیز در بردارد
اطلاعات شرکت‌های بیمه درمانی درباره‌ی افرادی که تحت درمان قرار می‌گیرند، نوع معالجات آن‌ها و بیمارستان مورد نظر دارند
اطلاعات لیست خریدها و مکان‌های ثبت شده در کارت‌های اعتباری
اطلاعات زمان، مکان و مدت زمان فیلم‌هایی که افراد در نت‌فلیکس تماشا می‌کنند

حال جدای از تأثیر این موضوع بر اقتصاد و تعاملاتی که در حوزه ی خرید و فروش و معامله ی داده انجام می‌شود که نمونه ای از آن را در افشای اطلاعات مشترکان توسط فیسبوک در سال 2018 و فروش آن به شرکتی مشاوره‌ای مشاهده شد، می‌خواهیم به صورت مختصر کاربردهای کلان داده را بررسی کنیم:

1.1 . خدمات بهداشتی، درمانی و سلامت

شرکت‌های بیمه سلامت و نیز نهادهای دولتی و بیمارستانی با روی آوردن به ثبت پرونده و اطلاعات به صورت دیجیتالی و تحلیل این داده‌ها از آن در تصمیمات خود استفاده می‌کنند. برای مثال تحلیل اطلاعات بیماران در طول سال می‌تواند به شرکت‌های بیمه‌ای در سرمایه‌گذاری در زمینه‌های خاصی از بیماری‌ها کمک کند.

1.2 . صنعت انرژی

از کلان داده برای صرفه جویی در انرژی نیز می‌توان استفاده کرد. شرکتی به نام Xcel Energy از فناوری Smart grid در ساختمان‌ها استفاده می‌کند. با این فناوری می‌توان میزان مصرف انرژی را کنترل و بهینه‌سازی کرد. علاوه بر این این شرکت به سازمان‌ها و کمپانی‌های مختلف پیشنهاداتی را برای بهبود در ساختن ساختمان‌هایشان و استفاده انرژی به صورت درست بهینه در بخش‌های مختلف ساختمان ارائه می‌دهد. تمامی این کارها به کمک کلان داده امکان پذیر است.

1.3 . ورزش

باید گفت بیشتر تیم‌های محبوب و معروف از کلان داده برای بهبود تیم و ورزشکاران خود استفاده می‌کنند. برای مثال آنالیزهای ویدیویی یا نصب سنسور روی بدن بازیکنان و جمع‌آوری اطلاعات بدنی و حرکتی آنها در حین فعالیت و … از کارهایی است که برای استفاده از بیگ دیتا در زمینه‌ی ورزش انجام می‌شود.

1.4 . شبکه‌های اجتماعی

یکی از مهمترین کاربردهای این موضوع تحلیل شبکه‌های اجتماعی است. شناسایی چهره، تطبیق پروفایل و … مثال‌هایی از این کاربرد هستند. باید گفت شبکه‌های اجتماعی در ارتباط با بدنه اصلی جامعه هستند و مرتباً به روز می‌شوند. منبع و کانالی که قبل از به وجود آمدن این شبکه‌ها وجود نداشت و حالا می‌تواند به رایگان در اختیار شرکت‌ها به شرط رعایت حریم خصوصی افراد قرار بگیرد و به خصوص در علوم اجتماعی بسیار مفید واقع شود.

1.5 . امنیت و تشخیص کلاهبرداری

برخی از نهاد‌های مالی و نیز بانک‌ها با استفاده از این داده‌ها تشخیص بسیاری از کلاهبرداری‌هایی که به واسطه‌ی عدم توانایی تحلیل حجم بالای اطلاعات توان انجام نبود را میسر ساخته‌اند. یک نمونه‌ی آن تشخیص کارت‌های تقلبی و کلاهبرداری کارت‌های بانکی است. به این صورت که با تحلیل فاصله زمانی و مکانیِ زمان و مکان استفاده از کارت بانکی و تحلیل آن (از نظر امکان‌پذیری بودن) تشخیص می‌دهند که کاربر این کارت مرتکب جرم شده است یا خیر.

2. دسته بندی داده بزرگ (Big Data)

برای داده های بزرگ (Big Data) دسته بندی های متنوعی مطرح شده است که البته این دسته بندی ها برای داده های عادی نیز صدق می کند، ولی معروف ترین دسته بندی که موجود است به شکل زیر می باشد:

داده ساختار یافته (Structured Data)
داده بدون ساختار (Unstructured Data)
داده شبه ساختار یافته (Semi-Structured Data)

2.1 . داده ساختار یافته (Structured Data)

داده ساختاریافته به داده هایی گفته می شود که به گونه ای هستند که قابلیت ذخیره سازی به صورت خودکار و مرتب در داخل پایگاه های داده و فایل ها را دارند و امکان آنالیز آن ها به راحتی فراهم می باشد.
این داده ها حدود 20 درصد داده های امروزه جهان را تشکیل می دهند.

منابع تولید این گونه داده ها به دو دسته کلی 1.انسان، 2.کامپیوتر(ماشین) تقسیم می شوند.

داده هایی که به وسیله انسان تولید می شود، داده هایی هستند مثل تمامی اطلاعاتی که وسیله انسان در سایت ها و سامانه های مجازی وارد می شوند مثل اسم، شماره تلفن، ایمیل، سن و ... یا شامل تمامی کلیک هایی که بر روی لینک ها نقاط مختلف سایت ها، حرکت های بازیکن های یک بازی کامپیوتری و ... هستند.

داده هایی که به واسطه ماشین تولید می شوند نیز شامل طیف گسترده ای هستند، داده های سنسورها، وبلاگ ها، سیستم های مالی و اقتصادی، دستگاه های دارویی و درمانی و حفظ سلامتی، دستگاه های GPS و بسیاری دیگر از داده هایی که با سرعت بالایی در حال تولید هستند به خصوص که در دنیای امروز یکی از حوزه های پر استفاده و مطرح جهان بحث اینترنت اشیاء و خانه ها و شهر های هوشمند هستند که در این صورت سرعت تولید داده به صورت سرسام آوری افزایش خواهد یافت.

دنیای آینده دنیایی خواهد بود که اتومبیل های خودران و خانه های هوشمندی که لوازم خود را به صورت خودکار تامین می کنند شاید ساده ترین دستگاه های تولید داده در آن زمان خواهند بود.

با این همه باید به این موضوع توجه داشت که این دسته از داده ها تنها 20 درصد کل داده هایی است که در جهان تولید می شوند!

2.2 . داده بدون ساختار (Unstructured Data)

این داده ها شامل داده هایی هستند که به دلیل عدم تطابق نوع آن ها با یکدیگر امکان ذخیره سازی خودکار آن ها نیست، و در اکثر موارد لازم است تا در روند ذخیره سازی آن ها انسان دخالت کند.

البته ذخیره سازی آن ها مشکل نیست، مرتب سازی ذخیره ها کار دشواری است، در حالت ساختاریافته به دلیل این که تمامی ریکورد ها داده هایی از یک نوع و شبیه به هم هستند، امکان ذخیره سازی مرتب آن ها به راحتی فراهم است و سپس آنالیز آن ها بر همین اساس صورت می گیرد. اما در حالت بدون ساختار به دلیل این که داده ها از انواع بسیار مختلفی هستند، ذخیره سازی آن ها به گونه ای که قابل آنالیز باشند بسیار دشوار و در بسیاری از موارد تقریبا غیر ممکن است.

این داده ها حدود 80 درصد داده های امروزه جهان را تشکیل می دهند.

منابع تولید این گونه داده ها به دو دسته کلی 1.انسان، 2.کامپیوتر(ماشین) تقسیم می شوند.

داده هایی که توسط انسان ها تولید می شوند، داده هایی هستند مثل داده های شبکه های اجتماعی، داده های ذخیره شده در موبایل (مثل لیست تماس ها، پیامک ها، اطلاعات ذخیره شده اپلیکیشن ها و ...)، داده های موجود در وبسایت ها و ... ؛ این داده ها به گونه ای هستند که امکان این که به صورت مرتب ذخیره شوند تا بتوان آنالیز دقیقی روی آن ها انجام داد نیست. برای توضیح این موضوع برای مثال عکسی که شما در فیسبوک یا اینستاگرام آپلود می کنید یا فیلمی که در یوتیوب یا آپارات تماشا می کنید یا حتی پیامک هایی که رد و بدل می کنید همه این موارد زیر مجموعه این دسته قرار می گیرند.

تحلیل این داده ها کار بسیار دشواری است، برای مثال فرض کنید در یک شرکت به شما گفته شده باشد که فیلم آموزشی راجع به یک موضوع خاص از خودتان ضبط کنید و در اختیار شرکت قرار دهید و همین موضوع را به تعداد خیلی زیادی از کارمندان دیگر شرکت نیز گفته باشند و موضوعات آموزشی هم متفاوت باشد. از سمت دیگر مدیران این شرکت به جهت اطمینان از این که این ویدیو های آموزشی واقعا مرتبط هستند و اطلاعات خوبی را ارائه می دهند، نیاز دارند تا ویدیو ها چک شود. اما این جا با این مشکل رو به رو می شوند که تعداد ویدیو ها بسیار زیاد است و هیچ راهکار کامپیوتری برای چک کردن ویدیو ها به صورت خودکار وجود ندارد. این نمونه ای از نوع داده های بدون ساختار است که نمی توان بدون دخالت انسان به آنالیز آن ها پرداخت. به عنوان مثال می توان به هیت مپ هایی که در سایت های مختلف به منظور کنترل رفتار مشتریان استفاده می شود اشاره کرد.(شکل 4)

نوع دیگر تولید این داده ها توسط ماشین هاست، که می توان به عنوان مثال از عکس های ماهواره ها، داده های آزمایشگاهی از آزمایش های متفاوت، داده های راداری که از تکنولوژی های متفاوتی استفاده می کنند و...، همه این موارد از نوع داده هایی هستند که تحلیل آن ها بدون دخالت انسان امکان پذیر نیست؛ به عنوان مثال عکس های ماهواره ای به صورت متوالی و تعداد بسیار بالا گرفته می شود؛ برای این که متوجه شویم کدام عکس، عکس بهتری است و کیفت آن بالاتر است و موضوعات بهتری از کهکشان ها را و یا حتی از زمین را برای ما مشخص می کند، نیاز است تا انسان در روند کار دخالت کرده و این تفکیک را انجام دهد.

1.1 . داده شبه ساختار یافته (Semi-structured Data)

این داده ها شباهت زیادی به داده های ساختار نیافته دارند، به گونه ای که خط مشخصی بین آن ها وجود ندارد، هرچه علم روز بیشتر پیشرفت می کند و فناوری های جدیدی ابداء می شود، بسیاری از داده های ساختار نیافته را می توان با روش هایی آنالیز کرد و مرتب کرد تا بتوان بدون دخالت انسان به آنالیز آن ها بپردازیم. به همین دلیل بسیاری از داده ها در این دسته قرار می گیرند یعنی با روش هایی می توان به تحلیل آن ها پرداخت.

امکان ذخیره سازی این نوع داده ها در پایگاه داده های عادی مقدور نیست و برای ذخیره سازی آن ها از روش های دیگری استفاده می شود که پایگاه های داده بدون ارتباط (Non-relational Databases) نام دارند. که در بخش 5.2 به توضیح آن می پردازیم.

2. روش های ذخیره سازی

به طور کلی می توان روش های ذخیره سازی را به دو دسته تقسیم کرد:

استفاده از فایل سیستم ها
استفاده از پایگاه های داده

2.1 . استفاده از فایل سیستم ها

یکی از روش های سنتی ذخیره سازی استفاده از فایل سیستم است، با استفاده از فایل ها و دایرکتوری ها می توان یک سیستم جامع برای ذخیره سازی هایی یک نرم افزار استفاده کرد. فایل سیستم ها انواع مختلفی دارند که از جمله معروف ترین های آن ها FAT و NTFS هستند. البته فایل سیستم ها گستره بزرگی دارند و این جا نمی خواهیم وارد توضیحات دقیق این موضوع شویم.

2.2 . استفاده از پایگاه های داده

روش ذخیره سازی در پایگاه های داده تفاوت ویژه ای که با فایل ها دارد این است که داده ها در داخل جداول، گراف ها و یا نوع داده های خاصی ذخیره می شوند تا کاربری مناسبی برای موضوعی خاص داشته باشند. بسیاری از کارهای پرتکرار به صورت خودکاری روی پایگاه های داده تعریف شده است، و در زبان هایی که برای درخواست داده به این پایگاه های داده طراحی شده اند گنجانده شده است. که یکی از معروف ترین آن ها SQL است که مخفف Standard Query Language می باشد.

پایگاه های داده دسته بندی های بسیاری دارند، در این جا به بعضی از آن ها اشاره می شود:

پایگاه های داده متمرکز (Centralized DBs)
پایگاه های داده غیرمتمرکز (Decentralized DBs)
پایگاه های داده توزیع شده (Distributed DBs)
پایگاه های داده رابطه ای (Relational DBs)
پایگاه های داده غیر رابطه ای (Non-relational DBs)
پایگاه های داده سلسله مراتبی (Hierarchical DBs)

1.1.1 پایگاه های داده متمرکز (Centralized DBs)

پایگاه های داده ای که تمامی داده ها در یک دیتابیس و به صورت متمرکز ذخیره می شوند و برای دسترسی به داده لازم است تا با همین دیتابیس ارتباط گرفته شود و داده ها تنها در همین جا موجود هستند.

1.1.2 پایگاه های داده غیرمتمرکز (Decentralized DBs)

این پایگاه های داده همانند پایگاه های داده متمرکز هستند با این تفاوت که داده ها در یک نقطه ذخیره نمی شوند و به صورت پخش در سرور ها و پایگاه های داده متفاوتی ذخیره می شوند ولی این سرور ها به یک دیگر متصل هستند و داده های آن ها با یک دیگر هماهنگ است.

1.1.3 پایگاه های داده توزیع شده (Distributed DBs)

این پایگاه های داده به گونه ای هستند که بتوانند داده ها را به صورت غیر متمرکز و در مراکز مختلف نگهداری کنند و نکته مهم این است که در این پایگاه های داده هر داده ذخیره شده در یک نود با نود دیگر متفاوت است و داده ها یکسان نیست.

شکل 7 - پایگاه داده توزیع شده (نوعی بلاک چین)

1.1.4 پایگاه های داده رابطه ای (Relational Databases)

این پایگاه های داده که به پایگاه های داده سنتی معروف هستند به نحوی هستند که جداول آن ها به یک دیگر مرتبط هستند از جمله این پایگاه های داده می توان به Microsoft SQL Management System، MySQL و SQLite اشاره کرد. اتصالات جداول این پایگاه های داده به شکل های مختلفی است که توضیح مختصری در این باره ارائه می کنیم. انواع اتصالات : 1. یک به یک، 2. یک به چند، 3. چند به چند

1. اتصالات یک به یک(one to one relationship): این اتصالات به گونه ایست که یک خط ذخیره شده در یک جدول ( اصطلاحا ریکورد(Record)) تنها به یک خط از جدول دیگری متصل است.

مثال: فرض کنید در یک نرم افزار هر کاربر نام و نام خانوادگی آن در یک جدول ذخیره می شود، این کاربر علاوه بر این اطلاعات، اطلاعات محل سکونت و شماره تلفن نیز دارد. برای ذخیره سازی این اطلاعات بهتر است یک جدول مجزا برای این امر ایجاد شود و به جدول کاربر متصل شود. این اتصال یک اتصال یک به یک است.

شکل 8 - نمونه ارتباط یک به یک پایگاه داده

1. اتصالات یک به چند(one to many relationship): این اتصالات به گونه ایست که یک خط ذخیره شده در یک جدول به بیش از یک خط در جدول دیگر متصل است.

مثال: فرض کنید یک جدول داشته باشیم که شهر ها در آن ذخیره شده باشند، و علاوه بر این یک جدول داشته باشیم که کاربران ذخیره شده باشند، هر کاربر ساکن یک شهر است. اما اگر برعکس نگاه کنیم خواهیم دید که هر شهر به چندین کاربر متصل می شود، برای جلوگیری از این که اسم شهر ها در جدول شهر ها تکرار شود یک اتصال یک به چند از شهر به جدول کاربر متصل می کنیم.

شکل 9 - نمونه ارتباط یک به چند پایگاه داده

1. اتصالات چند به چند (many to many relationship): این اتصالات به گونه ایست که چند خط ذخیره شده در یک جدول به چند خط دیگر از جدول دیگر متصل هستند.

مثال: یک کتاب ممکن است چند نویسنده داشته باشد و از طرفی هر نویسنده چندین کتاب نوشته است. این یک رابطه چند به چند است؛ برای این منظور لازم است از یک جدول واسط(pivot-table) استفاده کنیم تا بتوانیم ارتباط موجود را ایجاد کنیم.

شکل 10 - نمونه ارتباط چند به چند پایگاه داده

1.1.1 پایگاه های داده غیر رابطه ای (Non-relational Databases)

این پایگاه های داده که به پایگاه های داده NoSQL معروف هستند به نحوی هستند که همانند پایگاه های داده سنتی دارای جدول و ارتباط نیستند؛ بلکه به شکل های متفاوتی هستند که به آن ها اشاره کوتاهی می کنیم:

پایگاه Key-Value: این شکل ذخیره سازی بسیار ساده داده ها را ذخیره می کند، یعنی یک keyدارد که برای شناسایی داده است و متمایز کردن آن از دیگران و یک value که مقدار مورد نظر برای ذخیره سازی است. نمونه ای از این نوع ذخیره سازی در مرورگر های وب می باشد که داده های سایت ها را به این شکل ذخیره می کنند. به عنوان مثال در شکل 11 یک نمونه از این نوع ذخیره سازی آمده است.

پایگاه Document-Oriented: این شکل ذخیره سازی به گونه ای است که برای ذخیره سازی داده های همانند JSON عمل می کند، یعنی به جای ایجاد جداول متعدد، یک جدول ایجاد کرده و به صورت شیء گونه ارتباط بین موجودیت ها را برقرار می کند؛ به عنوان مثال در شکل بالا برای ذخیره سازی یک کاربر و محل زندگی او، محل زندگی را به عنوان یکی از JSON ها داخل JSON اطلاعات خود کاربر ذخیره می کند. به عنوان مثال در شکل 12 یک نمونه از این نوع ذخیره سازی آمده است. ( JSON: JavaScript Object Notation)

شکل 12 – نمونه ای از JSON پایگاه داده Document-Oriented

پایگاه Graph: این روش ذخیره سازی برای داده های بسیار گسترده به کار می رود که از تکنیک های گراف ها برای ذخیره سازی داده استفاده می کند که در این تکنیک ها هم یال ها و هم node ها داده حمل می کنند. در بیشتر شبکه های اجتماعی برای ذخیره سازی داده از این روش استفاده می شود. به عنوان مثال در شکل 13 یک نمونه از این نوع ذخیره سازی آمده است.

پایگاه Wide-Column: این روش شباهت زیادی به روش رابطه ای دارد، با این تفاوت که بجای ذخیره سازی داده به صورت ردیفی، داده ها در یک ردیف و در تعداد ستون های گسترده ذخیره می شوند. به عنوان مثال در شکل 14 یک نمونه از این نوع ذخیره سازی آمده است.

1.1.1 پایگاه های داده سلسله مراتبی (Hierarchical DBs)

این پایگاه های داده به نحوی عمل می کنند که داده ها را به شکل یک درخت و سلسله مراتبی ذخیره می کنند و به یک دیگر متصل هستند. یعنی به عنوان مثال داده های شخصی افراد مثل آدرس خانه و ... که مربوط به یک کاربر هستند در سطح دوم ذخیره می شوند و به همین ترتیب ادامه می دهد.

توجه به این نکته ضروری است که این دسته بندی هایی که برای پایگاه های داده نام بردیم، لزوما مستقل از هم نیستند و ممکن است در بسیاری از موارد به صورت ترکیبی از چند دسته بندی اجرا شود.

ذکر این نکته مهم است که در بسیار از موارد برای کار کردن با Big Data لازم است از file systems ها استفاده شود زیرا داده ها به نحوی هستند که حتی امکان ذخیره سازی آن ها به دلایل مختلف مثل زمانبر بودن، نیازمند بودن به دخالت انسان و ... در پایگاه های داده غیر رابطه ای هم فراهم نمی باشد.

1. روش تحلیل MapReduce

این روش که در بعضی موارد به اشتباه با روش های ذخیره سازی مقایسه می شود، به نوعی می توان گفت روشی است برای به دست آوردن و کشف داده به صورت همزمان.

این روش به گونه ای عمل می کند که تعدادی ورودی دریافت می کند و ابتدا ورودی ها را به دست هایی می شکند (split) سپس هر یک را به شاخه ای موازی ارائه می دهد تا تحیلی روی این داده ها صورت گیرد (map) سپس عملیات کاهش صورت می گیرد و دسته ها مرتب می شوند (reduce) و پس از این خروجی ها ارائه می شوند.(شکل 15) البته ممکن است مراحل بیشتری در این بین انجام شود اما این مراحل سه گانه، مراحل اصلی این روش هستند.

برای این منظور فریم وورک های متفاوتی وجود دارد که از جمله محبوب ترین های آن ها می توان به Hadoop و Spark و Flink اشاره کرد.

1. علم داده چیست؟

با توجه حجم بالای داده های تولید شده در هر دقیقه این موضوع بسیار بدیهیست که برای تحلیل این داده ها نیاز به دانش های گسترده ای در حوزه های مختلف است که بتوان این داده ها را مرتب کرد و تحلیل نمود.

شاید این مسئله مورد سوال قرار گیرد که تحلیل این داده ها چه سودی برای ما خواهد داشت؟ اما همان طور که در بخش های قبل اشاره کردیم این خود داده نیست که برای ما ارزشمند است؛ بلکه تحلیل داده است که به آن ارزش می بخشد وگرنه داشتن داده های متفاوت تا وقتی نتوان از آن ها استفاده مفیدی کرد سودی برای ما نخواهد داشت.

امروز بسیاری از تجارت ها به تحلیل داده های مشتریان خود و مشتریان احتمالی خود و حتی افرادی که از آن ها خرید نمی کنند می پردازند تا بتوانند ابتداً مشتریان خود را حفظ، مشتریان احتمالی را راغب تر به خرید و مشکلی که افرادی غیر مشتری با این تجارت دارند را حل کنند تا حتی بتوانند آن ها را نیز جذب کنند. ازجمله این تلاش ها می توان به تحلیل هایی که اکثر سایت ها امروزه با استفاده از ابزار های تحلیل گر داده مثل Google Analytics , Mouse Flow , Optimizely و ... به تحلیل رفتار افرادی که سایت آن ها را مشاهده می کنند می پردازند. علاوه بر این بسیاری از شرکت ها مثل Facebook , Google , Netflix و ... نیز خود با استفاده از ابزار های خاص و تحلیل های مختص خودشان به تحلیل رفتار مشتریان خود می پردازند و حتی بسیاری از ابزار های مفید برای آنالیز را خود آن ها به بازار ارائه می دهند.

برای تمامی این تحلیل ها نیازمند شناخت راجع به روند تولید داده، نحوه های مختلف آنالیز داده و تحلیل آن و همین طور نحوه های ویژوالایز کردن آن ها بسیار حائذ اهمیت می شود؛ و به همین دلیل بسیاری از شرکت ها نیرو های خاصی برای تحلیل داده و آنالیز آنها و ارائه پیشنهادات در این حوزه دارند.

1. ارتباط ماشین لرنینگ با علم داده

1.1 ماشین لرنینگ چیست؟

تعریف ساده ای که از ماشین لرنینگ می توان ارائه کرد این است که؛ با ارائه مثال، ایجاد تجربه برای ماشین، ارائه ورودی های خاص به ماشین این توانایی را بدهیم که بدون دخالت انسان شروع به یادگیری کند و در آزمایش ها و تصمیم گیری های بعدی بتواند براساس مثال ها و ورودی های اولیه تصمیمات مناسب تری بگیرد.

1.2 حوزه های علم داده

تقسم بندی شکل 16 یکی از معروف ترین تقسیم بندی های علم داده می باشد که طبق آن کل مباحث هوش مصنوعی و ماشین لرنینگ زیرمجموعه علم داده به حساب می آیند.

1.3 ارتباط ماشین لرنینگ و علم داده

ماشین لرنینگ و دیپ لرنینگ برای آنالیز داده مورد استفاده قرار می گیرد تا بتواند اطلاعات مفیدی از آن ها استخراج کند. سپس این اطلاعات استخراج شده را در اختیار شما می گذارد و می توان از آن برای رشد تجارت استفاده نمود. به عنوان مثال شرکت های فیلم سازی ای مثل NETFLIX می توانند با تحلیل رفتار مشتریان خود به موضوعات مختلفی پی ببرند به عنوان مثال علایق آن ها را تشخصی دهند و بر آن اساس فیلم های موثرتر و پربیننده تری بسازند و یا داده های علایق را به شرکت های ارائه دهنده خدمات مختلف بفروشند تا آن ها بر این اساس کالاهایی تولید کنند که کاربران علاقه مند باشند به آن ها و همین طور می تواند تبلیغات موثری در حوزه های مختلف داشته باشد و به صورت کلی می توان شرکت های فیلم سازی را یکی از موثر ترین شرکت ها در حوزه تجارت دانست که با علایق و احساسات مردم در ارتباط هستند؛ حال این نکته قابل توجه است که با توجه به گستردگی کاربران شرکت ها آیا می توان این عملیات شناخت مشتریان و رفتار آن ها را به وسیله انسان ها انجام داد؟ پاسخ بدیهیست؛ مشخص است که اگر انسان عهده دار این مسئولیت شود به دلیل خطا های انسانی و از آن مهم تر حجم انبوه داده یا ممکن است نتایج اشتباهی را به دست آورد و حتی اگر به احتمال کمی به تمامی نتایج درست دست پیدا کنیم انقدر زمان بر خواهد بود که اصطلاحا داده طراوت خود را از دست داده است و دیگر کاربرد چندانی ندارد. به همین دلایل و دلایل متعدد دیگر لازم است که روش های یادگیری ماشین و روش های سریعی را دخیل کنیم تا بتوان به سرعت بالایی برای تحلیل دست پیدا کنیم.

به امید موفقیت
محمدحسین موثقی نیا،
محمدحسین ولیخانی

کلان داده یا همان Big Data چیست؟

آسیب‌هایی که تقلب کردن برای من داشت

آشنایی با RSS و ATOM

TDD چیست و چرا اهمیت دارد؟!