خوب خیلی از ما کلمات داده و علم داده رو شنیدیم ولی بطور کامل ازشون نمی دونیم.در این درس تعریفی از اصطلاحات علم داده رو خواهیم داشت . بطور خلاصه انواع فناوری های مثل نرم افزارهای آماری ، صفحه گسترده ها یا spreadsheets مثل اکسل و زبان های برنامه نویسی که دانشمندان داده برای کارشون استفاده می کنند و بطور عمیق از پایتون برای تحلیل داده استفاده خواهیم کرد.
به راستی علم داده چیست ؟
علم داده رشته ای هست که ما چه جوری بریم داده رو جمع آوری کنیم، مدیریت کنیم و انواع داده رو بطوری آنالیز کنیم که بتونیم اطلاعات پرمعنی ازشون استخراج کنیم.
در اوایل شروع علم داده چندین اکسپرت یا متخصص شامل متخصص آمار ، ریاضیات ، علوم کامپیوتر و علوم اجتماعی باید هر کدوم بوطر جداگانه برای جمع آوری داده و مدیریت و تحلیل داده رو انجام می دادند که هر کدوم هم کار مستقلی رو انجام می داد. بطور دقیق تر برای جمع آوری داده به فرض برای داده های پزشکی باید می رفتیم سراغ پزشک ها ، برای داده های روانشناسی ، روانشناس و از این دست متخصص ها. برای مدیریت داده متخصص علوم کامپیوتر یا مهندسین کامپیوتر نیاز بود که اونا می تونستند داد های ذخیره و پردازش کنند . حالا چه روی یک کامپیوتر شخصی یا سرور یا روی data warehouse . و برای تحلیل داده نیاز به متخصص آمار و ریاضیات بود چرا که اون ها می توانستند از دادها ، بینش یا insight رو استخراج کنند. با پیشرفت فناوری تکثیر داده ها زیاد شد و حجم انبوهی از داده ها رو امروز داریم. امروز انتظار میره که دانشمند داده یا تیم علم داده در همه این سه دومین سررشته داشته باشه.
یک مثال خوب بزنیم توسعه تلفن های شخصی هست. قبلا هر خونه ای یا بهتر بگیم بعضی از خانه ها خط تلفن داشتند و تنها داده ای که اون قوت تولید می شد لیستی از شماره تلفن هایی بود که گرفته می شد. امروز همه حداقل یک تلفن همراه رو دارند که هر کدوم ی عالمه داده دارند تولید می کنند از تصاویر گرفته تا تماس های سوشال مدیا ف ویدیو ها برخی مکان ها و شاید هم اطلاعات مربوط به سلامتی افراد . به همراه هیلی چیز های دیگه.
خوب این داده های تلفن های هوشمند توسط افراد متخصص تصویر ، ویدیو و از قبل دارند جمع آوری می شوند ؟ به احتمال زیاد نه. خوب این داده ها بصورت خودکار لاگ گرفته م شوند و بوسیله خود سیستم های تلفن همراه جمع آوری می شوند که اونم توسط مهندسان و علم کامپیوتر طراحی شدند. بصورت سنتی یک متخصص علم داده نیاز داشت که برای جمع آوری داده های سلامتی هر فرد در دوره های زمانی مختلف در ازمایشگاه ببرد که خوب این نیازمند صرف تلاش و زمان زیادی بود. استفاده از یک برنامه کاربردی تلفن های هوشمند روش خیلی بهینه ترو عملی تری برای جمع آوری داده های سلامتی می تونه باشه.
چرخه علم داده
علم داده از یک فرایندی پیروی می کنه که بهش می گیم چرخه علم داده، که شامل تعریف مسئله، جمع آوری داده، آماده سازی داده ، تحلیل و گزارش دهی است.

اگرچه به نظر می رسد که جمع آوری و آماده سازی داده کارهای آسانی در مقایسه با نسبت به دیگر فرایندها ولی نیاز به تلاش و وقت بسیار زیادی هست. منطبق بر بررسی که Annaconda انجام داده دانشمندان داده تقریبا نصف زمان را به این دو فرایند اختصاص می دهند.
تعریف مسئله، جمع آوری داده و آماده سازی داده
اولین قدم در چرخه علم داده تعریف دقیق مسئله هست و هدف و محدوده پروژه رو باید بشناسیم.وقتی که مسئله به خوبی تعریف شد حالا باید بریم سراغ تولید داده و جمع اوری داده. جمع آوری داده یک فرایند منظم گرفتن اطلاعات علاقه مندی های متغیر.اغلب داده بصورت هدفمند توسط متخصصان حوزه ای خاص برای یک مسئله مشخصی از قبل تعرف شده است.یک مثال این هست ، پاسخ های مشتری به یک محصول مثلا از قبل تدابیری اندیشیده شده که اطلاعات خاصی رو از مشتریان در هنگام فروش دریافت کنیم.
همه داده ها بطور هدفمند تولید نمی شوند. خیلی از داده هایی که تولید می شوند به سادگی زائیده فعالیت های روزمره ما هستند.این داده ها بعدا توسط کسانی دیگر می توانند استفاده شوند تا از انها بیشن استحراج کنند.مثالی که میشه زد تاریخچه جستجوهای وب ماست.ما روزانه از سرچ انجین گوگل برای جستجوی اطلاعات مورد علاقه مون استفاده می کنیم که از این کار ما در سرورهای گوگل یک تاریخچه ای از جستجوها تمام کسانی که سرچ کردند ذخیره می شود. کارمندان گوگل از این حجم عظیمی از رکوردها برای تحلیل الگوهای و نمایش تبلیغات مرتبط استفاده می کنند.
یک حقیقت مهم این هست که داده ها ممکن هست در فرمی یا حالت بهینه ای برای تحلیل نباشند. پس نیاز هست که این داده ها به نحوی پردازش شوند که قابل آنالیز باشند، در فازی که بهش آماده سازی داده گفته می شود.فرض کنید که شما در گوگل کار می کنید و از شما خواسته شده که تحلیلی از نوع غذا هایی که مردم در طول شب جستجو می کنند داشته باشید. شما تاریخچه جستجوی کاربران در سراسر دنیا رو دارید.اما مشکلاتی برای تحلیل وجود دارد. چرا که تاریخچه کلمات کلیدی که مردم در سراسر دنیا جستجو کرده اند به زبان های مختلف هستند و زمان شب در سرار زمین برای هر منطقه زمانی متفاوت هست.حتی ممکن هست که بعضی از کلمات کلیدی اشتباه تایپی داشته باشند که معنی درستی رو نمی دهند یا حتی بدتر ممکن هست معنی غیر مرتبطی داشته باشند.در بعضی مواقع هم ممکن هست به دلایلی مکان ذخیره داده وجود نداشته باشه که با فیلد بلنک یا خالی ممکن هست مواجعه شویم.توجه داشته باشید که تمامی این سناریو ممکن هست رخ بدهد پس ما باید با فرایند آماده سازی داده ها این مشکلات بر طرف کنیم تا نتیجه تحلیل دقیق تری داشته باشیم.
تحلیل داده
وقتی که داده ها جمع اوری و بعد آماده سازی شدند باید برای استخراج بینش وارد فاز تحلیل یا آنالیز داده شویم.انواع گوناگونی از روش های تحلیل داده وجود دارد که زا روش های ساده گرفتهمثل فقط چک کردن حداکثر و حداقل مقدارها ، تا روش های پیشرفته از قبیل مدل کردن یک متغیر وابسته. دانشمندان داده از ساده ترین روش شروع می کنند و سپس وارد روش های پیشرفته تر می شوند البته بستگی به این دارد که بررسی بیشتر دارد یا خیر.
گزارش دهی داده
در این فاز داده ها به نحوی نمایش داده می شوند که به بهترین شکل ممکن بینش انتقال داده شود. اهمیت گزارش دهی رو نمی توانیم تاکید نکنیم. بدون این دانشمندان داده نمی توانند بینش هایی که از داده ها استخراج کردند رو به مخاطبان ارائه دهند.دانشمندان داده با متخصصان حوزه های مختلف کار می کنند برای اینکه ان متخصصان هم از نتیجه تحلیل آگاه شوند باید به فرمی باشد که براحتی متوجه شوند. بصری سازی داده نمایش الگو ها و بیشن ها به روش گرافیکی هست. که از عناصری مثل چارت ، گراف ئ maps استفاده می شود. هدف غایی بصری سازی داده ها برقراری ارتباط موثر و تسهیل در تصمیم گیری بهتر هست.
مدیریت داده
در اوایل آنالیز داده داده هایی که تولید می شدند ساختاریافته بودند و همچنین به اصطلاح از big data خبری نبود. با این اوصاف داده ها روی رسانه ذخیره سازی لوکال قرار داشتند و یا روی یک هارد درایو میشد ذخیره شون کرد. با این وضع پردازش داده و آنالیز داده بصورت لوکال انجام می شد.
رفته رفته داده های بیشتری تولید و جمع آوری شدند که اغلب شامل داده های غیرساختاریافته و ساختاریافته می شدند.با حجم انبوهی از داده ها نیاز به سیستم های مدیریتی مبتنی بر ابر پیدا شد که برای ذخیره داده ها توسعه پیدا کرد.همزمان دانشمندان داده متوجه شدند که بیشتر وقتشون صرف پردازش داده می شود تا خود آنالیز داده. برای حل این مشکل سیستم های مدیریت مدرن نه فقط خود داده ها رو ذخیره می کند بلکه پردازش داده ها هم روی cloud انجام می شود.به این سیستم ها data warehousing گفته می شود. Data warehousing ، ذخیره و مدیریت حجم انبوهی از داده ها از منابع مختلف در یک مکان مرکزی نگهداری می شوند که این باعث می شود که بازیابی و تحلیل برای هوش تجاری و تصمیم گیری یا decision making موثرتر شود. بعدا در مورد data warehousing بیشتر خواهم گفت.
ادامه منتظر مطالب بیشتر از علم داده باشید ...