اگر قصد رشد در کسب و کار خود را دارید برای رسیدن به اهداف خود به یک دانشمند داده نیاز دارید.
لازم به ذکره که همین اول اعلام کنم بین دانشمند داده و تحلیلگر داده فرق هایی است که من در مقاله بهشون اشاره می کنم.
قبل از تعریف دانشمند داده و تحلیلگر داده بهتره بریم سراغ علم داده. علم داده یا science data چیست؟
مطالب قابل ارائه در علم داده، پیشبینی یک مقدار بر اساس دادهها، طبقه بندی، لینکهای پیشنهادی (مانند پیشنهادات آمازون و Netflix)، شناسایی و گروهبندی الگوها، تشخیص ناهنجاریهایی مانند جعل و تقلب، فرآیندهای خودکار و تصمیم گیریها، امتیازدهی و رتبهبندی، تقسیمبندی، بهینهسازی و … را در بر میگیرد.
یک دانشمند داده باید اطلاعات بالا و مختلفی داشته باشه و در حق تخصصی یا حرف ای حرفی برای گفتن داشته باشه. اما به صورت کلی چهار رکن برای یک دانشمند داده حائز اهمیت است:
1_ علم کسب و کار: برای اینکه بداند یک کسب و کار برای رسیدن به چه اهدافی این داده هارا جمع می کند. یک دانشمند داده باید بداند که کسب و کار چیست، به چیزهایی نیاز دارد و...
2_ علم کامپیوتر: یک دانشمند داده موفق علم برنامه نویسی و استفاده فنی از سیستم را برای برنامه ریزی و پیاده سازی اطلاعات لازم دارد.
3_علم ریاضیات: یکی از چیزهایی که یک دانشمند داده زیاد با آن سروکار دارد آمار و ارقام است پس علم ریاضیات به طبقه بندی و سازماندهی درست کمک می کند.
4_ علم ارتباطات: برای اینکه یک دانشمند داده موفق باشی باید ارتباط خوبی در گفتار و نوشتن داشته باشی و در سخنرانی ها و جلسات زیاد و بزرگی شرکت کنی.
فرآنیند علم داده: هدفگذاری، دستیابی، ساخت، تحویل، بهینهسازی.
یک دانشمند داده موفق باید تواناییهایی از جمله نوشتن الگوریتمهای جدید یا اصلاح الگوریتم های موجود را داشته باشد. او باید بتواند به بسیاری از پایگاههای داده مختلف و منابع داده دسترسی داشته و دادها را در یک منبع مبتنی بر تجزیه و تحلیل ادغام کند، تمام گزینههای آماری، برنامهنویسی و … را بشناسد و بهترینها را انتخاب کند، اطمینان حاصل کند که دادهها از یکپارچگی، کیفیت بالا و شرایط مطلوب برای به دست آوردن نتایج دقیق بهرهمند هستند.
تحلیل گران داده یا data analyst، دادهها را جمعآوری، پردازش و تجزیه و تحلیل آماری کرده و از بین آنها روابط پنهان را کشف میکنند. به بیان سادهتر، وظیفه تحلیلگر داده، دریافت دادههای خام و تبدیل آنها به دانشی است که بتواند در اختیار مدیران مشاغل و کسب و کارهای مختلف قرار گیرد. تا این افراد با استفاده از دانش جدید بتوانند تصمیمات مناسبتری اتخاذ کرده و باعث کاهش هزینهها و افزایش درآمد و در نتیجه سوددهی بیشتر کسب و کار شوند.
تحلیل گران داده با دانشمندان داده علوم مشابه زیادی مانند پردازش و پاکسازی داده، تجزیه و تحلیل داده، گزارش داده، علوم ریاضی و آماری و... را دارند اما یک فرق اساسی آن ها این است که تحلیلگران داده نیازی به علم برنامه نویسی ندارند.تحلیلگران داده ها در تعاملات خود با مدیران نیز تفاوت چشمگیری دارند. تحلیلگران داده معمولا سوالهایی را دریافت میکنند، تجزیه و تحلیل انجام میدهند و نهایتا یافتههای خود را ثبت می کنند.
دانشمندان داده، خودشان سوالات را بر اساس مهمترین اهداف تجاری و چگونگی استفاده از دادهها برای دستیابی به آنها، ایجاد می کنند. علاوه بر این، دانشمندان داده به طور معمول از برنامهنویسی و نرمافزارهای تخصصی استفاده میکنند و آمار، تجزیه و تحلیل و تکنیکهای مدلسازی بسیار پیشرفتهتری را به کار میگیرند.
انتظارات و شرایط کار برای یک دانشمند داده و تحلیلگر داده:
توانایی تحلیل کسب و کارها و شناخت نیازها و اهداف آن ها
توانایی استخراج داده و تحلیل داده ها به صورت کاربردی
توانایی کار با پایگاه داده ( MongODB/ cassandra/nosol) و ثبت داده ها در آن
آشنایی با حداقل یک زبان برنامه نویسی مثل پایتون
آشنایی با نرم افزارهایی مثل ssas/power BI/ssis
آشنایی با رویکردهای داده کاوی
توانایی طراحی الگوریتم برای داده ها
توانایی کار در محیط Agile
داده کاو کیست و داده کاوی چیست؟
داده کاوی یا data mining عبارت است از فرآیند اکتشاف الگو و روندهای منظم و پنهان در دادههای بزرگ و توزیع شده، با استفاده از مجموعه وسیعی از الگوریتمهای مبتنی بر علوم ریاضی و آمار. این الگوریتمها معمولا برروی مقادیر عددی و غیرمتنی اعمال میشوند و برای دادههای متنی، از الگوریتمهای متنکاوی استفاده میشود. دادهکاوی از علومی مانند هوش مصنوعی، یادگیری ماشینی، آمار، پژوهش عملیاتی و مدیریت پایگاههای داده برای ساخت مدلها و پاسخ به سوالات بهره میبرد.
به زمان خودمانی تر داده کاوی علمیه که به ما کمک میکنه بدونیم چطوری میشه دادهها رو پیدا و دستهبندی کرد، به طوری که در مراحل بعد قابل آنالیز و تحلیل باشند.
در واقع، دیتا ماینینگ به زبان ساده، استخراج اطلاعاتیه که میشه با استفاده از اونها، رفتارها و الگوریتمهایی شکل داد تا بتونیم مسائل رو بهتر حل کنیم.
یک داده کاو میتونی با آینده نگری بر اساس داده ها به رشد یک کسب و کار کمک کنه.
برای داده کاوی از نرم افزار های مختلفی میشه استفاده کرد از جمله:
یکی از معروفترین تکنیک هایی که توی Data science استفاده میشه و گل سرسبد این حوزه هست، AI یا دقیقترش Machine learning و دقیقترش Deep learning هست.
مخفف شدهArtificial Intelligence = Al که یعنی هوش مصنوعی درست کنید که بتونه تصمیم بگیره یا پیش بینی کنه.
یک تکنیک دقیقترش Machine learning میشه که ما از شبکههای عصبی مصنوعی برای این کار استفاده کنیم.
این تکنیک براساس یکسری فعل و انفعالاتی هست که توی مغز اتفاق میوفته و سعی میکنه نورونهای مغزی رو به شکل معادلات ریاضی برداری دربیاره.
باز اگر بخواهیم ریزتر بشیم، به Deep learning میرسیم.
در Deep learning به این صورت هست که ما از تعداد زیادی از این نورونها به صورت پشت سرهم استفاده میکنیم. مهندس داده وظیفهاش ذخیره سازی حجم زیاد دیتا هست.