هاروارد چه شغلی را به عنوان جذاب‌ترین شغل قرن بیست و یکم نامید؟

منتشر شده در innoarchitech به تاریخ ۲ سپتامبر ۲۰۲۰
لینک منبع: What Is Data Science, and What Does a Data Scientist Do?

بله، دانشمند همیشه اسرار آمیز داده. خب، سس مخفی دانشمند داده دقیقا چیست، و این شخص «جذاب» واقعا هر روز در محل کار چه کاری انجام می‌دهد؟

این مقاله یک تعریف و بحث علم داده فراهم می‌کند که به معنی کمک به تعریف نقش دانشمند داده و هدف آن، و همچنین مهارت‌ها، صلاحیت‌ها، تحصیلات، تجربه، و مسئولیت‌های معمول است. این تعریف تا حدی آزاد است، زیرا واقعا تعریف استانداردی از نقش دانشمند داده وجود ندارد، و با توجه به این که تجربه ایده‌آل و مجموعه مهارت برای یافتن در یک فرد نسبتا نادر است.

این تعریف را می توان بیشتر با این واقعیت اشتباه گرفت که نقش‌های دیگری نیز وجود دارند که گاهی اوقات به عنوان نقش‌های یکسان در نظر گرفته می‌شوند، اما اغلب کاملا متفاوت هستند. برخی از این موارد شامل تحلیلگر داده، مهندس داده، و غیره هستند. بعدا در این مورد بیشتر صحبت خواهیم کرد.

در اینجا یک نمودار وجود دارد که برخی از اصول مشترکی که یک دانشمند داده ممکن است از آن‌ها استفاده کند را نشان می‌دهد. سطح تجربه و دانش یک دانشمند داده در هر کدام، اغلب در طول یک مقیاس از مبتدی تا ماهر، و تا متخصص، در یک کیس ایده‌آل تغییر می‌کند.

شکل۱. علم داده و حوزه‌های مورد نیاز
شکل۱. علم داده و حوزه‌های مورد نیاز

در حالی که اینها، و دیگر رشته‌ها و حوزه‌های تخصص (که در اینجا نشان داده نشده‌اند) ، همه ویژگی‌های نقش دانشمند داده هستند، من دوست دارم به پایه و اساس دانشمند داده به عنوان پایه و اساس چهار رکن فکر کنم. حوزه‌های تخصصی‌تر دیگری از تخصص را می توان از این ارکان به دست آورد.

حالا اجازه دهید در مورد آن‌ها صحبت کنیم.

ستون‌های تخصص علوم داده

در حالی که دانشمندان داده اغلب از زمینه‌های مختلف آموزشی و کاری می‌آیند، بیشتر آن‌ها باید قوی باشند، یا در یک مورد ایده‌آل، کارشناسان در چهار حوزه اساسی باشند. این‌ها بدون ترتیب اولویت و اهمیت خاصی هستند

  • کسب‌وکار / دامنه
  • ریاضیات (شامل آمار و احتمال)
  • علوم کامپیوتر (به عنوان مثال، معماری نرم‌افزار / داده‌ها و مهندس)
  • ارتباط (هم کتبی و هم شفاهی)

مهارت‌ها و تخصص‌های دیگری نیز وجود دارند که بسیار مطلوب هستند، اما به نظر من اینها چهار مهارت اصلی هستند. در ادامه این مقاله به این موارد به عنوان ستون‌های دانشمند داده اشاره خواهد شد.

در واقع، افراد اغلب در یک یا دو ستون از این ستون‌ها قوی هستند، اما معمولا در هر چهار ستون به یک اندازه قوی نیستند. اگر با یک دانشمند داده آشنا شوید که در همه چیز واقعا یک متخصص است، در این صورت شما اساسا یک اسب تک‌شاخ پیدا کرده‌اید.

براساس این ارکان، تعریف دانشمند داده من فردی است که باید بتواند از منابع داده موجود استفاده کند و منابع جدید مورد نیاز را ایجاد کند تا اطلاعات معنی‌دار و دیدگاه‌های قابل‌اجرا را استخراج کند. یک دانشمند داده این کار را از طریق تخصص در زمینه کسب‌وکار، ارتباطات موثر و تفسیر نتایج، و استفاده از هر گونه از تکنیک‌های آماری مربوطه، زبان‌های برنامه‌نویسی، بسته‌های نرم‌افزاری و کتابخانه‌ها، و زیرساخت داده انجام می‌دهد. بینش‌هایی که دانشمندان داده کشف می‌کنند باید برای هدایت تصمیمات کسب‌وکار و اقدامات در نظر گرفته شده‌ برای دستیابی به اهداف کسب‌وکار مورد استفاده قرار گیرند.

نمودارهای علوم ون داده

می‌توان نسخه‌های مختلف زیادی از نمودار دانشمند داده را پیدا کرد تا به تجسم این ستون‌ها (یا تغییرات) و روابط آن‌ها با یکدیگر کمک کند. دیوید تیلور یک مقاله عالی در مورد این نمودارهای ون تحت عنوان نبرد نمودارهای ون علم داده نوشت. به شدت توصیه می‌کنم که آن را بخوانید.

این یکی از نمودارهای ون دانشمند مورد علاقه من است که توسط استفان کولاسا ایجاد شده‌است. متوجه خواهید شد که بیضی‌های اولیه در نمودار بسیار شبیه به ستون‌های ارائه‌شده در بالا هستند.

این نمودار، و دیگر نمودارهای مانند آن، تلاش می‌کنند تا برچسب‌ها و یا مشخصات فرد یا زمینه‌ای را که در تقاطع هر یک از شایستگی‌های اولیه نشان‌داده‌شده، که من در اینجا آن را ستون می‌نامم، مشخص کنند.

همانطور که این نمودار نشان می دهد، استفان کولاسا برچسب\"The Perfect Data Scientist\" را به عنوان فردی که به همان اندازه در تجارت، برنامه نویسی، آمار و ارتباطات قدرتمند است، نامگذاری می‌کند. من کاملا موافقم.

اهداف و داده‌های علم داده

به منظور درک اهمیت این ارکان، ابتدا باید اهداف و دستاوردهای معمول مرتبط با ابتکارات علم داده و همچنین خود فرآیند علم داده را درک کرد. بیایید در ابتدا برخی از اهداف و دستاوردهای علم داده معمول را مورد بحث قرار دهیم.

در اینجا فهرستی کوتاه از دستاوردهای علم داده ارائه شده‌است:

  • پیش‌بینی (پیش‌بینی یک مقدار براساس ورودی‌ها)
  • دسته‌بندی (به عنوان مثال، اسپم یا نه اسپم)
  • توصیه‌ها (به عنوان مثال، توصیه‌های آمازون و نتفلیکس)
  • تشخیص الگو و گروه‌بندی (برای مثال، طبقه‌بندی بدون کلاس‌های شناخته‌شده)
  • تشخیص ناهنجاری (برای مثال، تشخیص تقلب)
  • به رسمیت شناختن (تصویر، متن، صوت، ویدئو، چهره، ...)
  • دیدگاه‌های مناسب (از طریق داشبورد، گزارش‌ها، مصورسازی، …)
  • فرآیندهای خودکار و تصمیم‌گیری (به عنوان مثال، تایید کارت اعتباری)
  • امتیاز دهی و رتبه‌بندی (به عنوان مثال، امتیاز اسلیو)
  • قطعه‌بندی (برای مثال، بازاریابی مبتنی بر جمعیت شناختی)
  • بهینه‌سازی (برای مثال، مدیریت ریسک)
  • پیش‌بینی‌ها (به عنوان مثال، فروش و درآمد)

هر یک از این موارد برای پرداختن به یک هدف خاص و یا حل یک مساله خاص در نظر گرفته شده‌اند. سوال اصلی این است که کدام هدف، و هدف چه کسی؟

برای مثال، یک دانشمند داده ممکن است فکر کند که هدف او ایجاد یک موتور پیش‌بینی با عملکرد بالا است. کسب و کاری که قصد دارد از موتور پیش‌بینی استفاده کند، از سوی دیگر، ممکن است هدف افزایش درآمد را داشته باشد، که می‌تواند با استفاده از این موتور پیش‌بینی به دست آید.

در حالی که این ممکن است در نگاه اول یک مشکل به نظر نرسد، در واقعیت وضعیت توصیف‌شده این است که چرا ستون اول (تخصص حوزه کسب‌وکار) بسیار مهم است. اغلب اعضای مدیریت ارشد دارای پس‌زمینه‌های آموزشی کسب‌وکار محور، مانند MBA هستند.

در حالی که بسیاری از مدیران افراد فوق‌العاده باهوشی هستند، ممکن است در مورد تمام ابزارها، تکنیک‌ها، و الگوریتم های موجود برای یک دانشمند داده (به عنوان مثال، تجزیه و تحلیل آماری، یادگیری ماشینی، هوش مصنوعی، و غیره) اطلاعات خوبی نداشته باشند. با توجه به این موضوع، ممکن است نتوانند به یک دانشمند داده بگویند که چه چیزی را به عنوان خروجی نهایی دوست دارند، یا منابع داده، ویژگی‌ها (متغیرها) ، و مسیر رسیدن به آن را پیشنهاد دهند.

حتی اگر یک مدیر اجرایی قادر به تعیین این باشد که یک موتور توصیه خاص به افزایش درآمد کمک خواهد کرد، ممکن است متوجه نشوند که احتمالا روش‌های بسیار دیگری وجود دارد که داده‌های شرکت می‌توانند برای افزایش درآمد نیز استفاده شوند.

بنابراین نمی توان به اندازه کافی تاکید کرد که دانشمند داده‌ ایده‌آل درک نسبتا جامعی از نحوه کار کلی کسب و کارها و نحوه استفاده از داده‌های یک شرکت برای دستیابی به اهداف کسب‌وکار سطح بالا دارد.

با تخصص قابل‌توجه در زمینه کسب‌وکار، یک دانشمند داده باید بتواند به طور منظم اقدامات جدید داده را کشف و پیشنهاد کند تا به کسب‌وکار کمک کند به اهداف خود دست یابد و KPIهای خود را به حداکثر برساند.

فرآیند علم داده

در زیر یک نمودار از مدل فرآیند GABDO که من در کتابم، به نام هوش مصنوعی برای افراد و کسب‌وکار، ایجاد و معرفی کردم، آمده‌است. دانشمندان داده معمولا فرایندی شبیه به این را دنبال می‌کنند، به خصوص زمانی که مدل‌هایی را با استفاده از یادگیری ماشینی و تکنیک‌های مرتبط ایجاد می‌کنند.

مدل فرآیند GABDO شامل پنج مرحله تکراری است -اهداف، کسب، ساخت، تحویل، بهینه‌سازی- از این رو، با علامت اختصاری GABDO نشان داده می‌شود. هر فاز تکرار شونده است زیرا هر فاز می‌تواند به یک یا چند فاز قبل از آن برگردد. اگر می‌خواهید در مورد این فرآیند و جزئیات آن بیشتر بدانید، لطفا کتاب را بررسی کنید.

این یک فرآیند به طور خلاصه است. پس چگونه این ستون‌ها در اینجا نقش بازی می‌کنند؟

دانشمند داده ستون‌ها، مهارت‌ها و آموزش عمیق

ما قبلا در مورد دامنه کسب‌وکار و ستون‌های ارتباطی بحث کرده‌ایم، که نشان‌دهنده فراست کسب‌وکار و مهارت‌های ارتباطی درجه یک هستند. این امر برای مرحله کشف و هدف بسیار مهم است. همچنین بسیار مفید است که دانشمندان داده به طور معمول باید نتایج را به ذینفعان کلیدی، از جمله مدیران ارائه و ارتباط دهند.

بنابراین مهارت‌های نرم قوی، به ویژه ارتباط (نوشتاری و کلامی) و توانایی سخنرانی در جمع، کلیدی هستند. در مرحله‌ای که نتایج ابلاغ و تحویل داده می‌شوند، جادو در توانایی دانشمندان داده برای ارائه نتایج به شیوه‌ای قابل‌فهم، قانع‌کننده و روشنگر است، در حالی که از زبان مناسب و سطح اصطلاحات خاص برای مخاطبان خود استفاده می‌کند. علاوه بر این، نتایج باید همیشه مربوط به اهداف تجاری باشد که پروژه را در وهله اول ایجاد می‌کنند.

برای تمام مراحل ذکر شده دیگر، دانشمندان داده باید مهارت‌های برنامه‌نویسی کامپیوتری قوی، و همچنین دانش در مورد آمار، احتمالات، و ریاضیات را به منظور درک داده‌ها، انتخاب روش حل صحیح، اجرای راه‌حل و بهبود آن به کار گیرند.

یک نکته مهم که باید مورد بحث قرار گیرد، پلتفرم‌های علمی داده‌های آماده و APIها هستند. ممکن است کسی وسوسه شود که فکر کند این می‌تواند نسبتا به آسانی مورد استفاده قرار گیرد و بنابراین نیاز به تخصص قابل‌توجهی در زمینه‌های خاص ندارد، و بنابراین به یک دانشمند داده قوی و گردآوری‌کننده داده نیاز ندارد.

درست است که بسیاری از این محصولات آماده را می توان به راحتی استفاده کرد، و بسته به مساله در حال حل، احتمالا می توان نتایج نسبتا مناسبی به دست آورد، اما جنبه‌های زیادی از علم داده وجود دارد که در آن تجربه و chops بسیار مهم هستند.

برخی از این موارد شامل داشتن توانایی برای:

  • سفارشی‌سازی روش و راه‌حل برای مساله خاص در دست به منظور به حداکثر رساندن نتایج، از جمله توانایی نوشتن الگوریتم های جدید و یا اصلاح قابل‌توجه الگوریتم های موجود، در صورت نیاز
  • دسترسی و پرس و جو بسیاری از پایگاه‌های داده و منابع داده مختلف (RDBMS، NoSQL، newSQL) و همچنین ادغام داده‌ها در یک منبع داده مبتنی بر تجزیه و تحلیل (به عنوان مثال OLAP، انبار داده، دریاچه داده،…)
  • پیدا کردن و انتخاب منابع داده بهینه و ویژگی‌های داده (متغیرها) ، از جمله ایجاد منابع جدید مورد نیاز (مهندسی ویژگی)
  • همه گزینه‌های آماری، برنامه‌نویسی، و کتابخانه / بسته موجود را بشناسید، و بهترین گزینه را انتخاب کنید.
  • اطمینان حاصل کنید که داده‌ها دارای یکپارچگی بالا (داده‌های خوب) ، کیفیت (داده‌های درست) هستند و در شکل و شرایط بهینه برای تضمین نتایج دقیق، قابل‌اعتماد و از نظر آماری قابل‌توجه هستند.
  • از مسائل مربوط به زباله در برابر زباله‌های خارج شده اجتناب کنید
  • انتخاب و پیاده‌سازی بهترین ابزارها، الگوریتم‌ها، چارچوب‌ها، زبان‌ها و فن‌آوری‌ها برای به حداکثر رساندن نتایج و مقیاس مورد نیاز
  • معیارهای صحیح عملکرد را انتخاب کنید و تکنیک‌های مناسب را به منظور به حداکثر رساندن عملکرد به کار ببرید.
  • روش‌های استفاده از داده برای رسیدن به اهداف کسب‌وکار را بدون راهنمایی و یا نتایج از بالا به پایین کشف کنید، برای مثال، دانشمند داده به عنوان شخص ایده
  • کار متقابل، به طور موثر، و در همکاری با تمام بخش‌ها و گروه‌های شرکت
  • نتایج خوب و بد را تشخیص دهید و در نتیجه کاهش ریسک‌های بالقوه و زیان‌های مالی که می‌تواند ناشی از نتیجه‌گیری‌های اشتباه و تصمیمات متعاقب باشد.
  • مشتریان و یا کاربران محصول را بشناسید، و ایده‌ها و راه‌حل‌هایی با آن‌ها در ذهن داشته باشید.

از نظر آموزشی، هیچ راه واحدی برای تبدیل شدن به یک دانشمند داده وجود ندارد. بسیاری از دانشگاه‌ها، علم داده و برنامه‌های خاص تحلیلی را ایجاد کرده‌اند که اغلب در سطح کارشناسی‌ارشد قرار دارند. برخی از دانشگاه‌ها و دیگر سازمان‌ها نیز برنامه‌های گواهی را ارائه می‌دهند.

لاوه بر برنامه های مدرک رسمی و صدور گواهینامه، بوت کمپ‌هایی نیز ارائه می‌شود که از چند روز یا چند ماه تا پایان دوره، دوره‌های یادگیری خود هدایت آنلاین و دوره‌های MOOC متمرکز بر علوم داده و زمینه‌های مرتبط، و یادگیری را خود هدایت می‌کند.

مهم نیست که چه مسیری برای یادگیری در نظر گرفته شده‌است، دانشمندان داده باید دانش کمی پیشرفته و مهارت‌های بسیار فنی، در درجه اول در آمار، ریاضیات، و علوم کامپیوتر داشته باشند.

«علم» در علم داده

اصطلاح علم معمولا مترادف با روش علمی است، و برخی از شما ممکن است متوجه شده‌باشید که فرآیند ذکر شده در بالا بسیار شبیه به فرآیندی است که با بیان، روش علمی مشخص می‌شود.

در اینجا تصویری ارائه می‌شود که روش علمی را به عنوان یک فرآیند مداوم تجسم می‌کند.

به طور کلی، هم دانشمندان سنتی و هم دانشمندان داده سوالاتی می‌پرسند و یا یک مشکل را تعریف می‌کنند، داده‌ها را جمع‌آوری و اهرم می‌کنند تا به پاسخ‌ها یا راه‌حل‌ها برسند، راه‌حل را تست می‌کنند تا ببینند آیا مشکل حل شده‌است، و در صورت نیاز برای بهبود، یا نهایی کردن راه‌حل تکرار می‌شوند.

دانشمندان داده در مقابل تحلیل گران داده در مقابل مهندسان داده

همانطور که گفته شد، نقش دانشمند داده اغلب با نقش‌های مشابه دیگر اشتباه گرفته می‌شود. دو مورد اصلی تحلیلگران داده و مهندسان داده هستند که هم کاملا متفاوت از یکدیگر و هم از علم داده هستند.

بیایید هر دوی این نقش‌ها را با جزئیات بیشتر بررسی کنیم.

تحلیلگر داده

تحلیلگران داده بسیاری از مهارت‌ها و مسئولیت‌های یکسان را به عنوان یک دانشمند داده به اشتراک می‌گذارند، و گاهی اوقات یک پس‌زمینه آموزشی مشابه نیز دارند.

  • برخی از این مهارت‌های مشترک عبارتند از:
  • دسترسی و پرس و جو (برای مثال SQL) منابع دادهای مختلف
  • پردازش و پاک کردن داده‌ها
  • خلاصه کردن داده‌ها
  • برخی از آمار و تکنیک‌های ریاضی را درک کنید و از آن‌ها استفاده کنید

آماده‌سازی تجسم‌ها و گزارش‌های داده با این حال، برخی از تفاوت‌های کلیدی این است که تحلیلگران داده معمولا برنامه‌نویسان کامپیوتر نیستند و مسئول مدل‌سازی آماری، یادگیری ماشینی و بسیاری از مراحل دیگر که در فرآیند علم داده در بالا ذکر شد، نیستند. ابزارهای مورد استفاده نیز معمولاً متفاوت هستند. تحلیل‌گران داده اغلب از ابزارهایی برای تجزیه و تحلیل و هوش تجاری مانند Microsoft Excel (تجسم، جداول محوری، ...)، Tableau، SAS، SAP و Qlik استفاده می‌کنند.

تحلیلگران گاهی اوقات وظایف داده‌کاوی و مدل‌سازی را انجام می‌دهند، اما تمایل دارند از پلتفرم‌های بصری مانند IBM SPSS Modeler، سریع مینر، SAS، و KNIME استفاده کنند. از سوی دیگر، دانشمندان داده، این وظایف را معمولا با ابزارهایی مانند R و پایتون انجام می‌دهند که با کتابخانه‌های مربوطه برای زبان(ها) مورد استفاده ترکیب می‌شوند.

در نهایت، تحلیلگران داده تمایل دارند در تعامل خود با مدیران ارشد کسب‌وکار و مدیران اجرایی به طور قابل‌توجهی متفاوت باشند. به تحلیلگران داده اغلب سوالات و اهداف از بالا به پایین داده می‌شود، تجزیه و تحلیل را انجام می‌دهد، و سپس یافته‌هایشان را گزارش می‌کند.

با این حال، دانشمندان داده تمایل به تولید سوالات خود دارند، که با دانستن این که کدام اهداف کسب‌وکار مهم هستند و چگونه می توان از داده‌ها برای رسیدن به اهداف خاص استفاده کرد، هدایت می‌شوند. علاوه بر این، دانشمندان داده به طور معمول از برنامه‌نویسی با بسته‌های نرم‌افزار تخصصی استفاده می‌کنند و از آمار، تجزیه و تحلیل و تکنیک‌های مدل‌سازی بسیار پیشرفته‌تر استفاده می‌کنند.

مهندس داده

مهندسان داده در عصر داده‌های بزرگ در حال مهم‌تر شدن هستند و می توان آن‌ها را به عنوان نوعی از معماری داده در نظر گرفت. آن‌ها کم‌تر به آمار، تجزیه و تحلیل و مدل‌سازی به عنوان همتایان تحلیلگر / دانشمند داده خود توجه دارند و بیشتر به معماری داده، محاسبه و زیرساخت ذخیره داده، جریان داده و غیره توجه دارند.

داده‌های مورد استفاده توسط دانشمندان داده و برنامه‌های کاربردی کلان داده اغلب از منابع متعدد می‌آیند، و باید استخراج، انتقال، تبدیل، یکپارچه‌سازی و ذخیره شوند (به عنوان مثال، ETL/ELT) به روشی که برای تجزیه و تحلیل، هوش کسب‌وکار، و مدل‌سازی بهینه‌سازی شده‌است.

بنابراین مهندسان داده مسئول معماری داده و تنظیم زیرساخت مورد نیاز هستند. به این ترتیب، آن‌ها باید برنامه‌نویسان باکفایتی باشند که مهارت‌هایی بسیار شبیه به فردی در نقش DevOps، و همچنین با مهارت‌های نوشتن جستجوی داده قوی داشته باشند.

یکی دیگر از جنبه‌های کلیدی این نقش، طراحی پایگاه‌داده RDBMS) ، NoSQL، و (newSQL، ذخیره داده‌ها، و ایجاد یک دریاچه داده است. این بدان معنی است که آن‌ها باید با بسیاری از فن‌آوری‌های پایگاه‌داده و سیستم‌های مدیریتی موجود، از جمله آن‌هایی که با داده‌های بزرگ در ارتباط هستند (به عنوان مثال، Hadoop، (Redshift, Snowflake, S3, Cassandra آشنا باشند.

در نهایت، مهندسان داده نیز به طور معمول به الزامات زیرساخت غیر کارکردی مانند مقیاس‌پذیری، قابلیت اطمینان، دوام، در دسترس بودن، پشتیبانی و غیره می‌پردازند.

جعبه‌ابزار محقق داده

ما مروری بر برخی از ابزارهای معمول در جعبه‌ابزار معروف دانشمندان داده خواهیم داشت.

از آنجا که برنامه‌نویسی کامپیوتری یک جز بزرگ است، دانشمندان داده باید در زبان‌های برنامه‌نویسی مانند پایتون، آر، SQL، جاوا، جولیا و اسکالا مهارت داشته باشند. معمولا لازم نیست که یک برنامه‌نویس متخصص در همه این موارد باشیم، اما پایتون یا R، و SQL قطعا کلیدی هستند.

برای آمار، ریاضیات، الگوریتم ها، مدل‌سازی و تجسم داده‌ها، دانشمندان داده معمولا از پکیج‌ها و کتابخانه‌های از پیش موجود در صورت امکان استفاده می‌کنند. برخی از محبوب‌ترین آن‌ها که مبتنی بر پایتون هستند عبارتند از: ساینکیت-یادگیری، تنسورفلو، پیتورچ، پانداس، نومپی و متپلوتیب.

برای تحقیق و گزارش قابل تکرار، دانشمندان داده معمولا از دفترها و چارچوب‌هایی مانند Jupyter و Jupyterlab استفاده می‌کنند. این موارد از این نظر بسیار قدرتمند هستند که کد و داده‌ها می‌توانند همراه با نتایج کلیدی تحویل داده شوند به طوری که هر کسی بتواند همان تحلیل را انجام دهد و در صورت تمایل بر روی آن ساخته شود.

این روزها بیشتر و بیشتر، دانشمندان داده باید قادر به استفاده از ابزارها و تکنولوژی‌های مرتبط با داده‌های بزرگ نیز باشند. برخی از محبوب‌ترین مثال‌ها شامل هادوپ، اسپارک، کافکا، هایو، پایگ، دریل، پرستو و ماهوت هستند.

دانشمندان داده همچنین باید بدانند که چگونه به بسیاری از سیستم‌های مدیریت پایگاه‌داده RDBMS ، NoSQL و New SQL دسترسی پیدا کرده و آن‌ها را پرس و جو کنند. برخی از رایج‌ترین آن‌ها عبارتند از MySQL، PostgreSQL، redshift،ium flake، MongoDB، redis، Hadoop، و. HBase

در نهایت، رایانش ابری و خدمات مبتنی بر cloud و API ها بخش مهمی از جعبه‌ابزار دانشمندان داده هستند، به ویژه از نظر ذخیره‌سازی و دسترسی داده‌ها، یادگیری ماشینی و هوش مصنوعی (AI). رایج‌ترین ارائه‌دهندگان خدمات ابری عبارتند از: خدمات وب آمازون (AWS) ، مایکروسافت آزور و گوگل کلوود محاسباتی .(GCP)

ارکستراسیون و استقرار DevOps و DataOps به طور فزاینده ای شامل فناوری های مبتنی بر کانتینر مانند Docker و Kubernetes (K8s)، همراه با زیرساخت به عنوان ابزارهای کد (IaC) مانند Terraform است.

خلاصه

هاروارد در مورد دانشمندان داده درست می‌گفت. این یک نقش بسیار مهم و پر تقاضا است که می‌تواند تاثیر قابل‌توجهی بر توانایی کسب‌وکار برای دستیابی به اهداف خود، چه مالی، عملیاتی، استراتژیک، و غیره داشته باشد.

شرکت یک تن داده جمع‌آوری می‌کند، و بیشتر اوقات نادیده گرفته می‌شود یا کم‌تر مورد استفاده قرار می‌گیرد. این داده، از طریق استخراج معنی‌دار اطلاعات و کشف دیدگاه‌های قابل‌اجرا، می‌تواند برای اتخاذ تصمیمات تجاری مهم و ایجاد تغییر تجاری قابل‌توجه مورد استفاده قرار گیرد. همچنین می‌تواند برای بهینه‌سازی موفقیت مشتری و کسب، حفظ و رشد بعدی مورد استفاده قرار گیرد.

همانطور که گفته شد، دانشمندان داده می‌توانند تاثیر مثبت عمده‌ای بر موفقیت یک کسب‌وکار داشته باشند، و گاهی اوقات سهوا باعث ضرر مالی می‌شوند، که یکی از دلایل بسیاری است که چرا استخدام یک دانشمند اطلاعات درجه یک مهم است.

امیدوارم این مقاله به رفع ابهام نقش دانشمند داده و دیگر نقش‌های مرتبط کمک کرده باشد.

این متن با استفاده از ربات ترجمه مقالات علم داده ترجمه شده و به صورت محدود مورد بازبینی انسانی قرار گرفته است.در نتیجه می‌تواند دارای برخی اشکالات ترجمه باشد.
مقالات لینک‌شده در این متن می‌توانند به صورت رایگان با استفاده از مقاله‌خوان ترجمیار به فارسی مطالعه شوند.