ویرگول
ورودثبت نام
ایمان محدثی
ایمان محدثی
ایمان محدثی
ایمان محدثی
خواندن ۱۰ دقیقه·۱ ماه پیش

مطلب سوم از علم داده : داده و مجموعه داده (Datasets)

داده و مجموعه داده ( Datasets)

در دنیای امروز، علم داده (Data Science) نقش بسیار مهمی ایفا می‌کند. علم داده به ما امکان می‌دهد تا از داده‌ها بینش و دانش استخراج کنیم و بر اساس آن‌ها تصمیم‌گیری و نوآوری را در حوزه‌هایی مانند کسب‌وکار، سلامت، سرگرمی و بسیاری زمینه‌های دیگر هدایت کنیم. همان‌طور که در مطالب قبل گفتم، این حوزه ریشه در ریاضیات، آمار و علوم کامپیوتر دارد، اما تنها از اوایل دهه ۲۰۰۰ و هم‌زمان با گسترش داده‌های دیجیتال و پیشرفت توان محاسباتی و فناوری، به‌عنوان یک رشته مستقل شکل گرفت.

علم داده در اواسط تا اواخر دهه ۲۰۰۰، با ظهور کلان‌داده (Big Data) و نیاز به روش‌های پیشرفته برای تحلیل و استخراج بینش از مجموعه‌داده‌های بزرگ و پیچیده، رشد و توجه گسترده‌ای پیدا کرد. از آن زمان تاکنون، روند تکامل آن بسیار سریع بوده است و همان‌طور که از مباحث قبلی مشخص است، این حوزه به‌سرعت در حال تبدیل شدن به یکی از ارکان اصلی بسیاری از صنایع و حوزه‌هاست.

البته خودِ داده پدیده‌ای جدید نیست. انسان‌ها از آغاز تاریخ در حال جمع‌آوری داده و تولید مجموعه‌داده بوده‌اند. این روند از دوران سنگ ( عصر حجر )  آغاز شد؛ زمانی که انسان‌ها نقش‌ها و تصاویر ساده‌ای به نام سنگ‌نگاره‌ها (Petroglyphs) را روی سنگ‌ها حک می‌کردند. این سنگ‌نگاره‌ها اطلاعات ارزشمندی درباره شکل ظاهری حیوانات و شیوه زندگی روزمره آن‌ها در اختیار ما قرار می‌دهند که برای ما نوعی «داده» محسوب می‌شود.

مصریان باستان نخستین شکل کاغذ، یعنی پاپیروس را ابداع کردند تا داده‌های خود را ثبت کنند. پاپیروس همچنین ذخیره‌سازی حجم زیادی از داده‌ها را آسان‌تر کرد؛ از جمله فهرست کردن موجودی‌ها، ثبت تراکنش‌های مالی و ثبت داستان‌ها برای انتقال به نسل‌های آینده.

داده (Data)

کلمه «Data» جمعِ واژه لاتین “datum”  است که به معنای «چیزی که داده شده یا استفاده می‌شود» است و معمولاً به یک مقدار واحد اطلاعات یا یک نقطه مرجع در یک مجموعه‌داده اشاره دارد.

وقتی کلمه «داده» را می‌شنویم، اغلب ذهن‌مان به سمت اعداد می‌رود و درست است که اعداد معمولاً داده محسوب می‌شوند، اما داده‌ها فقط اعداد نیستند. هر چیزی که بتوانیم آن را تحلیل کنیم و از آن اطلاعات و بینش‌های مفید استخراج کنیم، در واقع داده است.

.سوال : فرض کنید در حال تصمیم‌گیری هستید که آیا ترم بعد یک درس خاص را بردارید یا نه. روند تصمیم‌گیری شما احتمالاً به این شکل خواهد بود:

ابتدا ممکن است نظرسنجی‌های دوره را بررسی کنید، مانند آنچه در جدول بالا نشان داده شده است. این جدول شامل چهار نوع داده است که به‌صورت ستون‌ها دسته‌بندی شده‌اند:  نیم‌سال (Semester)، مدرس (Instructor)، اندازه کلاس (Class Size) و امتیازدهی Rating)  . در هر ستون، شش مقدار داده متفاوت وجود دارد، یکی در هر سطر. برای مثال، در ستون نیم‌سال شش مقدار متنی داریم: «Fall 2020»، «Spring 2021»، «Fall 2021»، «Spring 2022»، «Fall 2022» و «Spring 2023».

خودِ امتیازدهی‌ها ( Rating ) به تنهایی به شما نمی‌گویند که آیا باید درس را ترم بعد بردارید یا نه؛ این امتیازها فقط عباراتی مثل “Highly recommended” یا “Not quite recommended” هستند که میزان توصیه‌شدن درس در آن نیم‌سال را نشان می‌دهند. برای تصمیم‌گیری، لازم است این داده‌ها را تحلیل کنید.

برای استخراج اطلاعات مفید از این امتیازها، معمولاً همه داده‌ها را در نظر می‌گیرید: زمان ارائه درس، مدرس و اندازه کلاس .  بررسی این رکوردها به شما کمک می‌کند تا تصمیم بگیرید که ترم بعد این درس را بردارید یا نه.

 مسئله
فرض کنید می‌خواهید تصمیم بگیرید امروز ژاکت بپوشید یا نه. برای این کار، دمای بالاترین درجه‌ها در پنج روز گذشته را بررسی می‌کنید و مشخص می‌کنید که در هر روز به ژاکت نیاز داشتید یا نه. در این سناریو، شما از چه داده‌هایی استفاده می‌کنید و چه اطلاعاتی می‌خواهید به دست آورید؟

پاسخ
داده‌هایی که استفاده می‌کنید شامل:

  1. دمای هر روز

  2. نیاز به ژاکت (بله/خیر) در هر یک از پنج روز گذشته

این داده‌ها به خودی خود چیزی درباره پوشیدن ژاکت امروز نمی‌گویند؛ آن‌ها فقط پنج جفت داده هستند: عدد (دمای روز) و بله/خیر (نیاز به ژاکت)، که هر جفت نشان‌دهنده یک روز است.

با استفاده از این داده‌ها، شما اطلاعاتی استخراج می‌کنید که می‌توانید آن را تحلیل کنید و تصمیم بگیرید امروز ژاکت بپوشید یا نه.

انواع داده‌ها

در بخش‌های قبلی دیدیم که چقدر زندگی روزمره ما پر از داده است، خود زندگی روزمره چقدر داده تولید می‌کند و چقدر اغلب بدون اینکه متوجه شویم، تصمیمات‌مان مبتنی بر داده هستند. همچنین متوجه شدیم که داده‌ها انواع مختلفی دارند.

  • داده‌های کمی (Quantitative Data) :  این نوع داده‌ها با اعداد بیان می‌شوند و مقادیر و کمیت‌ها را نشان می‌دهند. معمولاً با روش‌های آماری تحلیل می‌شوند. مثال‌ : قد، وزن، دما، ضربان قلب، ارقام فروش و غیره.

  • داده‌های کیفی (Qualitative Data) :  این داده‌ها عددی نیستند و معمولاً ویژگی‌ها یا صفات ذهنی را توصیف می‌کنند. برای تحلیل آن‌ها از روش‌هایی مانند تحلیل موضوعی (Thematic Analysis) یا تحلیل محتوا (Content Analysis) استفاده می‌شود. مثال‌ها: توضیحات، مشاهدات، مصاحبه‌ها، پاسخ‌های باز به نظرسنجی‌ها، عکس‌ها، پست‌های ردیت ، ایسنتاگرام و غیره.

نوع داده‌ها معمولاً روش تحلیل داده را تعیین می‌کند، بنابراین تشخیص نوع داده مهم است.

برای مثال، دوباره به مثال تصمیم‌گیری درباره گرفتن یک درس ترم بعد نگاه کنیم. در این مثال، ما چهار نوع داده داشتیم که به شکل‌های مختلف نمایش داده شده‌اند: عدد، کلمه و نماد (symbol):

  1. نیم‌سال ارائه درس :  Fall 2020، Spring 2021، …، Fall 2022، Spring 2023

  2. مدرس: A و B

  3. اندازه کلاس: 100 ، 50، 120، 40، 110، 50

  4. امتیاز دوره:  «Not recommended at all» تا «Highly recommended»

دو نوع اصلی داده کمی (Quantitative Data) وجود دارد: عددی (Numeric) و دسته‌ای (Categorical) که هرکدام خود به چند زیرنوع تقسیم می‌شوند.

داده‌های عددی به‌صورت اعداد نمایش داده می‌شوند و بیانگر مقادیر قابل اندازه‌گیری هستند. این اعداد ممکن است همراه با نمادهایی برای مشخص کردن واحد اندازه‌گیری باشند. داده‌های عددی به دو دسته پیوسته (continuous) و گسسته (discrete) تقسیم می‌شوند.

در داده‌های پیوسته، مقادیر می‌توانند هر عددی باشند؛ به‌عبارت دیگر، مقدار از یک مجموعه نامتناهی از اعداد انتخاب می‌شود. اما در داده‌های گسسته، مقادیر دارای دقت مشخصی هستند و به همین دلیل، مجموعه مقادیر ممکن محدود و متناهی است.

در مثال قبلی، ظرفیت کلاس‌ها مانند ۱۰۰، ۱۵۰ و … اعدادی هستند که واحد ضمنی «دانشجو» را در خود دارند. همچنین این اعداد بیانگر کمیت‌های قابل اندازه‌گیری‌اند، زیرا نشان‌دهنده تعداد افراد (سرشماری) هستند. بنابراین، اندازه کلاس یک نوع داده عددی محسوب می‌شود.

این داده‌ها در نگاه اول پیوسته به نظر می‌رسند، زیرا مقادیر ظرفیت کلاس می‌توانند هر عدد طبیعی باشند و از یک مجموعه نامتناهی یعنی مجموعه اعداد طبیعی انتخاب شوند.

البته توجه داشته باشید که پیوسته یا گسسته بودن داده‌ها به بافت و شرایط مسئله نیز بستگی دارد. برای مثال، اگر دانشگاه قانونی وضع کند که همه کلاس‌ها حداکثر ۲۰۰ نفر ظرفیت داشته باشند، در این صورت همین داده اندازه کلاس به یک داده گسسته تبدیل می‌شود. چنین محدودیتی باعث می‌شود مقادیر اندازه کلاس تنها از یک مجموعه متناهی شامل ۲۰۰ عدد ممکن انتخاب شوند:
1,2,3 … 197,198,200

داده‌های دسته‌ای (Categorical) می‌توانند به شکل‌های مختلفی مانند واژه‌ها، نمادها و حتی اعداد نمایش داده شوند. یک مقدار دسته‌ای از یک مجموعه متناهی از مقادیر انتخاب می‌شود و لزوماً بیانگر یک کمیت قابل اندازه‌گیری نیست.

داده‌های دسته‌ای به دو نوع اسمی (Nominal) و ترتیبی (Ordinal) تقسیم می‌شوند. در داده‌های اسمی، مجموعه مقادیر ممکن هیچ‌گونه مفهوم ترتیب یا اولویتی ندارد؛ در حالی که در داده‌های ترتیبی، مقادیر دارای یک ترتیب یا سلسله‌مراتب مشخص هستند.

سایر موارد یعنی نیم‌سال تحصیلی (Semester)، مدرس(Instructor) و امتیازدهی (Ratings) جزو داده‌های دسته‌ای هستند. این داده‌ها به‌صورت نمادهایی مانند «Fall 2020» یا «A» و یا به‌صورت واژه‌هایی مانند «Highly recommended» نمایش داده می‌شوند و مقادیر آن‌ها از یک مجموعه متناهی از همین نمادها و واژه‌ها انتخاب می‌شود مثلاً A در مقابل B  .

دو مورد اول، یعنی نیم‌سال و مدرس، داده‌های اسمی (Nominal) محسوب می‌شوند، زیرا ترتیب خاصی میان مقادیر آن‌ها وجود ندارد. اما امتیازدهی یک داده ترتیبی (Ordinal) است، چرا که مفهوم درجه یا شدت در آن وجود دارد از

  «Not recommended at all» تا «Highly recommended» 

البته می‌توان استدلال کرد که نیم‌سال تحصیلی نیز می‌تواند دارای ترتیب زمانی باشد؛ برای مثال، Fall 2020 پیش از Spring 2021 قرار می‌گیرد و Fall 2021 پس از Fall 2020 می‌آید. اگر این مفهوم ترتیب را در تحلیل خود مهم بدانید، می‌توانید داده نیم‌سال را نیز ترتیبی در نظر بگیرید. این ترتیب زمانی به‌ویژه زمانی اهمیت دارد که با یک مجموعه‌داده سری زمانی  (Time Series )کار می‌کنید. در مطالب آینده که در ویرگول منتشر خواهم کرد به مبحث سری‌های زمانی و پیش‌بینی بیشتر آشنا خواهید شد.

مسئله
سناریوی ژاکت را در مثال بالا در نظر بگیرید. در آن مثال به دو نوع داده اشاره شده است:

  1. دمای هوا در سه روز گذشته

  2. این‌که در هر یک از آن روزها به ژاکت نیاز داشته‌اید یا نه — بله، خیر و …

سؤال:
نوع هر یک از این داده‌ها چیست؟

لطفا در نظرات جواب های خود را ارسال کنید.

مجموعه داده ( Datasets)

یک مجموعه‌داده (Datasets) مجموعه‌ای از مشاهدات یا موجودیت‌های داده‌ای است که برای تحلیل و تفسیر سازمان‌دهی شده‌اند، همان‌طور که در جدول انتخاب درس در بالا نشان دادیم. بسیاری از مجموعه‌داده‌ها را می‌توان به‌صورت یک جدول نمایش داد که در آن هر سطر نشان‌دهنده یک موجودیت داده‌ای منحصربه‌فرد و هر ستون بیانگر ساختار یا ویژگی‌های آن موجودیت‌هاست.

توجه داشته باشید که مجموعه‌داده استفاده‌شده در جدول انتخاب درس شامل شش موجودیت (Entity) است که با نام‌هایی مانند آیتم، رکورد یا نمونه (instance ) نیز شناخته می‌شوند و این موجودیت‌ها بر اساس نیم‌سال تحصیلی از یکدیگر متمایز شده‌اند. هر موجودیت با ترکیبی از چهار ویژگی (attribute) یا مشخصه (characteristics) که به آن‌ها Feature یا Variable  نیز گفته می‌شود تعریف می‌شود:
نیم‌سال (Semester)، مدرس (Instructor)، ظرفیت کلاس (Class Size) و امتیاز (Rating)

در واقع، این ترکیب ویژگی‌هاست که هر رکورد یا ورودی را در یک مجموعه‌داده توصیف و متمایز می‌کند.

با وجود این‌که مقادیر واقعی ویژگی‌ها در موجودیت‌های مختلف متفاوت است، توجه داشته باشید که همه موجودیت‌ها برای هر چهار ویژگی یک مقدار دارند. همین موضوع باعث می‌شود این مجموعه‌داده یک مجموعه‌داده ساخت‌یافته (Structured Dataset ) باشد. در یک مجموعه‌داده ساخت‌یافته، آیتم‌ها را می‌توان به‌صورت یک جدول فهرست کرد، به‌طوری‌که هر آیتم در سطرهای جدول قرار می‌گیرد.

در مقابل، مجموعه‌داده بدون ساختار (Unstructured Dataset) مجموعه‌داده‌ای است که فاقد یک مدل داده‌ای از پیش تعریف‌شده یا سازمان‌یافته باشد. در حالی که مجموعه‌داده‌های ساخت‌یافته در قالب جداول با فیلدها و روابط مشخص سازمان‌دهی می‌شوند، داده‌های بدون ساختار اسکیما یا قالب ثابتی ندارند. این نوع داده‌ها معمولاً به شکل متن، تصویر، ویدئو، فایل‌های صوتی یا سایر محتواهایی هستند که اطلاعات آن‌ها به‌راحتی در قالب سطر و ستون قرار نمی‌گیرد.

مجموعه‌داده‌های بدون ساختار بسیار فراوان‌اند؛ حتی برخی معتقدند تعداد آن‌ها از مجموعه‌داده‌های ساخت‌یافته بیشتر است. به‌عنوان مثال می‌توان به نظرات کاربران آمازون درباره محصولات، توییت‌های منتشرشده در سال گذشته، تصاویر عمومی اینستاگرام، و ویدئوهای کوتاه پرطرفدار در تیک‌تاک اشاره کرد. این مجموعه‌داده‌های بدون ساختار معمولاً به داده‌های ساخت‌یافته تبدیل می‌شوند تا دانشمندان داده بتوانند آن‌ها را تحلیل کنند. در مطالب اینده ای که در ویرگول منتشر خواهم کرد بیشتر در خصوص جمع‌آوری و آماده‌سازی داده‌ها با تکنیک‌های مختلف پردازش داده آشنا خواهید شد.

مسئله
بیایید دوباره به مثال ژاکت برگردیم: تصمیم‌گیری درباره این‌که آیا برای رفتن به کلاس ژاکت بپوشیم یا نه. فرض کنید مجموعه‌داده مطابق جدول زیر باشد.
آیا این مجموعه‌داده ساخت‌یافته است یا بدون ساختار؟

  

پاسخ
این یک مجموعه‌داده ساخت‌یافته است، زیرا:

  1. هر آیتم داده‌ای ساختار یکسانی دارد و شامل سه ویژگی ثابت است: تاریخ (Date)، دما (Temperature) و نیاز به ژاکت (Needed a Jacket)

  2. هر مقدار به‌طور دقیق در یک سلول از جدول قرار می‌گیرد.

 

مسئله
مجموعه‌داده مثال قبلی چند رکورد (Entry) و چند ویژگی (Attribute) دارد؟

پاسخ
این مجموعه‌داده شامل چهار رکورد است که هرکدام با یک تاریخ مشخص شناسایی می‌شوند.
همچنین این مجموعه‌داده دارای سه ویژگی است: تاریخ، دما و نیاز به ژاکت.

مسئله
یک مجموعه‌داده شامل فهرستی از کلیدواژه‌هایی است که در هفته گذشته در یک موتور جست‌وجوی وب جست‌وجو شده‌اند.
آیا این مجموعه‌داده ساخت‌یافته است یا بدون ساختار؟

پاسخ
این مجموعه‌داده بدون ساختار است، زیرا هر ورودی می‌تواند یک متن آزاد باشد؛ از یک کلمه گرفته تا چند کلمه یا حتی چند جمله.

 مسئله
مجموعه‌داده مثال قبلی پردازش شده و اکنون هر رکورد جست‌وجو به‌صورت حداکثر سه کلمه، به‌همراه زمان انجام جست‌وجو (Timestamp) خلاصه شده است.
آیا این مجموعه‌داده ساخت‌یافته است یا بدون ساختار؟

پاسخ
این یک مجموعه‌داده ساخت‌یافته است، زیرا همه ورودی‌ها دارای ساختار یکسانی با دو ویژگی مشخص هستند: کلیدواژه کوتاه و برچسب زمانی (Timestamp)

علم دادهآنالیز دادهتحلیل دادهداده کاوی
۱
۰
ایمان محدثی
ایمان محدثی
شاید از این پست‌ها خوشتان بیاید