تجسم دادهها جزء حیاتی تجزیه و تحلیل دادهها هستند، زیرا این قابلیت را دارند که مقادیر زیادی از دادهها را به طور موثر در قالب گرافیکی خلاصه کنند. انواع نمودارهای زیادی وجود دارد که هر کدام نقاط قوت و موارد استفاده خاص خود را دارند. یکی از پیچیدهترین بخشهای فرآیند تحلیل، انتخاب راه درست برای نمایش دادههای شما با استفاده از یکی از این تجسمها است.
نقش های رایج برای تجسم داده ها عبارتند از:
انواع متغیرهایی که تحلیل میکنیم و مخاطبان ما، برای تجسم داده، میتوانند بر روی این که کدام نمودار در هر نقش بهتر عمل میکند تأثیر می گذارد. برخی از تجسم ها نیز بسته به این عوامل می توانند برای اهداف متعدد مورد استفاده قرار گیرند.
یکی از رایج ترین کاربردها برای تجسم داده ها، دیدن تغییر مقدار یک متغیر در طول زمان است. این نمودارها معمولاً زمان را در محور افقی، و از چپ به راست نشان می دهند ، و متغیر وابسته به زمان در محور عمودی است. چندین روش برای نمایش این مقادیر وجود دارد:
- نمودار میله ای Bar charts : مقادیر عددی را برای سطوح یک ویژگی طبقه بندی به صورت میله ترسیم می کند. هر بازه زمانی یک میله دارد و ارتفاع هر میله با مقدار میله مطابقت دارد. میله ها بر روی یک خط پایه مشترک رسم می شوند تا امکان مقایسه آسان مقادیر را فراهم کنند.
- نمودارهای خطی Line charts : ارزش را با موقعیت های عمودی نقاط متصل شده توسط بخش های خطی نشان می دهد. این نمودار زمانی مفید است که یک خط مبنا معنی دار نباشد، یا اگر تعداد میله ها برای رسم زیاد باشد.
- نمودار جعبه ای Box Plot : زمانی می تواند مفید باشد که توزیع مقادیر برای هر دوره زمانی ترسیم شود. هر مجموعه از جعبه ها می تواند نشان دهد که رایج ترین مقادیر داده در کجا قرار دارند.
گاهی اوقات، ما نیاز داریم که نه فقط یک کل، بلکه اجزای تشکیل دهنده آن کل را بدانیم. در حالی که نمودارهای دیگر مانند نمودار میله ای استاندارد را می توان برای مقایسه مقادیر اجزاء مورد استفاده قرار داد. روش های نمایش این مقادیر به صورت زیر هستند:
- نمودار دایره ای Pie Chart : نمودار دایره ای نشان می دهد که چگونه مقدار کل بین سطوح یک متغیر طبقه بندی شده به عنوان یک دایره تقسیم شده به برش های شعاعی تقسیم می شود. هر مقدار طبقه بندی با یک تکه از دایره مطابقت دارد، و اندازه هر تکه (هم از نظر مساحت و هم از نظر طول قوس) نشان می دهد که هر سطح طبقه بندی چه نسبتی از کل را می گیرد.
- نمودار میله ای انباشته Stacked Bar Chart : میله هایی را نشان میدهد که گروههای مختلف را بر روی یکدیگر نشان می دهند. ارتفاع میله حاصل نتیجه ترکیبی گروهها را نشان میدهد. با این حال، نمودارهای میله ای انباشته برای مجموعه داده هایی که برخی گروهها دارای مقادیر منفی هستند، مناسب نیستند.
- نمودار ناحیه ای انباشته Stacked Area Chart : یک نمودار ناحیه انباشته، نمودار خط را با استفاده از هاشور زیر خط ، با استفاده از ناحیه پر شده نشان می دهد. که با تقسیم کل به مقادیر زیر گروه تغییر می یابد.
یکی از کاربردهای مهم تجسم داده، نشان دادن نحوه توزیع مقادیر نقاط داده است. این امر به ویژه زمانی که تلاش برای ایجاد یک درک درست از ویژگیهای (properties) هر کدام از مشخصه های ( features) داده ها ارئه شود، مفید است.
- نمودار میله ای Bar charts : زمانی استفاده می شود که یک متغیر کیفی باشد و تعدادی مقادیر گسسته را بگیرد.
- نمودار هیستوگرام Histogram : هیستوگرام نموداری است که توزیع مقادیر یک متغیر عددی را به صورت یک سری میله ترسیم می کند. هر نوار معمولاً محدوده ای از مقادیر عددی به نام bin یا کلاس را پوشش می دهد. ارتفاع یک نوار نشان دهنده بسامد نقاط داده با مقدار درون bin مربوطه است.
- نمودار ویولن Violin plot : نمودار ویولن توزیع داده های عددی را برای یک یا چند گروه با استفاده از منحنی های چگالی به تصویر می کشد. عرض هر منحنی با فرکانس تقریبی نقاط داده در هر منطقه مطابقت دارد. چگالی ها اغلب با یک نوع نمودار روی هم قرار می گیرند, iمانند نمودار جعبه، برای ارائه اطلاعات اضافی مفید می باشد.
- نمودار جعبه ای Box Plot : نمودار جعبه روش دیگری برای مقایسه توزیع بین گروه ها است، که خلاصه ای از آمار به جای شکل توزیعی تخمینی بکار می رود.
یکی دیگر از کاربردهای بسیار رایج برای تجسم داده ها، مقایسه مقادیر بین گروه های متمایز است. که این اغلب با نقشهای دیگر برای تجسم دادهها ترکیب میشود، مانند نمایش تغییرات در طول زمان، یا مشاهده نحوه توزیع دادهها.
- نمودار میله ای Bar charts : مقادیر عددی را برای سطوح یک ویژگی طبقه بندی به صورت میله ترسیم می کند.
- نمودار نقطهای Dot Plot : همانند نمودار میله ای است مگر با مقداری که بهجای طول میلهها با موقعیتهای نقطه نشان داده میشود. این مانند یک نمودار خطی است که بخش های خط آن حذف شده است و "اتصال" بین نقاط متوالی را از بین می برد. همچنین مانند نمودار خطی، نمودار نقطه ای زمانی مفید است که گنجاندن خط پایه عمودی معنادار نباشد.
- نمودار خطی Line charts : می تواند برای مقایسه مقادیر بین گروه ها در طول زمان با رسم یک خط در هر گروه استفاده شود.
- نمودار میلهای گروهبندی شدهGrouped bar chart : امکان مقایسه دادهها را در بین دو متغیر گروهبندی مختلف با ترسیم چندین میله در هر مکان، نه فقط در یک مکان، فراهم میکند.
- نمودارهای ویولن (Violin plots) و نمودار جعبه (Box plots) برای مقایسه توزیع داده ها بین گروه ها استفاده می شود.
- نمودار قیفی Funnel chart : یک نمودار تخصصی برای نشان دادن نحوه حرکت مقادیر در یک فرآیند است، مانند ردیابی تعداد بازدیدکنندگانی که از نمایش یک آگهی تا در نهایت خرید دریافت میکنند.
- نمودارهای Bullet : نمودار تخصصی دیگری برای مقایسه مقدار واقعی با یک یا چند معیار است.
وظیفه دیگری که در کاوش داده ها نشان داده می شود، درک رابطه بین ویژگی های داده است. از انواع نمودار زیر می توان برای ترسیم دو یا چند متغیر در برابر یکدیگر برای مشاهده روندها و الگوهای بین آنها استفاده کرد.
- نمودار پراکندگی scatter plots : روش استاندارد برای نشان دادن رابطه بین دو متغیر است. از نقاط برای نمایش مقادیر دو متغیر عددی مختلف استفاده می کند. موقعیت هر نقطه در محور افقی و عمودی مقادیری را برای یک نقطه داده جداگانه نشان می دهد.
- نمودارهای پراکندگی را می توان با افزودن رنگ، شکل یا اندازه به هر نقطه به عنوان bubble chart ، به متغیرهای اضافی گسترش داد.
- نمودار connected scatter plot : هنگامی که متغیر سوم زمان را نشان می دهد، نقاط در یک نمودار پراکنده می توانند با قطعات خط متصل شوند و یک نمودار پراکندگی متصل ایجاد کنند.
- نمودار Heat map یا نقشه حرارتی: مقادیر یک متغیر اصلی مورد علاقه را در دو متغیر محور به صورت شبکه ای از مربع های رنگی نشان می دهد. متغیرهای محور به محدوده هایی مانند نمودار میله ای یا هیستوگرام تقسیم می شوند و رنگ هر سلول نشان دهنده مقدار متغیر اصلی در محدوده سلول مربوطه است.هنگامی که یک یا هر دو متغیر مقایسه شده عددی نیستند، یک نقشه حرارتی می تواند رابطه بین گروه ها را نشان دهد. نقشههای حرارتی همچنین میتوانند برای دادههای عددی صرف، مانند هیستوگرام ۲ بعدی یا منحنی چگالی ۲ بعدی استفاده شوند.
گاهی اوقات، داده ها شامل داده های جغرافیایی مانند طول و عرض جغرافیایی یا مناطقی مانند کشور یا ایالت می شود. در حالی که رسم این داده ها ممکن است فقط به معنای گسترش تجسم موجود بر روی پس زمینه نقشه باشد (مثلاً ترسیم نقاط مانند نمودار پراکندگی در بالای نقشه)، انواع نمودار دیگری نیز وجود دارد که دامنه نقشه برداری را در نظر می گیرد.
- نمودار choropleth : نقشههای Choropleth مقادیر دادهها را در مناطق جغرافیایی با رنگها و الگوهای مختلف نشان میدهد. دادهها به کلاسها طبقه بندی میشوند، به هر کلاس رنگ یا الگوی منحصر به فردی اختصاص مییابد.
- کارتوگرام یا نموار نقشه Cartograms : نقشه ای است که در آن بعضی متغیرهای نقشهای موضوعی با محدودهٔ منطقهای یا فاصله جایگزین میشوند. نقشه از لحاظ بصری و هندسی تغییر می یابد تا بازتابدهندهٔ اطلاعات مورنظر باشد.
منابع :
https://en.wikipedia.org/wiki/Chart
Show Me the Numbers: Designing Tables and Graphs to Enlighten by Stephen Few
https://www.atlassian.com/data/charts
https://en.wikipedia.org/wiki/Plot_(graphics)