ناصر نوری حامد
ناصر نوری حامد
خواندن ۷ دقیقه·۱ ماه پیش

نحوه انتخاب بهترین نمودار (visualization):

تجسم داده‌ها جزء حیاتی تجزیه و تحلیل داده‌ها هستند، زیرا این قابلیت را دارند که مقادیر زیادی از داده‌ها را به طور موثر در قالب گرافیکی خلاصه کنند. انواع نمودارهای زیادی وجود دارد که هر کدام نقاط قوت و موارد استفاده خاص خود را دارند. یکی از پیچیده‌ترین بخش‌های فرآیند تحلیل، انتخاب راه درست برای نمایش داده‌های شما با استفاده از یکی از این تجسم‌ها است.


نقش های رایج برای تجسم داده ها عبارتند از:

  • تغییر در طول زمان را نشان می دهد
  • نمایش یک ترکیب جزء به کل
  • نگاهی به نحوه توزیع داده ها
  • مقایسه مقادیر بین گروه ها
  • مشاهده روابط بین متغیرها
  • نگاهی به داده های جغرافیایی

انواع متغیرهایی که تحلیل می‌کنیم و مخاطبان ما، برای تجسم داده، می‌توانند بر روی این که کدام نمودار در هر نقش بهتر عمل می‌کند تأثیر می گذارد. برخی از تجسم ها نیز بسته به این عوامل می توانند برای اهداف متعدد مورد استفاده قرار گیرند.

1 - نمودارهایی برای نشان دادن تغییرات در طول زمان:

یکی از رایج ترین کاربردها برای تجسم داده ها، دیدن تغییر مقدار یک متغیر در طول زمان است. این نمودارها معمولاً زمان را در محور افقی، و از چپ به راست نشان می دهند ، و متغیر وابسته به زمان در محور عمودی است. چندین روش برای نمایش این مقادیر وجود دارد:

- نمودار میله ای Bar charts : مقادیر عددی را برای سطوح یک ویژگی طبقه بندی به صورت میله ترسیم می کند. هر بازه زمانی یک میله دارد و ارتفاع هر میله با مقدار میله مطابقت دارد. میله ها بر روی یک خط پایه مشترک رسم می شوند تا امکان مقایسه آسان مقادیر را فراهم کنند.

- نمودارهای خطی Line charts : ارزش را با موقعیت های عمودی نقاط متصل شده توسط بخش های خطی نشان می دهد. این نمودار زمانی مفید است که یک خط مبنا معنی دار نباشد، یا اگر تعداد میله ها برای رسم زیاد باشد.

- نمودار جعبه ای Box Plot : زمانی می تواند مفید باشد که توزیع مقادیر برای هر دوره زمانی ترسیم شود. هر مجموعه از جعبه ها می تواند نشان دهد که رایج ترین مقادیر داده در کجا قرار دارند.


2 - نمودارهایی برای نمایش ترکیب جزء به کل :

گاهی اوقات، ما نیاز داریم که نه فقط یک کل، بلکه اجزای تشکیل دهنده آن کل را بدانیم. در حالی که نمودارهای دیگر مانند نمودار میله ای استاندارد را می توان برای مقایسه مقادیر اجزاء مورد استفاده قرار داد. روش های نمایش این مقادیر به صورت زیر هستند:


- نمودار دایره ای Pie Chart : نمودار دایره ای نشان می دهد که چگونه مقدار کل بین سطوح یک متغیر طبقه بندی شده به عنوان یک دایره تقسیم شده به برش های شعاعی تقسیم می شود. هر مقدار طبقه بندی با یک تکه از دایره مطابقت دارد، و اندازه هر تکه (هم از نظر مساحت و هم از نظر طول قوس) نشان می دهد که هر سطح طبقه بندی چه نسبتی از کل را می گیرد.

- نمودار میله ای انباشته Stacked Bar Chart : میله هایی را نشان میدهد که گروههای مختلف را بر روی یکدیگر نشان می دهند. ارتفاع میله حاصل نتیجه ترکیبی گروهها را نشان میدهد. با این حال، نمودارهای میله ای انباشته برای مجموعه داده هایی که برخی گروهها دارای مقادیر منفی هستند، مناسب نیستند.

- نمودار ناحیه ای انباشته Stacked Area Chart : یک نمودار ناحیه انباشته، نمودار خط را با استفاده از هاشور زیر خط ، با استفاده از ناحیه پر شده نشان می دهد. که با تقسیم کل به مقادیر زیر گروه تغییر می یابد.


3 - نمودارهایی برای مشاهده نحوه توزیع داده ها :

یکی از کاربردهای مهم تجسم داده، نشان دادن نحوه توزیع مقادیر نقاط داده است. این امر به ویژه زمانی که تلاش برای ایجاد یک درک درست از ویژگی‌های (properties) هر کدام از مشخصه های ( features) داده ها ارئه شود، مفید است.

- نمودار میله ای Bar charts : زمانی استفاده می شود که یک متغیر کیفی باشد و تعدادی مقادیر گسسته را بگیرد.

- نمودار هیستوگرام Histogram : هیستوگرام نموداری است که توزیع مقادیر یک متغیر عددی را به صورت یک سری میله ترسیم می کند. هر نوار معمولاً محدوده ای از مقادیر عددی به نام bin یا کلاس را پوشش می دهد. ارتفاع یک نوار نشان دهنده بسامد نقاط داده با مقدار درون bin مربوطه است.

- نمودار ویولن Violin plot : نمودار ویولن توزیع داده های عددی را برای یک یا چند گروه با استفاده از منحنی های چگالی به تصویر می کشد. عرض هر منحنی با فرکانس تقریبی نقاط داده در هر منطقه مطابقت دارد. چگالی ها اغلب با یک نوع نمودار روی هم قرار می گیرند, iمانند نمودار جعبه، برای ارائه اطلاعات اضافی مفید می باشد.


- نمودار جعبه ای Box Plot : نمودار جعبه روش دیگری برای مقایسه توزیع بین گروه ها است، که خلاصه ای از آمار به جای شکل توزیعی تخمینی بکار می رود.


4 - نمودارهایی برای مقایسه مقادیر بین گروه ها:

یکی دیگر از کاربردهای بسیار رایج برای تجسم داده ها، مقایسه مقادیر بین گروه های متمایز است. که این اغلب با نقش‌های دیگر برای تجسم داده‌ها ترکیب می‌شود، مانند نمایش تغییرات در طول زمان، یا مشاهده نحوه توزیع داده‌ها.


- نمودار میله ای Bar charts : مقادیر عددی را برای سطوح یک ویژگی طبقه بندی به صورت میله ترسیم می کند.

- نمودار نقطه‌ای Dot Plot : همانند نمودار میله ای است مگر با مقداری که به‌جای طول میله‌ها با موقعیت‌های نقطه نشان داده می‌شود. این مانند یک نمودار خطی است که بخش های خط آن حذف شده است و "اتصال" بین نقاط متوالی را از بین می برد. همچنین مانند نمودار خطی، نمودار نقطه ای زمانی مفید است که گنجاندن خط پایه عمودی معنادار نباشد.

- نمودار خطی Line charts : می تواند برای مقایسه مقادیر بین گروه ها در طول زمان با رسم یک خط در هر گروه استفاده شود.

- نمودار میله‌ای گروه‌بندی شدهGrouped bar chart : امکان مقایسه داده‌ها را در بین دو متغیر گروه‌بندی مختلف با ترسیم چندین میله در هر مکان، نه فقط در یک مکان، فراهم می‌کند.

- نمودارهای ویولن (Violin plots) و نمودار جعبه (Box plots) برای مقایسه توزیع داده ها بین گروه ها استفاده می شود.

- نمودار قیفی Funnel chart : یک نمودار تخصصی برای نشان دادن نحوه حرکت مقادیر در یک فرآیند است، مانند ردیابی تعداد بازدیدکنندگانی که از نمایش یک آگهی تا در نهایت خرید دریافت می‌کنند.

- نمودارهای Bullet : نمودار تخصصی دیگری برای مقایسه مقدار واقعی با یک یا چند معیار است.


5 - نمودارهایی برای مشاهده روابط بین متغیرها:

وظیفه دیگری که در کاوش داده ها نشان داده می شود، درک رابطه بین ویژگی های داده است. از انواع نمودار زیر می توان برای ترسیم دو یا چند متغیر در برابر یکدیگر برای مشاهده روندها و الگوهای بین آنها استفاده کرد.



- نمودار پراکندگی scatter plots : روش استاندارد برای نشان دادن رابطه بین دو متغیر است. از نقاط برای نمایش مقادیر دو متغیر عددی مختلف استفاده می کند. موقعیت هر نقطه در محور افقی و عمودی مقادیری را برای یک نقطه داده جداگانه نشان می دهد.

- نمودارهای پراکندگی را می توان با افزودن رنگ، شکل یا اندازه به هر نقطه به عنوان bubble chart ، به متغیرهای اضافی گسترش داد.

- نمودار connected scatter plot : هنگامی که متغیر سوم زمان را نشان می دهد، نقاط در یک نمودار پراکنده می توانند با قطعات خط متصل شوند و یک نمودار پراکندگی متصل ایجاد کنند.

- نمودار Heat map یا نقشه حرارتی: مقادیر یک متغیر اصلی مورد علاقه را در دو متغیر محور به صورت شبکه ای از مربع های رنگی نشان می دهد. متغیرهای محور به محدوده هایی مانند نمودار میله ای یا هیستوگرام تقسیم می شوند و رنگ هر سلول نشان دهنده مقدار متغیر اصلی در محدوده سلول مربوطه است.هنگامی که یک یا هر دو متغیر مقایسه شده عددی نیستند، یک نقشه حرارتی می تواند رابطه بین گروه ها را نشان دهد. نقشه‌های حرارتی همچنین می‌توانند برای داده‌های عددی صرف، مانند هیستوگرام ۲ بعدی یا منحنی چگالی ۲ بعدی استفاده شوند.


6 - نمودارهایی برای مشاهده داده های جغرافیایی :

گاهی اوقات، داده ها شامل داده های جغرافیایی مانند طول و عرض جغرافیایی یا مناطقی مانند کشور یا ایالت می شود. در حالی که رسم این داده ها ممکن است فقط به معنای گسترش تجسم موجود بر روی پس زمینه نقشه باشد (مثلاً ترسیم نقاط مانند نمودار پراکندگی در بالای نقشه)، انواع نمودار دیگری نیز وجود دارد که دامنه نقشه برداری را در نظر می گیرد.


- نمودار choropleth : نقشه‌های Choropleth مقادیر داده‌ها را در مناطق جغرافیایی با رنگ‌ها و الگوهای مختلف نشان می‌دهد. داده‌ها به کلاس‌ها طبقه بندی می‌شوند، به هر کلاس رنگ یا الگوی منحصر به فردی اختصاص می‌یابد.

- کارتوگرام یا نموار نقشه Cartograms : نقشه ای است که در آن بعضی متغیرهای نقشه‌ای موضوعی با محدودهٔ منطقه‌ای یا فاصله جایگزین می‌شوند. نقشه از لحاظ بصری و هندسی تغییر می یابد تا بازتاب‌دهندهٔ اطلاعات مورنظر باشد.



منابع :

https://en.wikipedia.org/wiki/Chart

Show Me the Numbers: Designing Tables and Graphs to Enlighten by Stephen Few

https://www.atlassian.com/data/charts

https://en.wikipedia.org/wiki/Plot_(graphics)













نمودارchartvisualizationمصورسازیتجسم داده
شاید از این پست‌ها خوشتان بیاید