خواندن ۹ دقیقه·۶ سال پیش

گزارش سالیانه «دیوار» برای علاقه‌مندان علم داده + گزارش‌های پیشنهادی سال آینده

گزارش‌های دوره‌ای از کسب‌و‌کارها می‌تواند نقشه‌ی راهی برای کاربرانِ این کسب‌و‌کارها و همچنین شرکت‌های دیگر باشد. گزارش‌هایی که شرکت‌هایی مانند گوگل یا آمازون ارائه می‌کنند همراه با مصورسازی آن‌ها، به عنوان مرجعی برای عملکردِ کاربران مختلف سراسر جهان در حوزه‌های مرتبط شناخته می‌شود و به رفتارهای این کاربران و شرکت‌های استفاده کننده از خدماتشان جهت می‌دهد. قطعاً طراحی یک گزارش خوب و مبتنی بر داده، می‌تواند باعث ایجاد ارزش افزوده در کسب‌و‌کارهایی شود که از این گزارش استفاده می‌کنند، لذا گزارش بایستی به شکلی طراحی شود تا در ذهن مخاطب نقش ببندد.

گزارش سالیانه دیوار، به عنوان یکی از بازیگران اصلی در حوزه‌ی کسب‌و‌کارهای آنلاین در ایران نیز می‌تواند مرجعی مناسب برای فعالان این حوزه و همچنین شرکت‌ها و افرادی باشد که می‌خواهند از این بستر جهت رشد و گسترش کسب‌و‌کار خود استفاده کنند.

اگر نگاهی به داده‌های دیوار انداخته باشید (و اگر هنوز این کار را نکرده‌اید از این‌جا می‌توانید نسخه‌ی اصلی این گزارش را دانلود کنید) متوجه می‌شوید که این گزارش مبتنی تحلیلی چند وجهی است و بر اساس داده‌های موجود که توسط کاربران تولید شده، طراحی و تنظیم شده است. حتماً می‌دانید که در طراحی اینگونه گزارش‌ها نکات مختلف مانند: طراحی گرافیک جذاب، استفاده از اِلِمان‌هایی با وحدت رویه، اطلاعات مفید آماری، خلاصه‌سازی و دسته‌بندی قسمت‌ها و بسیاری نکات ریز و درشت دیگر بایستی مد نظر قرار بگیرد. اما برای طراحی گزارشی که در ذهن مخاطب حک شود نیاز به چند تکنیک و روش دیگر هم هست. ۳ قانون را می‌توان به عنوان قوانین اساسی برای طراحی یک گزارشِ به یاد ماندنی در نظر گرفت که به نظر می‌رسد می‌تواند گزارش و مصورسازی - visualization - را در ذهن مخاطب ماندگار کند:

تفسیرِ شخصیِ داده‌ها در گزارش تا حد امکان کم باشد. به این معنی که تفسیرها، بینش‌ها و نظرات شخصیِ طراحانِ گزارش تا حد امکان در ارائه‌ی گزارش دخالت نداشته باشند. اگر تفسیری شخصی هم ارائه می‌شود، سریعاً داده‌هایی که تفسیر از روی آن‌ها انجام شده، به مخاطب عرضه گردد.
از مقایسه برای درکِ مخاطب استفاده شود. به این دلیل که ذهن یک انسان عادی به بی‌سوادیِ آماری مبتلاست و نمی‌تواند اعداد و ارقام را مخصوصاً در بازه‌ی گسترده، درست تحلیل کند. پس مقایسه با اشیای واقعی و ملموس در بین این گزارش‌ها به شدت مورد نیاز است.
نتیجه‌گرا باشد. این‌که انبوهی از داده‌ها به کاربر نهایی تزریق شود، شخصِ دریافت‌کننده دچار سرریز اطلاعات، بدون نتیجه‌گیریِ خاصی شده و این سرریز، باعث فراموشی زودهنگام این گزارش در ذهن مخاطب می‌شود. به تبع آن، گزارش نمی‌تواند در تصمیم‌گیری‌های آینده‌ی کاربر نقش به سزایی را ایفا کند.

اگر نگاهی به گزارش سالیانه دیوار بیاندازید، موارد گفته شده در بالا، در آن به چشم می‌خورد به گونه‌ای که یک مخاطب می‌تواند بر اساس این گزارش، تحلیل‌ها و تفسیرهای مربوط به خود را داشته باشد و مبتنی بر آن تصمیم بگیرد. این همان تصمیم‌گیری مبتنی بر داده است که در عصر حاضر به عنوان یکی از ارکان قدرت در یک کسب‌و‌کار شناخته می‌شود.

تعریف داستان و مقایسه، یک گزارش مبتنی بر داده را در ذهن مخاطب حفظ می‌کند

محدودیت یک کسب‌و‌کار برای همه‌ی ما کاملاً قابل درک است و نباید از هیچ کسب‌و‌کاری انتظارِ این را داشته باشیم که تمامی اطلاعات محصولات و کاربران خود را در اختیار عموم قرار دهد. با این حال در مورد دیوار، برخی از گزارش‌هایی را که به نظر می‌رسد می‌توانیم سال بعد در این گزارشِ سالیانه داشته باشیم را با یکدیگر مرور می‌کنیم.

گزارش‌های مبتنی بر زمان

دیوار داده‌های مشاهده‌ی آگهی‌ها را در طول زمان دارد. همچنین داده‌های انتشار آن‌ها را بر اساس زمان. پس می‌توانیم از ترکیب گزارش‌های مختلف با زمان نیز بهره بگیریم. برای مثال اگر یک کاربر یا کسب‌و‌کار بداند که مشاهده‌ی آگهی‌ها در هر دسته در هر کدام از ماه‌های سال چقدر است، و یا بداند در کدام روزِ ماه، مشاهده‌ی درخواست‌های کدام دسته بیشتر یا کمتر شده، می‌تواند تصمیمی مبتنی بر این داده‌ها در کسب‌و‌کار خود بگیرد. برای مثال یک فروشنده‌ی خشکبار، ممکن است متوجه شود که در روزهای ابتدایی هر ماه، تقاضا برای مشاهده‌ی آگهی‌هایی در دسته‌بندی مورد نظرش بیشتر می‌شود، و با این بینش، گردش انبار یا خریدهای خود را مدیریت کند.

ترکیب گزارش‌های مختلف و جزئی‌سازی گزارش‌ها
از ترکیب گزارش‌های موجود هم می‌توانیم به عنوان نوعی گزارش جدید یاد کنیم. برای مثال یکی از گزارش‌های ترکیبی می‌تواند این باشد که هر کدام از گروه‌های سِنی، بیشتر به کدام دسته‌ها یا حتی زیر دسته‌ها تمایل دارند. برای مثال ممکن است متوجه شویم که جوانان در سن ۲۵ تا ۳۴ سال، بیشتر به دسته‌ی خرید وسائل خانه تمایل نشان می‌دهند.

این آمارها می‌تواند در هر زیر دسته نیز جزئی‌سازی شوند، که باعث می‌شود تا آمارها یک سطح دیگر نیز پایین‌تر برود (در اصلاح drill down شود) و اطلاعاتِ جزئی‌تری در اختیار مخاطب قرار گیرد. معمولاً مخاطبانی که بخواهند به صورت تخصصی در کسب‌و‌کارشان از این داده‌ها استفاده کنند، نیاز به اطلاعات دقیق و جزئی دارند. برای نمونه بعد از جزئی‌سازی در گزارش‌ها، مثلاً در قسمت املاک متوجه شویم که کاربران در بازه‌ی سنی ۲۵ تا ۳۴ سال، در اواخر شهریور ماه، بیشتر به اجاره‌ی خانه‌های آپارتمانی تمایل دارند و یا کاربران در بازه‌ی سنی ۳۵ تا ۴۵ سال بیشتر به خرید خانه‌های ویلایی در اواسط زمستان، تمایل نشان داده‌اند. این خود می‌تواند نقشه‌ی راهی برای بنگاه‌ها و حتی سیاست‌گذاران حوزه‌ی املاک باشد.

به عنوان مثالی دیگر از ترکیب داده‌ها و جزئی‌سازی می‌توان گفت که این ترکیب نمودار حتی می‌تواند در مورد ترکیب مناطق جغرافیایی با دسته‌بندی‌ها و زیر دسته‌ها هم اعمال شود. برای مثال اینکه هر کدام از استان‌ها بیشتر کدام دسته‌بندی‌ها را مشاهده کرده‌اند و یا این هر کدام از استان‌ها بیشترین آگهی را در کدام بخش‌ها قرار داده‌اند. همین‌کار می‌تواند در توزیع هر کدام از زیر دسته‌ها هم اعمال شود و یک بینش خاص به کسب‌و‌کارهای منطقه‌ای بدهد. مثلاً افرادی که می‌خواهند در کسب‌و‌کارشان گسترش ایجاد کرده، محصولات خود را از شهری به شهر دیگر ببرند، می‌توانند از این دست از گزارش‌ها استفاده کنند. برای نمونه کارگاه کوچکی که به فروش محصولاتش به استان‌های مجاور می‌اندیشد می‌تواند از این داده‌های توزیعی مبتنی بر جغرافیا بهره ببرد.

خوشه‌بندی هوشمند مشتریان

یکی از گزارش‌هایی که می‌تواند به بینش کلی در مورد مشتریان منجر شود، گروه‌بندی مشتریان بر اساس متغیرها یا همان ابعادِ مختلف است. فرض کنید برای هر کدام از مشتری‌ها متغیرهای زیر را در استخراج نماییم:

تعداد محصولاتی که در هر کدام از دسته‌ها مشاهده کرده‌اند (مثلاً: در ماه اخیر ۲۰ آگهی در دسته املاک-اجاره آپارتمان مشاهده کرده است، ۱۰ آگهی در دسته اتومبیل-خرید اتومبیل و...). جمعاً ۱۰۰ متغیر برای ۱۰۰ دسته‌ی مختلف آگهی.
هر در کدام از ساعات شبانه‌روز چقدر از دیوار استفاده کرده‌اند (مثلا: از ساعت ۷ تا ۸ صبح، مجموعاً ۱۰ دقیقه از دیوار استفاده کرده، از ساعت ۸ تا ۹ صبح، ۲۰ دقیقه و...). جمعاً ۲۴ متغیر برای ۲۴ ساعت شبانه‌روز.
هر کدام از روزهای هفته چقدر از دیوار استفاده کرده‌اند (مثلاً: شنبه مجموعاً ۳۰ دقیقه از دیوار استفاده کرده، یکشنبه مجموعاً ۱۰ دقیقه، و...). جمعاً ۷ متغیر برای ۷ روزِ هفته.
هر کدام از روزهای ماه چقدر از دیوار استفاده کرده‌اند (مثلاً: روز اول ماه مجموعاً ۱۰ دقیقه از دیوار استفاده کرده، روز دوم مجموعاً ۲۰ دقیقه، و...). جمعاً ۳۰ متغیر برای ۳۰ روزِ ماه.
هر کدام از ماه‌های سال چقدر از دیوار استفاده کرده‌اند (مثلاً: در فروردین مجموعاً ۳۴۰ دقیقه از دیوار استفاده کرده، در اردیبهشت مجموعاً ۲۳۰ دقیقه، و...). جمعاً ۱۲ متغیر برای ۱۲ ماهِ سال.

البته تعداد این متغیرها می‌تواند بسیار بیشتر از این باشد. این مجموعاً ۱۷۳ متغیر را به عنوان نمونه برای درک مثال آوردم.

همان‌طور که می‌بینید با تبدیل هر مشتری به یک مجموعه‌ای متغیرها و ساخت ماتریسِ مشتریان، می‌توانیم عملیات خوشه‌بندی را با الگوریتم‌های مختلف بر روی آن‌ها انجام دهیم. حتماً می‌دانید که الگوریتم‌های خوشه‌بندی، داده‌ها را به گروه‌های مختلف و با معنی که دارای یک الگوی واحد باشد، تقسیم می‌کند. ممکن است بعد از خوشه‌بندی به گروه‌های زیر برسیم:

یک گروه از مشتریان، بیشتر، آگهی‌های ساختمانی و مصالح را مشاهده کرده‌اند. این مشتریان معمولاً از ساعت ۷ بعد از ظهر تا ۱۲ شب و به صورت تقریباً مساوی در کل روزهای هفته و ماه، این آگهی‌ها را رصد کرده بودند.

گروهی دیگر، مشتریانی هستند که بیشتر، آگهی‌هایی را مشاهده کرده‌اند که شامل خودروهای ارزان قیمت و همچنین اجاره‌ی آپارتمان‌هایی با قیمت متوسط و پایین بوده‌اند. این مشتری‌ها معمولاً در خرداد یا شهریور آگهی‌ها را رصد کرده‌اند.

و یا گروهی دیگر از مشتریان هستند که به دنبال وسائل تفریحی یا مکان‌ها و تورهای تفریحی بوده‌اند. این افراد بیشتر، قبل از ظهر آگهی‌ها را مشاهده کرده‌اند و این رصد آگهی اکثراً در روزهای سه‌شنبه و چهارشنبه‌ی هفته اتفاق افتاده است.

مشاهده می‌کنید که الگوریتم‌های خوشه‌بندی می‌توانند گروه‌هایی با معنا از میان داده‌ها را استخراج نمایند. این گروه‌ها شامل افرادی هستند از الگوهایی شبیه به هم پیروی می‌کنند و در واقع یک اجتماع را در میان داده‌های ما تشکیل داده‌اند. با درک این گروه‌ها و ارائه‌ی آن‌ها به صورت گزارش، می‌توان به تصمیم‌گیریِ کاربران و حتی در عملکردِ آن‌ها در کسب‌و‌کارشان جهت داد و برای آن‌ها ارزشِ افزوده ایجاد کرد.

...

به نظر شما در گزارشِ سالیانه‌ی آینده از دیوار، کدام گزارش‌ها را (علاوه بر این گزارش‌ها) می‌توانیم داشته باشم؟ در قسمت کامنت‌ها زیر همین پُست بنویسید.

علم دادهمصورسازیدیواراستارتاپگزارش

مسعود کاویانی

Senior Data Scientist at SabaIdea (Filimo, Aparat, Cinematicket) | Founder Of: chistio.ir

شاید از این پست‌ها خوشتان بیاید

مسعود کاویانی

خواندن ۹ دقیقه·۶ سال پیش

گزارش سالیانه «دیوار» برای علاقه‌مندان علم داده + گزارش‌های پیشنهادی سال آینده

تفسیرِ شخصیِ داده‌ها در گزارش تا حد امکان کم باشد. به این معنی که تفسیرها، بینش‌ها و نظرات شخصیِ طراحانِ گزارش تا حد امکان در ارائه‌ی گزارش دخالت نداشته باشند. اگر تفسیری شخصی هم ارائه می‌شود، سریعاً داده‌هایی که تفسیر از روی آن‌ها انجام شده، به مخاطب عرضه گردد.
از مقایسه برای درکِ مخاطب استفاده شود. به این دلیل که ذهن یک انسان عادی به بی‌سوادیِ آماری مبتلاست و نمی‌تواند اعداد و ارقام را مخصوصاً در بازه‌ی گسترده، درست تحلیل کند. پس مقایسه با اشیای واقعی و ملموس در بین این گزارش‌ها به شدت مورد نیاز است.
نتیجه‌گرا باشد. این‌که انبوهی از داده‌ها به کاربر نهایی تزریق شود، شخصِ دریافت‌کننده دچار سرریز اطلاعات، بدون نتیجه‌گیریِ خاصی شده و این سرریز، باعث فراموشی زودهنگام این گزارش در ذهن مخاطب می‌شود. به تبع آن، گزارش نمی‌تواند در تصمیم‌گیری‌های آینده‌ی کاربر نقش به سزایی را ایفا کند.

گزارش‌های مبتنی بر زمان

خوشه‌بندی هوشمند مشتریان

تعداد محصولاتی که در هر کدام از دسته‌ها مشاهده کرده‌اند (مثلاً: در ماه اخیر ۲۰ آگهی در دسته املاک-اجاره آپارتمان مشاهده کرده است، ۱۰ آگهی در دسته اتومبیل-خرید اتومبیل و...). جمعاً ۱۰۰ متغیر برای ۱۰۰ دسته‌ی مختلف آگهی.
هر در کدام از ساعات شبانه‌روز چقدر از دیوار استفاده کرده‌اند (مثلا: از ساعت ۷ تا ۸ صبح، مجموعاً ۱۰ دقیقه از دیوار استفاده کرده، از ساعت ۸ تا ۹ صبح، ۲۰ دقیقه و...). جمعاً ۲۴ متغیر برای ۲۴ ساعت شبانه‌روز.
هر کدام از روزهای هفته چقدر از دیوار استفاده کرده‌اند (مثلاً: شنبه مجموعاً ۳۰ دقیقه از دیوار استفاده کرده، یکشنبه مجموعاً ۱۰ دقیقه، و...). جمعاً ۷ متغیر برای ۷ روزِ هفته.
هر کدام از روزهای ماه چقدر از دیوار استفاده کرده‌اند (مثلاً: روز اول ماه مجموعاً ۱۰ دقیقه از دیوار استفاده کرده، روز دوم مجموعاً ۲۰ دقیقه، و...). جمعاً ۳۰ متغیر برای ۳۰ روزِ ماه.
هر کدام از ماه‌های سال چقدر از دیوار استفاده کرده‌اند (مثلاً: در فروردین مجموعاً ۳۴۰ دقیقه از دیوار استفاده کرده، در اردیبهشت مجموعاً ۲۳۰ دقیقه، و...). جمعاً ۱۲ متغیر برای ۱۲ ماهِ سال.

...

علم دادهمصورسازیدیواراستارتاپگزارش

مسعود کاویانی

Senior Data Scientist at SabaIdea (Filimo, Aparat, Cinematicket) | Founder Of: chistio.ir

شاید از این پست‌ها خوشتان بیاید