نوشته های ایمان محدثی

مطلب پانزدهم از علم داده :معیارهای پراکندگی

ایمان محدثی — Tue, 19 May 2026 19:51:15 +0330

معیارهای پراکندگی در علم داده؛ چرا میانگین به تنهایی کافی نیست؟حتماً برایتان پیش آمده که میانگین یک مجموعه داده را محاسبه کرده‌اید، اما بعداً متوجه شده‌اید که این میانگین اصلاً وضعیت واقعی داده‌ها را نشان نمی‌دهد. چرا؟ چون میانگین به تنهایی واقعیت را نمی‌گوید یا حداقل می‌تواند گمراه‌کننده باشد.در علم داده، ما فقط نمی‌خواهیم بدانیم مرکز داده کجاست، بلکه می‌خواهیم بدانیم داده‌ها چقدر از این مرکز فاصله و پراکندگی دارند. اینجاست که معیارهای پراکندگی به ما واقعیت بیشتری از داده ها را خواهد گفت.در این مطلب، با مفاهیم دامنه تغییرات (Range)، واریانس (Variance)، انحراف معیار (Standard Deviation) و ضریب تغییرات (Coefficient of Variation) آشنا می‌شوید و یاد می‌گیرید چرا این مفاهیم برای درک ریسک، عدم اطمینان و قابلیت اعتماد داده‌ها ضروری هستند.چرا فقط میانگین کافی نیست؟ یک مثال سادهدو مجموعه داده زیر را در نظر بگیرید:میانگین هر دو مجموعه برابر با ۷۰ است! اما آیا این دو مجموعه شبیه هم هستند؟ قطعاً نه.در مجموعه A ، پراکندگی زیاد است: یک دانشجو ۳۰ نمره پایین‌تر و یک دانشجو ۳۰ نمره بالاتر از میانگین گرفته است.در مجموعه B ، پراکندگی کم است: همه نمرات نزدیک میانگین (۷۰) قرار دارند.اگر فقط میانگین را بدانید، تصور می‌کنید هر دو کلاس وضعیت مشابهی دارند، اما استراتژی تدریس شما برای این دو کلاس باید کاملاً متفاوت باشد. پس میانگین به تنهایی کافی نیست؛ به معیارهای پراکندگی نیاز داریم.فرض کنید من به شما بگویم میانگین قد افراد در این اتاق ۱۷۰ سانتی‌متر است. آیا این اطلاعات به تنهایی برای شما مفید است؟ خیر!اگر پراکندگی قدها کم باشد همه بین ۱۶۵ تا ۱۷۵، میانگین قابل اعتماد است. اما اگر پراکندگی زیاد باشد هم شخصی با قد ۱۴۰ و هم شخصی با قد ۲۰۰ در اتاق باشد، میانگین ۱۷۰ دیگر هیچ معنی واقعی ندارد.در علم داده، پراکندگی معیاری برای سنجش ریسک، عدم اطمینان و قابلیت اعتماد است. بدون فهمیدن پراکندگی، تصمیمات ما مثل رانندگی با چشم بسته است.سه معیار اصلی پراکندگی1- دامنه تغییرات (Range)ساده‌ترین معیار پراکندگی است:فرمول : دامنه تغییرات = بزرگ‌ترین مقدار – کوچک‌ترین مقدار (Max - Min)مزایا: محاسبه آسان و فهم سریع از گستردگی داده.معایب: فقط از دو مقدار داده (بزرگترین و کوچکترین) استفاده می‌کند و به شدت تحت تأثیر داده‌های پرت قرار می‌گیرد.مثال: برای نمرات زیست‌شناسی (40، 70، 100)، دامنه تغییرات برابر ۶۰ است. برای نمرات آمار (69، 70، 71)، دامنه تغییرات برابر ۲ است. این اعداد به وضوح نشان می‌دهند که پراکندگی در مجموعه B خیلی کمتر است.A) Max – Min = 100 – 40 = 60B) Max – Min = 71 – 69 = 22- واریانس (Variance)واریانس میانگین مجذور انحراف‌ها از میانگین است. هرچه داده‌ها بیشتر از میانگین فاصله داشته باشند، واریانس بزرگ‌تر خواهد بود.کاربرد عملی: مشاوران مالی از واریانس برای اندازه‌گیری نوسانات یک سرمایه‌گذاری استفاده می‌کنند. سرمایه‌گذاران محتاط، سرمایه‌گذاری‌هایی با واریانس کم (نوسان پایین) را ترجیح می‌دهند.فرمول واریانس نمونه (s²):فرمول واریانس جامعه (σ²):چرا در واریانس نمونه از n-1 استفاده می‌کنیم؟ چون استفاده از n-1 در مخرج، بهترین تخمین را از واریانس جامعه به ما می‌دهد. در بسیاری از کاربردهای علم داده، داده‌های جامعه در دسترس نیستند، بنابراین واریانس نمونه را محاسبه می‌کنیم.3- انحراف معیار (Standard Deviation)انحراف معیار، جذر واریانس است. مهم‌ترین مزیت آن نسبت به واریانس این است که با همان واحدهای داده اصلی اندازه‌گیری می‌شود. مثلاً اگر داده‌ها سن بر حسب سال باشند، انحراف معیار هم بر حسب سال است.فرمول انحراف معیار نمونه (s):انحراف معیار کوچک: داده‌ها نزدیک میانگین متمرکز شده‌اند، پراکندگی کم است.انحراف معیار بزرگ: داده‌ها از میانگین فاصله دارند، پراکندگی زیاد است.مثال سرمایه‌گذاری: دو صندوق، میانگین بازدهی سالانه ۱۵٪ دارند. صندوقی را انتخاب می‌کنید که انحراف معیار (ریسک) کمتری داشته باشد، یعنی بازدهی آن پایدارتر و نزدیک به ۱۵٪ باشد.مثال کنترل کیفیت: کارخانه لامپ‌سازی ادعای میانگین عمر ۱۰۰۰ ساعت دارد. اگر انحراف معیار کم باشد، همه لامپ‌ها حدود ۱۰۰۰ ساعت کار می‌کنند (قابل اعتماد). اگر انحراف معیار زیاد باشد، یک لامپ ۱۰۰ ساعت و دیگری ۲۰۰۰ ساعت عمر می‌کند (غیرقابل اعتماد).4- ضریب تغییرات (Coefficient of Variation - CV)گاهی می‌خواهیم پراکندگی دو مجموعه داده را مقایسه کنیم که واحدهای اندازه‌گیری متفاوتی دارند یا میانگین‌هایشان خیلی با هم فرق دارد. در این موارد از ضریب تغییرات استفاده می‌کنیم.فرمول:ضریب تغییرات نشان می‌دهد که انحراف معیار چند درصد از میانگین است.مثال: مقایسه دو شرکت با میانگین حقوق متفاوت:شرکت: A میانگین 68,000 دلار، انحراف معیار 9,200 دلار در نتیجه با قرار دادن در فرمول ضریب تغییرات CV(A) = 13.5%شرکت: B میانگین 71,000 دلار، انحراف معیار 6,400 دلار در نتیجه با قرار دادن در فرمول ضریب تغییرات CV(B) = 9.0%نتیجه: شرکت A نسبت به میانگین خود، تغییرات بیشتری در حقوق کارمندانش دارد.جمع‌بندی نهاییمعیارهای پراکندگی، داستانی را که میانگین به تنهایی نمی‌تواند بگوید، کامل می‌کنند. این معیارها پایه و اساس آمار استنباطی، آزمون فرضیه و درک قابلیت اعتماد داده‌ها هستند.اگر شما هم به علم داده علاقه دارید، درک عمیق پراکندگی داده‌ها را جدی بگیرید. این مفاهیم به شما کمک می‌کنند:ریسک را اندازه بگیریدتصمیمات آگاهانه‌تری بگیریدقابلیت اعتماد تحلیل‌های خود را ارزیابی کنیدآیا شما تاکنون با موردی برخورد کرده‌اید که میانگین گمراه‌کننده بوده است؟ تجربیات خود را در بخش نظرات به اشتراک بگذارید.

مطلب چهاردهم از علم داده :محاسبه معیارهای گرایش مرکز با پایتون

ایمان محدثی — Sat, 09 May 2026 18:40:13 +0330

در علم داده، همیشه نیاز داریم تا یک نمای کلی و سریع از داده‌هایمان به دست آوریم. میانگین و میانه از مهم‌ترین معیارهای مرکز هستند که به ما درک درستی از توزیع داده می‌دهند. در این مطلب یاد می‌گیرید چگونه با استفاده از کتابخانه Pandas در پایتون، این معیارها را محاسبه کنید.گام ۱: نصب و وارد کردن کتابخانه مورد نیازابتدا مطمئن شوید Pandas روی سیستم شما نصب است. در صورت نداشتن، از دستور زیر استفاده کنید:pip install pandasسپس در محیط کدنویسی خود، پانداس را وارد کنید:import pandas as pd گام ۲: بارگذاری مجموعه دادهدر این مثال از مجموعه داده (movie_profit.csv) استفاده می‌کنیم. فرض کنید فایل CSV در مسیر فعلی شما قرار دارد:df = pd.read_csv('movieprofit.csv')برای مشاهده چند سطر اول داده:df.head()گام ۳: استفاده از متد describeمتد describe خلاصه‌ای آماری از داده‌های عددی شامل میانگین، میانه (چارک ۵۰٪)، انحراف معیار و ... ارائه می‌دهد:df.describe() خروجی شامل جدولی مانند زیر است:گام ۴: تفسیر خروجی برای ستون درآمد ناخالصمیانگین : mean میانه : 50%انحراف معیار: stdکمترین مقدار : minبیشترین مقدار : maxستون worldwide_gross_million درآمد ناخالص جهانی فیلم‌ها را نشان می‌دهد:میانگین: حدود ۴۱۰.۱۴ میلیون دلار، میانگین کل درآمدهامیانه: حدود ۳۰۹.۳۵ میلیون دلار ، نقطه وسط داده‌هانکته: اگر میانگین بزرگتر از میانه باشد، یعنی داده‌ها به سمت راست چولگی (Skewness) دارند و تعدادی فیلم با درآمد خیلی بالا وجود دارد.گام ۵: محاسبه جداگانه میانگین و میانهاگر فقط بخواهید میانگین یا میانه یک ستون خاص را مشاهده کنید:میانگین ستون worldwide_gross_million df['worldwide_gross_million'].mean() میانه ستون worldwide_gross_milliondf['worldwide_gross_million'].median()نکته مهم: ستون‌های بی‌ربطگاهی در داده‌ها ستون‌هایی مثل Unnamed: 0 وجود دارند که صرفاً نقش شناسه دارند. محاسبه میانگین و میانه برای چنین ستون‌هایی بی‌معناست، اما متد describe به هر حال آن‌ها را محاسبه می‌کند. بنابراین همیشه قبل از تحلیل، ستون‌های مناسب را انتخاب کنید:حذف ستون‌های بی‌ربطdf.drop(columns=['Unnamed: 0'])

مطلب سیزدهم از علم داده : معیارهای گرایش مرکز

ایمان محدثی — Sat, 09 May 2026 17:41:43 +0330

تحلیل آماری، علم جمع‌آوری، سازماندهی و تفسیر داده‌ها برای تصمیم‌گیری است. این تحلیل در قلب علم داده قرار دارد و کاربردهای گسترده‌ای از امتیازات اعتباری و بیمه تا پیش بینی تورم و تحلیل‌های پزشکی دارد. پس نیاز است شما بعنوان تحلیل گر داده ، علم داده ، دانشمند داده و سایر عناوین مرتبط با علم داده آمار توصیفی ؛ اندازه‌گیری‌های آماری و توزیع‌های احتمالی را به خوبی بشناسید.آمار توصیفی شامل سه دسته اصلی است: سنجه‌های گرایش مرکزی (میانگین، میانه، مد)، سنجه‌های پراکندگی (انحراف معیار) و سنجه‌های موقعیت (صدک، چارک). همچنین شامل تولید مدیش‌های گرافیکی مانند هیستوگرام و نمودار جعبه‌ای می‌شود.نظریه احتمال نیز در این مطلب معرفی می‌شود که به کمی‌سازی عدم قطعیت در داده‌های واقعی کمک کرده و پایه‌گذار تحلیل‌های پیشرفته‌تری مانند فواصل اطمینان، آزمون فرضیه و یادگیری ماشین است. ابزارهایی مانند پایتون، اکسل و R برای خودکارسازی محاسبات آماری استفاده می‌شوند.میانگین (Mean)رایج‌ترین سنجه گرایش مرکزی است که از تقسیم مجموع داده‌ها بر تعداد آن‌ها به دست می‌آید. نقطه ضعف اصلی آن حساسیت به داده‌های پرت است.در علم داده با دو نوع میانگین مواجهیم:میانگین نمونه (x̄): محاسبه شده از زیرمجموعه‌ای از جامعه با فرمولکه در آن:x̄ = میانگین جامعهΣx = مجموع تمام مقادیر داده در جامعهN = حجم جامعه (تعداد کل داده‌ها)مثال :در یک کارآزمایی بالینی، ضربان نبض ۱۰ بیمار به این صورت ثبت شده: 68, 92, 76, 51, 65, 83, 94, 72, 88, 59. برای محاسبه میانگین، مجموع مقادیر یعنی 748 را بر تعداد داده‌ها یعنی 10 تقسیم می‌کنیم. نتیجه: میانگین 74.8 ضربان در دقیقه.میانگین جامعه (μ): محاسبه شده از کل جامعه با فرمول : میانگین را می‌توان با استفاده از توزیع فراوانی نیز تعیین کرد. برای هر مقدار داده یکتا در مجموعه داده، توزیع فراوانی، تعداد دفعات یا فراوانی ظهور آن مقدار یکتا را در مجموعه داده نشان می‌دهد. در این نوع موقعیت، میانگین را می‌توان با ضرب هر مقدار متمایز در فراوانی آن، جمع کردن این مقادیر، و سپس تقسیم این مجموع بر تعداد کل مقادیر داده، محاسبه کرد. در اینجا فرمول مربوط به میانگین نمونه با استفاده از توزیع فراوانی آورده شده است:که در آن:μ = میانگین نمونهf = فراوانی هر مقدار داده یکتاx = مقدار داده یکتاΣ(f × x) = مجموع حاصلضرب هر مقدار در فراوانی آنn = حجم نمونه (تعداد کل داده‌ها)مثال :یک استاد دانشگاه، سن 25 دانشجو را در کلاس علم داده به صورت زیر ثبت می‌کند:میانگین سنی را برای این نمونه از دانشجویان محاسبه کنید.حل:مقادیر جدول را در فرمول زیر جایگزین می‌کنیم:میانگین بریده‌شده (Trimmed Mean)میانگین بریده‌شده به کاهش تأثیر داده‌های پرت (مقادیری که تفاوت زیادی با بقیه داده‌ها دارند) کمک می‌کند. وجود داده‌های پرت باعث می‌شود میانگین معمولی منحرف شده و نتیجه گمراه‌کننده‌ای ارائه دهد.برای محاسبه میانگین بریده‌شده:۱. داده‌ها را از کوچک به بزرگ مرتب کنید.۲. درصد مشخصی (معمولاً ۱۰٪ یا ۲۰٪) از داده‌های دو انتهای مجموعه را حذف کنید.۳. میانگین داده‌های باقیمانده را محاسبه کنید.برای محاسبه میانگین بریده‌شده ۱۰٪، داده‌ها را مرتب کرده، ۱۰٪ مقادیر کوچک‌تر و ۱۰٪ مقادیر بزرگ‌تر را حذف می‌کنیم، سپس میانگین داده‌های باقیمانده را محاسبه می‌کنیم. این روش داده‌های پرت را حذف کرده و میانگین مدینده‌تری ارائه می‌دهد.مسئلهیک مشاور املاک داده‌هایی را در مورد نمونه‌ای از خانه‌های اخیراً فروخته‌شده در یک محله خاص جمع‌آوری می‌کند، و داده‌ها در مجموعه داده زیر نشان داده شده است:397900, 452600, 507400, 488300, 623400, 573200, 1689300, 403890, 612300, 599000, 2345800, 499000,525000, 675000, 385000۱. میانگین مجموعه داده را محاسبه کنید.۲. میانگین بریده‌شده ۲۰ درصد را برای مجموعه داده محاسبه کنید.حل۱. برای میانگین، ۱۵ مقدار داده را با هم جمع می‌کنیم، و مجموع برابر با ۱۰,۷۷۷,۰۹۰ است. این مجموع را بر تعداد داده‌ها که ۱۵ است تقسیم می‌کنیم. نتیجه به صورت زیر است:۲. برای میانگین بریده‌شده، ابتدا داده‌ها را از کوچک به بزرگ مرتب می‌کنیم. مجموعه داده مرتب‌شده به صورت زیر است:385000, 397900, 403890, 452600, 488300, 499000, 507400, 525000, 573200, 599000, 612300, 623400,675000, 1689300, 2345800بیست درصد از ۱۵ مقدار داده برابر با ۳ است، و این نشان می‌دهد که ۳ مقدار داده از هر انتهای پایین و بالای مجموعه داده حذف می‌شوند. ۹ مقدار داده حذف‌نشده به دست آمده عبارتند از: 452600, 488300, 499000, 507400, 525000, 573200, 599000, 612300, 623400سپس میانگین را برای مقادیر داده باقیمانده محاسبه می‌کنیم. مجموع این ۹ مقدار داده برابر با ۴,۸۸۰,۲۰۰ است. این مجموع را بر تعداد داده‌ها 9 تقسیم می‌کنیم. نتیجه به صورت زیر است:توجه کنید که میانگین محاسبه‌شده در بخش (۱) در مقایسه با میانگین بریده‌شده محاسبه‌شده در بخش (۲) به طور قابل توجهی بزرگتر است. دلیل این امر وجود چندین مقدار پرت بزرگ قیمت خانه است. هنگامی که این مقادیر داده پرت توسط محاسبه میانگین بریده‌شده حذف می‌شوند، میانگین بریده‌شده به دست آمده در مقایسه با میانگین معمولی، مدینده‌تری از قیمت معمولی خانه در این محله است.میانه (Median)میانه سنجه دیگری از گرایش مرکزی است که در حضور داده‌های پرت، معیار بهتری نسبت به میانگین محسوب می‌شود، زیرا تحت تأثیر مقادیر عددی داده‌های پرت قرار نمی‌گیرد و فقط به مقدار میانی توجه دارد.روش محاسبه میانه:داده‌ها را از کوچک به بزرگ مرتب کنید.مقدار میانی را پیدا کنید:اگر تعداد داده‌ها فرد باشد ، میانه همان مقدار میانی است.اگر تعداد داده‌ها زوج باشد ، میانه برابر با میانگین دو مقدار میانی است. مسئله :همان مجموعه داده ضربان نبض را در نظر بگیرید:68, 92, 76, 51, 65, 83, 94, 72, 88, 59میانه ضربان نبض را برای این نمونه محاسبه کنید.حلابتدا ۱۰ مقدار داده را از کوچک به بزرگ مرتب می‌کنیم:51, 59, 65, 68, 72, 76, 83, 88, 92, 94از آنجا که تعداد داده‌ها زوج است، دو مقدار میانی را با هم جمع کرده و بر ۲ تقسیم می‌کنیم.دو مقدار میانی عبارتند از 72 و 76 پس میانه :برای یافتن سریع میانه یک مجموعه داده، ابتدا تعداد داده‌ها یعنی n را مشخص می‌کنیم.اگر تعداد داده‌ها فرد باشد، میانه برابر با مقداری است در موقعیت (n+1)/2. به عنوان مثال، در مجموعه‌ای با ۲۵ داده، میانه در موقعیت سیزدهم قرار دارد.اگر تعداد داده‌ها زوج باشد، میانه برابر با میانگین دو مقداری است که در موقعیت‌های n/2 و (n/2)+1 قرار دارند. به عنوان مثال، در مجموعه‌ای با ۱۰۰ داده، میانه میانگین داده‌های پنجاهم و پنجاه و یکم است.مد (Mode)مد سنجه دیگری از گرایش مرکزی است و به مقداری گفته می‌شود که بیشترین فراوانی را در مجموعه داده دارد.اگر هیچ مقدار تکراری وجود نداشته باشد، آن مجموعه داده مد ندارد.اگر دو مقدار بیشترین فراوانی برابر داشته باشند، modality (bimodal) نامیده می‌شود.مثال عددی: در داده‌های قیمت سهام زیر مد را حساب کنید :50, 53, 59, 59, 63, 63, 72, 72, 72, 72, 72, 76, 78, 81, 83, 84, 84, 84, 90, 93راه حل :برای یافتن مد، بیشترین عدد تکراری را تعیین کنید، که ۷۲ است و پنج بار تکرار شده است. بنابراین، مد این مجموعه داده ۷۲ می‌باشد.مزیت مهم مد: بر خلاف میانگین و میانه، مد را می‌توان برای داده‌های غیرعددی (کیفی) مانند رتبه‌بندی رضایت مشتری (عالی، خوب، ضعیف) نیز استفاده کرد.مد همچنین می‌تواند برای داده‌های غیرعددی (کیفی) به کار رود، در حالی که میانگین و میانه فقط برای داده‌های عددی (کمی) قابل استفاده هستند. برای مثال، یک مدیر رستوران ممکن است بخواهد مد را برای پاسخ‌های نظرسنجی مشتریان در مورد کیفیت خدمات یک رستوران تعیین کند، همانطور که در جدول زیر نشان داده شده است.بر اساس پاسخ‌های نظرسنجی، مد، رتبه‌بندی خدمات مشتری Very Good است، زیرا این مقدار داده با بیشترین فراوانی می‌باشد.تأثیر داده‌های پرت بر معیارهای مرکزهمان‌طور که قبلاً اشاره شد، هنگامی که داده‌های پرت در یک مجموعه داده وجود داشته باشند، ممکن است میانگین مرکز مجموعه داده را نشان ندهد، و میانه معیار بهتری برای مرکز ارائه خواهد داد. دلیل این امر آن است که میانه بر روی مقدار میانی مجموعه داده مرتب‌شده تمرکز دارد. بنابراین، هیچ داده پرتی در انتهای پایینی مجموعه داده یا در انتهای بالایی مجموعه داده، تأثیری بر میانه نخواهد داشت.نکته: روشی رسمی برای شناسایی داده‌های پرت، در بحث معیارهای موقعیت ( Measures of Position ) در مطالب بعد ارائه خواهد شد.مثال زیر این نکته را نشان می‌دهد که وقتی داده‌های پرت بالقوه وجود دارند، میانه معیار بهتری برای سنجش گرایش به مرکز است.مسئله:فرض کنید در یک شرکت کوچک با ۴۰ کارمند، یک نفر حقوق سالانه ۳ میلیون دلار دریافت می‌کند و ۳۹ نفر دیگر هر کدام ۴۰,۰۰۰ دلار دریافت می‌کنند. کدام معیار مرکز بهتر است: میانگین یا میانه؟حل:میانگین به دلار به صورت ریاضی به شرح زیر محاسبه می‌شود:اما میانه برابر با ۴۰,۰۰۰ دلار خواهد بود، زیرا این مقدار میانی در مجموعه داده مرتب‌شده است. ۳۹ نفر ۴۰,۰۰۰ دلار و یک نفر ۳,۰۰۰,۰۰۰ دلار دریافت می‌کند.توجه کنید که میانگین معرف مقدار معمول در مجموعه داده نیست، زیرا ۱۱۴,۰۰۰ دلار نشان‌دهنده میانگین حقوق برای اکثر کارمندان (که ۴۰,۰۰۰ دلار دریافت می‌کنند) نمی‌باشد. در این حالت، میانه معیار بسیار بهتری برای متوسط نسبت به میانگین است، زیرا ۳۹ تا از مقادیر ۴۰,۰۰۰ دلار و یکی ۳,۰۰۰,۰۰۰ دلار است. مقدار ۳,۰۰۰,۰۰۰ دلار یک داده پرت محسوب می‌شود. نتیجه میانه یعنی ۴۰,۰۰۰ دلار، درک بهتری از مرکز مجموعه داده به ما می‌دهد.

مطلب دوازدهم از علم داده : مدیریت مجموعه‌داده‌های بزرگ(BigData)

ایمان محدثی — Sun, 03 May 2026 23:20:20 +0330

در این بخش از آموزش، قصد دارم به یکی از چالش‌های اساسی در علم داده بپردازیم: کار با داده‌های حجیم یا همان بیگ دیتا. اهداف یادگیری ما در این بخش سه چیز است. اول، شناخت چالش‌هایی مثل محدودیت‌های ذخیره‌سازی، پردازش و تحلیل. دوم، پیاده‌سازی تکنیک‌هایی برای ذخیره‌سازی و بازیابی کارآمد مثل فشرده‌سازی، نمایه‌سازی و تکه‌تکه کردن داده‌ها. و سوم، بحث درباره سیستم‌های مدیریت پایگاه داده و رایانش ابری و ویژگی‌های کلیدی آن‌ها در ارتباط با داده‌های بزرگ.داده‌های حجیم (بزرگ ) یا بیگ دیتا چیست؟داده‌های حجیم به مجموعه داده‌هایی بسیار بزرگ و پیچیده گفته می‌شود که روش‌ها و ابزارهای سنتی پردازش داده قادر به مدیریت آن‌ها نیستند. این داده‌ها معمولاً با سه ویژگی اصلی شناخته می‌شوند که به سه "V" معروف هستند. اول، حجم عظیم داده (Volume). دوم، تنوع در نوع داده (Variety)؛ یعنی ممکن است داده ساختار یافته مثل جداول مالی، نیمه‌ساختاریافته مثل فایل‌های XML، یا بدون ساختار مثل متن‌های شبکه‌های اجتماعی داشته باشیم. سوم، سرعت بالای تولید داده (Velocity). منابع تولید این داده‌ها شامل رسانه‌های اجتماعی، سنسورها و تراکنش‌های مالی هستند. در بخش‌های قبلی تکنیک‌هایی مثل نمونه‌گیری و پیش‌پردازش را برای مواجهه با این داده‌ها یاد گرفتیم.فشرده‌سازی داده (Data Compression)فشرده‌سازی داده یعنی کاهش حجم فایل در حالی که اطلاعات ضروری حفظ می‌شود. دو نوع اصلی داریم. اول، فشرده‌سازی با اتلاف (Lossy) که برخی داده‌های غیرضروری یا تکراری را برای همیشه حذف می‌کند. این روش حجم را خیلی کم می‌کند، اما کیفیت نهایی تا حدی کاهش می‌یابد. برای فایل‌های چندرسانه‌ای مثل تصاویر JPEG و موسیقی MP3 استفاده می‌شود، چون افت کیفیت برای چشم و گوش انسان محسوس نیست.نوع دوم، فشرده‌سازی بدون اتلاف (Lossless) است که حجم را بدون حذف هیچ داده‌ای کاهش می‌دهد. این روش الگوها و تکرارها را پیدا کرده و آن‌ها را کارآمدتر نمایش می‌دهد. برای داده‌های متنی و عددی که همه اطلاعات حیاتی هستند، مثل فایل‌های ZIP و PNG به کار می‌رود. یکی از روش‌های معروف بدون اتلاف، کدگذاری هافمن است که به کاراکترهای پرتکرار، کدهای باینری کوتاه‌تر و به کاراکترهای کم‌تکرار، کدهای بلندتر اختصاص می‌دهد.هافمن ( Huffman)راه‌حل‌های ذخیره‌سازی دادهداده‌های بزرگ به راه‌حل‌های ذخیره‌سازی نیاز دارند که بتوانند حجم عظیم و انواع گوناگون داده را پشتیبانی کنند، عملکرد بالا برای دسترسی و پردازش داشته باشند، مقیاس‌پذیری برای داده‌های رو به رشد را تضمین کنند و بسیار قابل اعتماد باشند. پنج نوع رایج از راه‌حل‌های ذخیره‌سازی عبارتند از: اول، پایگاه داده رابطه‌ای (Relational Databases) که داده را در جدول سازماندهی کرده و از SQL استفاده می‌کند. برای داده‌های ساختاریافته سنتی مثل داده‌های مالی مناسب است. دوم، پایگاه داده NoSQL (NoSQL Databases) که برای داده‌های بدون ساختار مثل محتوای شبکه‌های اجتماعی طراحی شده. سوم، انبار داده (Data Warehouses) که یک مخزن متمرکز برای ترکیب داده از منابع مختلف و انجام تحلیل‌های پیچیده و هوش تجاری است. چهارم، ذخیره‌سازی ابری (Cloud Storage) که داده را روی سرورهای راه دور نگهداری کرده و از طریق اینترنت در دسترس است و مقیاس‌پذیری و مقرون‌به‌صرفه بودن دارد. پنجم، ذخیره‌سازی شی‌ای (Object Storage) که هر داده به همراه فراداده به صورت یک شی ذخیره می‌شود و برای داده‌های بدون ساختار حجیم مثل ویدیوها و تصاویر عالی است.نمایه‌سازی داده (Data Indexing)نمایه‌سازی داده یعنی داده را در پایگاه داده به گونه‌ای ذخیره و مدیریت کنیم که بازیابی اطلاعات خاص با سرعت و کارآیی بالا انجام شود. این کار عملکرد پایگاه داده را بهینه می‌کند. سه تکنیک رایج داریم. اول، نمایه‌سازی B-Tree که داده را به صورت ساختار درختی سازماندهی می‌کند. در این روش یک گره ریشه داریم و هر گره محدوده‌ای از مقادیر و اشاره‌گرهایی به گره‌های فرزند دارد. این روش برای جستجو در یک بازه مشخص از مقادیر بسیار کارآمد است. دوم، نمایه‌سازی هش (Hash) که از یک تابع هش برای نگاشت مستقیم هر مقدار داده به یک جایگاه خاص در جدول استفاده می‌کند. این روش برای جستجوهای دقیق و برابری کامل خیلی سریع است. سوم، نمایه‌سازی بیت‌مپ (Bitmap) که برای هر مقدار منحصربه‌فرد در داده، یک بیت‌مپ می‌سازد. سپس با ترکیب این بیت‌مپ‌ها می‌توان خیلی سریع رکوردهایی که با یک مجموعه از مقادیر مطابقت دارند را پیدا کرد.B-Tree Indexingتکه‌تکه کردن داده (Data Chunking)تکه‌تکه کردن داده یعنی مجموعه داده بزرگ را به قطعات کوچک‌تر و قابل مدیریت‌تر بشکنیم. این کار مخصوصاً زمانی مفید است که داده آنقدر بزرگ باشد که یک ماشین به تنهایی نتواند آن را پردازش یا تحلیل کند. هر تکه که اندازه آن از چند کیلوبایت تا چند گیگابایت می‌تواند باشد، به همراه فراداده‌ای (Metadata) شامل شماره تکه و تعداد کل تکه‌ها ذخیره می‌شود تا بعداً بتوان دوباره آن‌ها را کنار هم گذاشت. مزایای این روش چهار تا است. اول، افزایش سرعت پردازش و انتقال. دوم، استفاده بهتر از منابع محاسباتی با توزیع قطعه‌ها بین چند ماشین. سوم، افزایش تحمل خطا؛ اگر داده‌ای خراب شود، فقط همان تکه آسیب‌دیده بازیابی می‌شود نه کل دیتاست. چهارم، انعطاف‌پذیری؛ می‌توان فقط تکه‌های مورد نیاز را پردازش یا منتقل کرد.سیستم‌های مدیریت پایگاه داده (DBMS)سیستم مدیریت پایگاه داده، نرم‌افزاری است که برای مدیریت داده‌ها در قالب ساختاریافته به کار می‌رود. پنج کارکرد اصلی دارد. اول، ذخیره‌سازی داده به صورت مخزن متمرکز. دوم، بازیابی کارآمد و سریع داده با استفاده از پرسوجوها و فیلترها. سوم، سازماندهی داده در قالب ساختاریافته برای تشخیص الگوها و روابط. چهارم، امنیت داده با محافظت از اطلاعات حساس مثل داده‌های شخصی یا مالی در برابر دسترسی غیرمجاز. پنجم، یکپارچه‌سازی داده از منابع مختلف برای ترکیب و تحلیل همزمان. یک مثال واقعی، بیمارستان‌ها هستند. با جمع‌آوری و تحلیل داده‌های بیماران از پرونده‌های الکترونیک سلامت، تصویربرداری پزشکی و نتایج آزمایشگاه، می‌توانند الگوها را شناسایی کرده و برای بیماران مزمن مثل دیابت، برنامه درمانی شخصی‌سازی شده ارائه دهند که هم سلامت بیمار را بهبود می‌بخشد و هم هزینه‌ها را کاهش می‌دهد.رایانش ابری (Cloud Computing) برای داده‌های بزرگرایانش ابری یک راه‌حل مقرون‌به‌صرفه برای ذخیره حجم عظیم داده فراهم می‌کند و امکان همکاری و انتقال داده میان گروه‌های دور از هم را به سادگی میسر می‌سازد. این فناوری شامل ابزارهای دسترسی از راه دور برای ذخیره‌سازی، پردازش و تحلیل است و به کاربران اجازه می‌دهد بدون توجه به موقعیت فیزیکی خود به داده دسترسی داشته باشند. همچنین مجموعه متنوعی از ابزارهای جمع‌آوری داده، از جمله یادگیری ماشین و انبار داده را ارائه می‌دهد. مزایای کلیدی شامل صرفه‌جویی در هزینه، مقیاس‌پذیری نامحدود، انعطاف‌پذیری و در دسترس بودن از هر کجای دنیاست. سه نمونه معروف از ارائه‌دهندگان خدمات ابری عبارتند از: آمازون AWS، مایکروسافت Azure و گوگل Cloud.مطالعه موردی: راه‌حل‌های شرکت بیمه برای افزایش ظرفیت ذخیره‌سازیمدیرعامل یک شرکت بیمه بزرگ با مشکلی مواجه شده: افزایش فرآیندها و اسناد دیجیتال منجر به نیاز به فضای ذخیره‌سازی بیشتر و افزایش هزینه‌های نگهداری سرورها و سخت‌افزار شده است. هشت گزینه پیش روی او قرار دارد. اول، مهاجرت به ذخیره‌سازی ابری که عملاً ظرفیت نامحدود و هزینه انعطاف‌پذیر دارد.دوم، اجرای استراتژی بایگانی داده‌ها؛ یعنی داده‌های کم‌استفاده را در یک سیستم ذخیره‌سازی کم‌هزینه جداگانه قرار دهیم.سوم، برون‌سپاری ذخیره‌سازی و مدیریت داده به یک ارائه‌دهنده شخص ثالث.چهارم، ادغام داده‌ها و فرآیندها برای حذف سامانه‌های اضافی.پنجم، پیاده‌سازی زیرساخت دسکتاپ مجازی (VDI) که نیاز به فضای ذخیره‌سازی روی دستگاه‌های فردی را کاهش می‌دهد.ششم، ارتقا یا بازطراحی سیستم ذخیره‌سازی فعلی.هفتم، استفاده از ترکیب فضای ابری و داخلی که داده‌های حساس در داخل شرکت و داده‌های کم‌اهمیت‌تر در ابر نگهداری شوند.هشتم، انجام ممیزی منظم از نحوه استفاده و ذخیره‌سازی داده برای بهینه‌سازی و کاهش هزینه.خلاصه و جمع‌بندیداده‌های بزرگ به رویکردهایی فراتر از روش‌های سنتی نیاز دارند. تکنیک‌های کلیدی برای کارآمدی شامل فشرده‌سازی در دو نوع با اتلاف و بدون اتلاف، نمایه‌سازی با روش‌های B-Tree، هش و بیت‌مپ، و تکه‌تکه کردن داده برای پردازش موازی و تحمل خطا هستند. سیستم‌های مدیریت پایگاه داده به ما امکان مدیریت ساختاریافته، امنیت و یکپارچه‌سازی داده را می‌دهند و در نهایت، رایانش ابری یک راه‌حل مقیاس‌پذیر، مقرون‌به‌صرفه و مشارکتی برای ذخیره‌سازی و تحلیل داده‌های حجیم فراهم می‌کند.

مطلب یازدهم از علم داده : استانداردسازی داده‌ها , تبدیل و اعتبارسنجی

ایمان محدثی — Tue, 28 Apr 2026 23:50:53 +0330

استانداردسازی داده‌ها , تبدیل و اعتبارسنجی مراحل مهمی در فرآیند پیش‌پردازش داده‌ها هستند . استانداردسازی داده‌ها فرآیند تبدیل سیستماتیک اطلاعات جمع‌آوری‌شده به فرمت سازگار و قابل مدیریت است . این روش شامل حذف تناقضات , خطاها و duplicates و همچنین تبدیل داده‌ها از منابع مختلف به فرمت یکپارچه است که اغلب به صورت نرمال ( که در بخش بعدی تعریف می‌شود ) نامیده می‌شود . تبدیل داده‌ها شامل اصلاح داده‌ها برای بهتر کردن آن برای تحلیل برنامه‌ریزی‌شده است . اعتبار سنجی داده‌ها تضمین می‌کند که داده‌ها دقیق و سازگار بوده و با معیارها یا استانداردهای خاصی مطابقت دارند .نرمال سازی داده ها (Data normalization)اولین گام در استاندارد کردن داده‌ها ایجاد دستورالعمل‌ها و قوانین برای قالب‌بندی و ساختاربندی داده‌ها است . این امر ممکن است شامل تعیین قراردادهای نامگذاری , انواع داده‌ها و قالب‌بندی یک شکل نرمال ( NF) , یک راهنما یا مجموعه‌ای از قوانین مورد استفاده در طراحی پایگاه‌داده باشد تا اطمینان حاصل شود که پایگاه‌داده به‌خوبی ساختاریافته , سازمان‌یافته , و عاری از انواع خاصی از پیچیدگی است . رایج‌ترین شکل‌های طبیعی مورد استفاده عبارتند از : 1NF، 2NF، 3NF ( شکل اول , دوم و سوم نرمال ) و BCNF ( شکل نرمال بویس - Codd ) هستند.نرمال سازی ، فرآیند اعمال این قوانین به پایگاه‌داده است . داده‌ها باید مرتب و تمیز شوند که شامل حذف داده‌های تکراری و نادرست , پر کردن مقادیر گم‌شده و مرتب کردن منطقی داده‌ها است . برای پشتیبانی از استانداردسازی داده‌ها , اقدامات کنترل کیفیت منظم باید اجرا شوند , از جمله ممیزی‌های داده‌های دوره‌ای برای تعیین صحت و سازگاری داده‌ها . همچنین مستندسازی فرآیند استانداردسازی از جمله دستورالعمل‌ها و رویه‌های دنبال شده مهم است . بازبینی و به‌روزرسانی دوره‌ای استانداردهای داده برای اطمینان از قابلیت اطمینان و ارتباط مداوم داده‌ها ضروری است .نرمال سازی داده‌ها تضمین می‌کند که داده‌ها بدون توجه به منبع آن قابل نگه داری هستند . یک تیم بازاریابی را در نظر بگیرید که اطلاعات مربوط به رفتار خرید مشتریان خود را جمع‌آوری می‌کند تا آن‌ها بتوانند در مورد محل قرارگیری محصول تصمیم‌گیری کنند . داده‌ها از منابع متعددی مانند تراکنش های فروش آنلاین , خریدهای داخل فروشگاه و نظرسنجی‌های فیدبک مشتری جمع‌آوری می‌شوند . این داده‌ها به صورت خام می‌توانند نامنظم و غیرقابل‌اعتماد باشند و تحلیل آن را دشوار می‌سازد . ترسیم بینش‌های معنادار از داده‌های بد سازمان‌یافته دشوار است .برای نرمال کردن این داده‌ها , تیم بازاریابی چندین مرحله را طی می‌کند . ابتدا , آن‌ها عناصر کلیدی داده مانند نام مشتری , محصول خریداری‌شده و تاریخ مبادله را شناسایی می‌کنند . سپس , آن‌ها اطمینان حاصل می‌کنند که این عناصر به طور مداوم در تمام منابع داده قالب‌بندی می‌شوند. برای مثال , آن‌ها ممکن است از یک فرمت تاریخی مشابه در تمام منابع داده استفاده کنند یا نام مشتری را به نام اول و آخرین نام فیلدز استاندارد کنند . سپس , آن‌ها هر عنصر داده‌ای اضافی یا بی‌ربط را حذف خواهند کرد . در این مورد , اگر داده‌ها از خریدهای آنلاین و در فروشگاه جمع‌آوری شوند , ممکن است یکی یا دیگری را برای اجتناب از تکرار انتخاب کنند . تیم بازاریابی تضمین می‌کند که داده‌ها به درستی ساختاردهی و سازماندهی شده‌اند . این می‌تواند شامل ایجاد یک جدول داده با دامنه برای هر عنصر داده , مانند شناسه مشتری , کد محصول و مقدار خرید باشد . با نرمال کردن داده‌ها , تیم بازاریابی می‌تواند به طور موثر رفتار خرید مشتریان , شناسایی الگوها و روندها را دنبال کرده و قضاوت‌های مبتنی بر داده را برای افزایش سیستم‌های بازاریابی خود انجام دهد .فرمول نرمال سازی یک فرمول آماری است که برای اندازه‌گیری یک مجموعه داده استفاده می‌شود که معمولا بین یک و صفر است . بزرگ‌ترین داده دارای یک مقدار نرمال است و کوچک‌ترین نقطه داده صفر خواهد بود . توجه داشته باشید که وجود داده‌های پرت می‌تواند تاثیر قابل‌توجهی بر مقادیر محاسبه‌شده حداقل / حداکثر داشته باشد . بدین ترتیب , حذف هر داده پرت از مجموعه داده‌ها قبل از انجام نرمال سازی مهم است . این امر نتایج دقیق‌تر و نماینده را تضمین می‌کند .فرمول نرمال سازی :مسئله :یک شرکت خرده‌فروشی با هشت شعبه می‌خواهد فروش محصول خود را تحلیل کند تا اقلام فروش بالا را شناسایی کند . شرکت داده‌ها را از هر شعبه جمع‌آوری می‌کند و در جدول ذخیره می‌کند و فروش و سود هر محصول را فهرست می‌کند . از گزارش‌های قبلی , کشف شده‌است که محصولات فروش بالای آن جواهرات , لوازم جانبی تلویزیون , محصولات زیبایی , دی وی دی , اسباب‌بازی‌های کودکان , بازی‌های ویدیویی , پوشاک بوتیک زنان و طراح و عینک آفتابی مد هستند . با این حال , شرکت می‌خواهد این محصولات را براساس بهترین فروش و سود از بالاترین تا پایین‌ترین ترتیب دهد . تعیین کنید کدام محصول فروش بالا با نرمال کردن داده‌ها در جدول است .راه حل :با استفاده از فرمول نرمال سازی , حداکثر فروش 55,000 دلار و حداقل فروش 15,000 دلار است , همانطور که در آن نشان‌داده شده‌است .به طور کلی , محصولات فروش برتر شرکت خرده‌فروشی بیش‌ترین سود را برای شرکت تولید می‌کنند و " عینک آفتابی طراح و مد " بیش‌ترین سود را در مقیاس نرمال سازی دارند . شرکت می‌تواند از این اطلاعات برای تمرکز بر ارتقا و بازسازی این اقلام در هر شعبه برای ادامه فروش و سود استفاده کند .تبدیل داده ها (Data transformation )تبدیل داده‌ها یک تکنیک آماری است که برای اصلاح ساختار اصلی داده‌ها به کار می‌رود تا آن را برای تحلیل مناسب‌تر کند . تبدیل داده‌ها می‌تواند شامل عملیات‌های ریاضی مختلفی مانند لگاریتمی , ریشه دوم یا تبدیلات نمایی باشد . یکی از دلایل اصلی تبدیل داده‌ها , پرداختن به مسائل مربوط به فرضیات آماری است . برای مثال , برخی مدل‌های آماری فرض می‌کنند که داده‌ها معمولا توزیع می‌شوند . اگر داده‌ها به‌طور معمول توزیع نشوند , این امر می‌تواند منجر به نتایج و تفاسیر نادرست شود . در چنین مواردی تبدیل داده‌ها می‌تواند به نزدیک‌تر کردن آن به توزیع نرمال و بهبود دقت تحلیل کمک کند .یکی از روش‌های رایج تبدیل داده‌ها , تبدیل لگاریتمی است که نیازمند لگاریتم مقادیر داده‌ها است . تبدیل لگاریتمی اغلب زمانی استفاده می‌شود که داده‌ها بسیار چوله باشند , به این معنی که بیشتر نقاط داده به یک انتهای توزیع می‌رسند .این امر می‌تواند موجب مشکلاتی در تحلیل داده‌ها شود زیرا داده‌ها ممکن است از توزیع نرمال تبعیت نکنند . با استفاده از لگاریتم مقادیر , توزیع می‌تواند به سمت شکل متقارن تری منتقل شود و تحلیل آن را آسان‌تر می‌کند .یکی دیگر از روش‌های معمول تبدیل ریشه دوم است که شامل ریشه دوم مقادیر داده‌ها است .همانند تبدیل لگاریتمی , تبدیل ریشه مربع اغلب برای پرداختن به مسائل چولگی و توزیع نرمال داده‌ها استفاده می‌شود .تبدیل ریشه دوم نیز زمانی مفید است که داده‌ها دارای مقادیر نزدیک به صفر باشند , زیرا ریشه دوم این مقادیر می‌تواند آن‌ها را به بقیه داده‌ها نزدیک‌تر کرده و تاثیر مقادیر حدی را کاهش دهد .تبدیلات نمایی شامل گرفتن توان مقادیر داده است .هر عملیات مورد استفاده , تبدیل داده‌ها می‌تواند ابزاری مفید برای تحلیل گران داده‌ها برای پرداختن به مسائل توزیع داده‌ها و بهبود دقت تحلیل‌های آن‌ها باشد .توزیع نرمالتوزیع غیر نرمالمقابله با داده‌های نویزی (Dealing with Noisy Data )داده‌های نویزی به داده‌هایی اشاره دارند که خطاها , داده‌های پرت یا اطلاعات نامربوط را حفظ می‌کنند که می‌توانند الگوها و روابط واقعی درون مجموعه داده‌ها را پنهان کنند . وجود داده‌های نویزی در مجموعه داده‌ها , موجب دشواری در ترسیم نتایج دقیق و پیش‌بینی از داده‌ها می‌شود . اغلب داده‌های نویزی ناشی از خطاهای انسانی در ورود داده‌ها , خطاهای فنی در جمع‌آوری یا انتقال داده‌ها یا تغییرپذیری طبیعی در خود داده‌ها است . داده‌های نویزی با شناسایی و تصحیح خطاها , حذف داده‌های پرت و فیلتر اطلاعات نامربوط حذف و پاک‌سازی می‌شوند . داده‌های نویزی می‌توانند بر تحلیل و مدل‌سازی داده‌ها تاثیر منفی داشته باشند و ممکن است نشان دهند که مسائلی با ساختار یا فرضیات مدل وجود دارد . داده‌های نویزی اطلاعات ناخواسته هستند که می‌توانند حذف شوند .راهکارهای کاهش داده‌های نویزی شامل موارد زیر است:پاک‌سازی داده‌هاحذف داده‌های تکراری یا نامرتبط (مثل حذف ردیف‌های تکراری یا ورودی‌های ناقص).هموارسازی داده‌هاحذف نویز برای آشکارسازی الگوهای اصلی (مثل میانگین متحرک ۷ روزه برای شاخص بازار سهام).تخمین (Imputation)تخمین داده‌های گمشده بر اساس اطلاعات موجود (مثل تخمین سوابق پزشکی بیمار بر اساس شرایط و درمان‌های گذشته).دسته‌بندی (Binning)گروه‌بندی داده‌ها به بازه‌ها برای تحلیل ساده‌تر (مثل گروه‌های سنی ۱۰ ساله).تبدیل داده‌هااستفاده از تبدیلات ریاضی مانند لگاریتم برای کاهش چولگی (مثل تبدیل داده‌های ۱۰۰۰، ۱۰۰۰۰، ۱۰۰۰۰۰ به ۳، ۴، ۵ با لگاریتم پایه ۱۰).کاهش ابعادکاهش تعداد متغیرها با روش‌هایی مثل تحلیل مؤلفه‌های اصلی (PCA) برای شناسایی روندهای کلی.روش‌های جمعی (Ensemble Methods)ترکیب چند مدل برای کاهش overfitting و افزایش دقت (مثل جنگل تصادفی که پیش‌بینی نهایی را از تجمیع درخت‌های تصمیم می‌گیرد).اعتبار سنجی داده‌ها (Data Validation)اعتبارسنجی داده‌ها فرآیند تضمین صحت و کیفیت داده‌های مورد بررسی در برابر قوانین و استانداردهای تعریف‌شده است . این رویکرد شامل شناسایی و اصلاح هر گونه خطا یا ناسازگاری در داده‌های جمع‌آوری‌شده و همچنین اطمینان از این است که داده‌ها برای تحلیل مناسب و قابل‌اعتماد هستند . اعتبار سنجی داده‌ها را می‌توان از طریق روش‌های مختلفی مانند چک دستی , دستورالعمل‌های خودکار و تحلیل آماری انجام داد . برخی از بازرسی‌های معمول در اعتبارسنجی داده‌ها شامل بررسی مقادیر تکراری, بررسی مقادیر گم‌شده و تایید داده‌ها در مقابل منابع خارجی یا ارجاع ها است . قبل از جمع‌آوری داده‌ها , تعیین شرایط یا معیارهایی که داده‌ها باید برآورده شوند , مهم است . این امر می‌تواند شامل عواملی مانند دقت , کامل بودن , ثبات و به موقع باشد . برای مثال , یک شرکت ممکن است یک فرآیند اعتبارسنجی داده را راه‌اندازی کند تا اطمینان حاصل کند که تمام اطلاعات مشتری وارد پایگاه‌داده می‌شود که فرمت خاصی دارد . این کار شامل چک کردن spellings صحیح و قالب‌بندی مناسب شماره‌تلفن و آدرس دهی و اعتبار سنجی درستی نام و شماره حساب مشتری است . این داده‌ها همچنین در مقابل منابع خارجی مانند سوابق رسمی دولت برای تایید صحت اطلاعات بررسی می‌شوند . قبل از اینکه داده‌ها برای تحلیل یا اهداف تصمیم‌گیری مورد استفاده قرار گیرند , هر گونه اختلاف یا خطا برای تصحیح ثبت خواهد شد .از طریق این فرآیند اعتبارسنجی داده‌ها , شرکت می‌تواند اطمینان حاصل کند که داده‌های مشتریان آن دقیق , قابل‌اعتماد و مطابق با استانداردهای صنعت است .یکی دیگر از روش‌های ارزیابی داده‌ها , استفاده از منابع معتبر برای شناسایی هرگونه اختلاف یا خطا در داده‌های جمع‌آوری‌شده است . برای اعتبارسنجی داده‌ها از ابزارها و تکنیک‌هایی استفاده می‌شود . این موارد می‌توانند شامل تحلیل آماری , نمونه‌گیری داده , پروفایلینگ داده‌ها و حسابرسی داده‌ها باشند . شناسایی و حذف داده‌ های پرت قبل از اعتبارسنجی داده‌ها مهم است . بررسی‌های منطقی شامل استفاده از عقل سلیم برای بررسی منطقی بودن داده‌ها و منطقی بودن آن‌ها است - برای مثال , بررسی اینکه آیا سن یک فرد در محدوده معقول است یا اینکه درآمد یک شرکت در محدوده معقولی برای صنعت آن قرار دارد . در صورت امکان , داده‌ها باید با منبع تایید شوند تا صحت آن تضمین شود . این می‌تواند شامل تماس با فرد یا سازمانی باشد که داده‌ها را فراهم کرده یا بر علیه سوابق رسمی چک می‌کند . همیشه ایده خوبی است که چندین عضو تیم یا متخصص را در فرآیند اعتبارسنجی درگیر کنید تا هر گونه خطا و یا ناسازگاری که ممکن است توسط یک فرد نادیده گرفته شده‌باشند را به دست آورید . مستندسازی فرآیند اعتبارسنجی , شامل مراحل برداشته‌شده و هر مساله شناسایی‌شده , در ممیزی‌های آتی داده یا اهداف مرجع مهم است . اعتبار سنجی داده‌ها یک فرآیند پیوسته است و داده‌ها باید برای اطمینان از صحت و اعتبار آن پایش و به روز شوند .یک شرکت بازاریابی را در نظر بگیرید که بررسی رضایت مشتری برای راه‌اندازی محصول جدید را انجام می‌دهد . این شرکت اطلاعات را از 1,000 پاسخ‌دهنده جمع‌آوری کرد , اما وقتی شرکت تجزیه و تحلیل داده‌ها را آغاز کرد , متوجه تناقضات متعدد و مقادیر گم‌شده شد . تحلیل گر داده‌های شرکت متوجه شد که استانداردسازی داده‌ها و فرآیندهای اعتبار سنجی به اندازه کافی قبل از ثبت نتایج پیمایش انجام نگرفته است . برای تصحیح این مساله , تحلیلگر داده ابتدا همه ورودی‌های تکراری را شناسایی و حذف کرد و تعداد کل پاسخ‌ها را به 900 کاهش داد . سپس , آن‌ها از متن‌های خودکار برای شناسایی و پر کردن مقادیر گم‌شده استفاده کردند , که پاسخ را در نظر گرفتند . سپس 805 پاسخ باقیمانده برای صحت داده‌ها با استفاده از تحلیل آماری بررسی شد .پس از استانداردسازی داده‌ها و فرآیند اعتبارسنجی , شرکت دارای مجموعه داده‌های تمیز و قابل‌اعتماد از 805 پاسخ بود . نتایج نشان داد که میزان رضایت محصول85 درصد است که به طور معنی‌داری بیشتر از تحلیل اولیه 78 درصد است . در نتیجه این اصلاح , تیم بازاریابی توانست با اطمینان نرخ رضایت واقعی را گزارش کند و تصمیمات آگاهانه تری برای توسعه محصول آینده اتخاذ کند .تجمیع داده‌ها (Data Aggregation)تجمیع داده‌ها فرآیندی است که با آن اطلاعات از چندین مبدا جمع‌آوری و در یک مجموعه واحد ادغام می‌شوند که بینش و نتایج معناداری را فراهم می‌کند . این برنامه شامل جمع‌آوری , مدیریت و تحویل داده‌ها از منابع مختلف به شیوه‌ای ساختاریافته برای تسهیل تحلیل و تصمیم‌گیری است . تجمیع داده‌ها را می‌توان به‌صورت دستی یا با استفاده از ابزارها و تکنیک‌های خودکار انجام داد . از فرآیند تجمیع داده‌ها برای شناسایی الگوها و رونده‌ای بین نقاط مختلف داده‌ها استفاده می‌شود که بینش‌های ارزشمندی را استخراج می‌کند . برخی از انواع استاندارد تجمیع داده‌ها تجمیع مکانی , تجمیع آماری , تجمیع خصوصیت و تجمیع زمانی هستند . این روش معمولا در بازاریابی , تامین مالی , بهداشت و درمان و تحقیق برای تجزیه و تحلیل مجموعه بزرگی از داده‌ها عمل می‌کند . از تجمیع داده‌ها در صنایع مختلف برای ترکیب و تحلیل مجموعه بزرگی از داده‌ها استفاده می‌شود . مثال‌ها شامل محاسبه کل فروش برای یک شرکت از بخش‌های مختلف , تعیین متوسط دمای یک منطقه شامل چندین شهر و تحلیل ترافیک وب سایت توسط کشور است . همچنین در زمینه‌هایی مانند شاخص‌های بازار سهام , رشد جمعیت , نمرات رضایت مشتری , امتیازات اعتباری و تاخیر پرواز خطوط هوایی نیز استفاده می‌شود . دولت‌ها و شرکت‌های سودمند نیز از تجمیع داده‌ها برای مطالعه الگوهای مصرف انرژی استفاده می‌کنند .

مطلب دهم از علم داده : پاکسازی و پیش پردازش داده ها ( جواب چالش پست قبل )

ایمان محدثی — Tue, 28 Apr 2026 18:10:52 +0330

یکی از مهم‌ترین مراحل هر پروژه علم داده، مرحله‌ای است که معمولاً کمتر دیده می‌شود: پاک‌سازی و پیش‌پردازش داده‌ها. این فرآیند به ما کمک می‌کند داده‌های خام، پراکنده و گاهی ناسازگار را به ساختاری منظم، دقیق و قابل تحلیل تبدیل کنیم.در این مطلب، انتظار می‌رود بتوانیم:روش‌های مدیریت داده‌های گمشده (Missing Data) و داده‌های پرت (Outliers) را به‌کار ببریمو در مطلب بعد :تکنیک‌های استانداردسازی مانند نرمال‌سازی (Normalization)، تبدیل (Transformation) و تجمیع (Aggregation) را توضیح دهیممنابع ایجاد نویز در داده‌ها را شناسایی کرده و با روش‌های مناسب آن را کاهش دهیم چرا پیش‌پردازش (Preprocessing) این‌قدر مهم است؟داده‌های خام معمولاً ناقص هستند، شامل مقادیر تکراری یا اشتباه‌اند، قالب یکدست ندارند و یا حتی بخشی از آن‌ها برای تحلیل بی‌ربط است. اگر این مشکلات اصلاح نشوند، خروجی مدل‌ها دچار سوگیری و خطا خواهد شد. بنابراین هدف اصلی پیش‌پردازش این است که داده‌ها دقیق، سازگار و آماده تحلیل شوند.مراحل اصلی پاک‌سازی (Data Cleaning) و پیش‌پردازشفرآیند پیش‌پردازش معمولاً شامل چند گام کلیدی است:1. یکپارچه‌سازی داده‌ها (Data Integration)در این مرحله داده‌ها از منابع مختلف جمع‌آوری و در یک مجموعه‌داده واحد ادغام می‌شوند. این کار از ناسازگاری بین منابع مختلف جلوگیری می‌کند.2. پاک‌سازی داده‌ها (Data Cleaning)در این مرحله داده‌ها از نظر خطا و ناسازگاری بررسی می‌شوند. اقدامات رایج شامل حذف مقادیر تکراری، مدیریت داده‌های گمشده و اصلاح خطاهای قالب‌بندی انجام می شوند.3. تبدیل داده‌ها (Data Transformation)برای آماده‌سازی داده جهت تحلیل، معمولاً لازم است ما نوع داده‌ها را تغییر دهیم ، داده‌های عددی نرمال‌سازی یا مقیاس‌بندی شوند و متغیرهای دسته‌ای کدگذاری شوند.4. کاهش داده‌ها (Data Reduction)زمانی که تعداد ویژگی‌ها زیاد است، از تکنیک‌های انتخاب ویژگی استفاده می‌شود تا فقط متغیرهای مهم حفظ شوند.5. گسسته‌سازی (Data Discretization)در این مرحله داده‌های پیوسته به بازه‌ها یا دسته‌ها تقسیم می‌شوند تا تحلیل ساده‌تر شود.6. نمونه‌گیری (Data Sampling)اگر حجم داده بسیار زیاد باشد، می‌توان نمونه‌ای نماینده از کل داده انتخاب کرد تا تحلیل سریع‌تر و مقرون‌به‌صرفه‌تر انجام شود.مدیریت داده‌های گمشده و داده‌های پرتدو چالش رایج در پروژه‌های داده، Missing Data و Outliers هستند.داده‌های گمشده (Missing Data)داده‌های گمشده ممکن است به دلایل خطا در جمع‌آوری داده، خرابی تجهیزات و عدم پاسخ‌دهی افراد در نظرسنجی ایجاد شوند. این موضوع می‌تواند باعث کاهش اندازه نمونه و ایجاد سوگیری شود.از نظر آماری، داده‌های گمشده به سه دسته تقسیم می‌شوند:· کاملاً تصادفی و بدون ارتباط با سایر متغیرها(MCAR)· مرتبط با متغیرهای مشاهده‌شده (MAR)· مرتبط با خود مقدار مشاهده‌نشده (MNAR)تشخیص درست این نوع‌ها، در انتخاب روش مدیریت بسیار تعیین‌کننده است.داده‌های پرت (Outliers)داده پرت مقداری است که به‌طور قابل توجهی با سایر داده‌ها تفاوت دارد. این اختلاف می‌تواند ناشی از خطای انسانی، خطای اندازه‌گیری و یا یک مقدار واقعی اما غیرعادی باشد. اگر بدون بررسی حذف شوند، ممکن است اطلاعات مهمی از بین برود؛ و اگر نادیده گرفته شوند، ممکن است تحلیل را منحرف کنند.چگونه داده‌های پرت و گمشده را شناسایی کنیم؟برای شناسایی آن‌ها می‌توان از دو رویکرد استفاده کرد:روش‌های بصری مانند :· نمودار پراکندگی (Scatterplot)· نمودار جعبه‌ای (Box Plot)· هیستوگرام· بازه بین چارکی (IQR)روش‌های آماری مانند :· میانگین· میانه· انحراف معیارتصمیم‌گیری درباره نحوه مدیریتپس از شناسایی، باید تصمیم بگیریم چگونه با این داده‌ها برخورد کنیم.برای داده‌های گمشده باید رکوردهای ناقص را حذف کنیم ، مقادیر (Imputation)را جایگزین کنیم و از مدل‌های پیش‌بینی استفاده کنیم.برای داده‌های پرت می تواین داده ها را در صورت خطای قطعی حذف کنیم ، تحلیل جداگانه ای انجام دهیم و از روش‌های آماری مقاوم مانند استفاده از میانه به‌جای میانگین استفاده کنیم.یک مثال واقعی از دنیای دادهاز سال 1939، United States Bureau of Labor Statistics وضعیت اشتغال را به‌صورت ماهانه پایش کرده است. فرض کنید داده‌های اشتغال حوزه ساخت‌وساز بین سال‌های 1939 تا 2019 را تحلیل می‌کنیم و ناگهان در سال 1990 یک جهش غیرعادی مشاهده می‌شود؛ عددی که از حدود 5,400 به بیش از 9,500 افزایش یافته است.این سؤال مطرح می‌شود:· آیا این مقدار یک داده پرت است؟· اگر خطای ثبت داده باشد، چه باید کرد؟در این مثال، یک راهکار جایگزینی مقدار پرت با میانه مقادیر اطراف آن است. محاسبات نشان می‌دهد مقدار 5,289 می‌تواند به‌عنوان مقدار اصلاحی استفاده شود. این کار باعث:· هموار شدن روند نمودار· افزایش واقع‌گرایی داده‌ها· کاهش اثر منفی بر تحلیل آماریمی‌شود.گرفتن میانه از تاریخ 1 مه 1990 تا 1 ژوئیه 1990 و جایگزنی مقدار بدست آمده یعنی 5289 ، در داده پرت مربوط به 28 مه 1990

یک چالش واقعی از دنیای علم داده‌ها رو دارم لطفا وارد این چالش بشید:

ایمان محدثی — Fri, 27 Feb 2026 14:59:08 +0330

از سال 1939، United States Bureau of Labor Statistics به‌صورت ماهانه وضعیت اشتغال را پایش می‌کند.فرض کنید تعداد کارفرمایان حوزه ساخت ‌وساز بین سال‌های 1939 تا 2019 را در اختیار دارید و در نمودار روند، ناگهان با یک جهش غیرعادی روبه‌رو می‌شوید مانند تصویر پست:حالا سؤال اینجاست:1- آیا این نقطه می‌تواند یک داده پرت (Outlier) باشد که به‌طور معناداری از روند کلی فاصله گرفته است؟اگر بله، بر چه اساسی این تشخیص را می‌دهید؟ 2- اگر مشخص شود این مقدار بازتاب‌دهنده عدد واقعی اشتغال نیست (مثلاً خطای ثبت داده)، چه تصمیمی می‌گیرید؟اگر شما تحلیل‌گر این پروژه بودید، چه رویکردی انتخاب می‌کردید و چرا؟بیایید تجربه‌ها و نگاه‌های متفاوت را با هم به اشتراک بگذاریم پاسخ خودتون را با ذکر روش تحلیلی‌تان به اشتراک بگذارید لطفا.

مطلب نهم از علم داده :خزش وب (Web Scraping) و جمع‌آوری داده‌ های شبکه های اجتماعی

ایمان محدثی — Sat, 21 Feb 2026 00:20:39 +0330

در دنیای علم داده، یکی از مهم‌ترین مراحل، جمع‌آوری داده (Data Collection) است.بخش قابل توجهی از داده‌های ارزشمند، در وب‌سایت‌ها و شبکه‌های اجتماعی قرار دارند. در مطلب نهم از علم داده با دو رویکرد مهم برای استخراج این داده‌ها آشنا می‌شویم:خزش وب (Web Scraping)جمع‌آوری داده‌های شبکه‌های اجتماعی (Social Media Data Collection)خزش وب (Web Scraping) چیست؟خزش وب به معنای استخراج خودکار اطلاعات از وب‌سایت‌ها با استفاده از برنامه‌های نرم‌افزاری (Web Scraper) است.مثال کاربردی:فرض کنید یک شرکت مسافرتی بخواهد قیمت و ظرفیت هتل‌ها را از چندین سایت رزرو جمع‌آوری کند. به جای انجام دستی این کار، می‌توان با خزش وب داده‌ها را به‌صورت خودکار استخراج و برای تحلیل استفاده کرد.تکنیک‌های رایج در Web Scraping1- Web Crawlingدنبال کردن لینک‌های موجود در یک صفحه وب برای رفتن به صفحات دیگر و جمع‌آوری داده از آن‌هامناسب برای استخراج داده از چندین صفحه یک وب‌سایت2- XPathیک زبان پرس‌وجوی قدرتمندبرای پیمایش عناصر موجود در یک سند HTML استفاده می‌شودمعمولاً همراه با تجزیه HTML برای انتخاب عناصر خاص به‌کار می‌رود3- Regular Expressionsجستجو و استخراج الگوهای خاص متنی از یک صفحه وبمناسب برای داده‌هایی با قالب مشخص مانند تاریخ‌ها، شماره تلفن‌ها یا ایمیل‌ها4- HTML Parsingتحلیل ساختار HTML یک صفحه وبشناسایی تگ‌ها و عناصری که داده موردنظر را در خود دارنداغلب برای وظایف ساده استخراج داده استفاده می‌شود5- XMl APIXML (زبان نشانه‌گذاری توسعه‌پذیر) برای تبادل داده استفاده می‌شودعملکردی مشابه HTML API دارد؛ با ارسال درخواست HTTP به نقاط پایانی API و سپس تجزیه داده‌های دریافتی در قالب XML6- JSON APIJSON (قالب تبادل داده جاوااسکریپت) یک قالب سبک برای تبادل داده بین سرورها و برنامه‌های وب استبسیاری از وب‌سایت‌ها APIهای خود را در قالب JSON ارائه می‌دهند که آن را به روشی کارآمد برای دریافت داده تبدیل می‌کندجمع‌آوری داده‌های شبکه‌های اجتماعیجمع‌آوری داده از شبکه‌های اجتماعی می‌تواند از طریق روش‌های مختلفی مانند یکپارچه‌سازی API، شنود اجتماعی (Social Listening)، نظرسنجی‌های شبکه‌های اجتماعی، تحلیل شبکه، و تحلیل تصویر و ویدئو انجام شود.APIهایی که توسط پلتفرم‌های شبکه‌های اجتماعی ارائه می‌شوند، به دانشمندان داده اجازه می‌دهند داده‌های ساختاریافته درباره تعاملات کاربران و محتوا را جمع‌آوری کنند.شنود اجتماعی شامل پایش گفت‌وگوهای آنلاین برای به‌دست آوردن بینش درباره رفتار مشتریان و روندها است.نظرسنجی‌هایی که در شبکه‌های اجتماعی انجام می‌شوند می‌توانند اطلاعاتی درباره ترجیحات و دیدگاه‌های مشتریان ارائه دهند.تحلیل شبکه، که به بررسی روابط و ارتباطات بین کاربران، داده‌ها یا موجودیت‌ها در یک شبکه می‌پردازد، می‌تواند کاربران و جوامع تأثیرگذار را شناسایی کند. این روش شامل شناسایی و تحلیل افراد یا گروه‌های اثرگذار و همچنین درک الگوها و روندهای موجود در شبکه است.تحلیل تصویر و ویدئو نیز می‌تواند بینش‌هایی درباره روندهای بصری و رفتار کاربران ارائه دهد.مثالیک نمونه از جمع‌آوری داده‌های شبکه‌های اجتماعی، اجرای یک نظرسنجی در توییتر درباره میزان رضایت مشتریان برای یک شرکت تحویل غذا است. دانشمندان داده می‌توانند با استفاده از API توییتر، توییت‌هایی را که شامل هشتگ‌های مرتبط با شرکت هستند جمع‌آوری کرده و آن‌ها را تحلیل کنند تا دیدگاه‌ها و ترجیحات مشتریان را درک کنند.همچنین می‌توانند از شنود اجتماعی برای پایش مکالمات و شناسایی روندهای رفتاری مشتریان استفاده کنند.علاوه بر این، ایجاد یک نظرسنجی در توییتر می‌تواند بینش‌های هدفمندتری درباره رضایت و ترجیحات مشتریان فراهم کند. در نهایت، این داده‌ها با استفاده از تکنیک‌های علم داده تحلیل می‌شوند تا حوزه‌های کلیدی برای بهبود شناسایی شده و تصمیم‌گیری‌های آگاهانه در کسب‌وکار انجام شود.استفاده از پایتون برای استخراج داده از وبهمان‌طور که پیش‌تر اشاره شد، خزش وب روشی برای جمع‌آوری داده از اینترنت با استفاده از مکانیزم‌ها یا برنامه‌های خودکار است.پایتون یکی از زبان‌های برنامه‌نویسی محبوب برای خزش وب محسوب می‌شود، زیرا کتابخانه‌ها و فریم‌ورک‌های متعددی دارد که استخراج و پردازش داده از وب‌سایت‌ها را آسان می‌کنند.برای استخراج داده‌ای مانند یک جدول از یک وب‌سایت با استفاده از پایتون، مراحل زیر را دنبال می‌کنیم:1- وارد کردن کتابخانه pandasاولین قدم، وارد کردن کتابخانه pandas است که یکی از محبوب‌ترین کتابخانه‌های پایتون برای تحلیل و دستکاری داده‌هاست.import pandas as pd- استفاده از تابع read_html()این تابع برای خواندن جداول HTML از یک صفحه وب و تبدیل آن‌ها به لیستی از اشیای DataFrame استفاده می‌شود.همان‌طور که قبلاً گفته شد، DataFrame نوعی ساختار داده در pandas است که برای ذخیره داده‌های جدولی چندستونه استفاده می‌شود.df = pd.read_html("https://......") 3- دسترسی به داده موردنظراگر داده‌های صفحه وب در چند جدول مختلف قرار داشته باشند، باید مشخص کنیم کدام جدول را می‌خواهیم استخراج کنیم.برای این کار از اندیس‌گذاری استفاده می‌کنیم (مثلاً اندیس 4) تا به جدول موردنظر از لیست DataFrameهای بازگشتی دسترسی پیدا کنیم.اندیس در اینجا نشان‌دهنده ترتیب جدول در صفحه وب است.4- ذخیره داده در یک DataFrameخروجی تابع read_html() یک لیست از DataFrameهاست که هرکدام نماینده یک جدول در صفحه وب هستند.می‌توانیم جدول موردنظر را در یک متغیر DataFrame ذخیره کنیم تا برای تحلیل و پردازش‌های بعدی استفاده شود.5- نمایش DataFrameبا فراخوانی متغیر DataFrame، می‌توانیم داده استخراج‌شده را در قالب جدولی مشاهده کنیم.6- تبدیل رشته‌ها به اعدادهمان‌طور که در مطلب اول اشاره شد، رشته (String) نوع داده‌ای است که دنباله‌ای از کاراکترها را نشان می‌دهد و داخل کوتیشن تکی (') یا دوتایی (") قرار می‌گیرد.اگر داده‌های جدول به صورت رشته باشند و بخواهیم عملیات عددی روی آن‌ها انجام دهیم، باید آن‌ها را به فرمت عددی تبدیل کنیم.برای این کار از تابع to_numeric() در pandas استفاده می‌کنیم و نتیجه را در یک ستون جدید ذخیره می‌کنیم:df['column_name'] = pd.to_numeric(df['column_name'])این کار یک ستون جدید با مقادیر عددی تبدیل‌شده ایجاد می‌کند که می‌توان از آن برای تحلیل یا مصورسازی استفاده کرد. نکته مهم درباره اندیس‌گذاریدر برنامه‌نویسی، اندیس‌گذاری معمولاً از عدد 0 شروع می‌شود.زیرا بیشتر زبان‌های برنامه‌نویسی، مقدار 0 را به عنوان اندیس اولیه برای آرایه‌ها، ماتریس‌ها و سایر ساختارهای داده در نظر می‌گیرند.این قرارداد باعث ساده‌تر شدن پیاده‌سازی برخی الگوریتم‌ها و همچنین هماهنگی با نحوه ذخیره‌سازی داده در حافظه کامپیوتر می‌شود.در زمینه استخراج جداول از صفحات HTML نیز شروع اندیس از 0 به برنامه‌نویسان اجازه می‌دهد به‌راحتی به جداول مختلف یک صفحه دسترسی پیدا کرده و آن‌ها را پردازش کنند. این موضوع باعث کارآمدتر شدن پردازش و تحلیل داده می‌شود.مسئله :جدول داده‌ای با عنوان Table of States را از وب‌سایت به آدرس زیر استخراج کنید:https://www.geograf.in/en/table.phpداده های این وب سایت شامل جدولی از نام تمامی کشورهای دنیا است، مانند تصویر زیر : با استفاده از پایتون و کتابخانه pandas داده های این جدول را جمع آوری کنید : import pandas as pd df_list = pd.read_html("https://www.geograf.in/en/table.php") df_list[1] خروجی این کد به مانند تصویر زیرشامل جدولی از نام کشورها خواهد بود :برای اینکه نام کشور عزیزمان ایران را از دیتافریم کشورها فیلتر کنیم دستور زیر خواهیم داشت: df.loc[df["Country"] == "Iran"] خروجی به مانند تصویر زیر خواهد بود :

مطلب هشتم از علم داده :طراحی و اجرای نظرسنجی( یک روش از جمع آوری داده )

ایمان محدثی — Fri, 13 Feb 2026 22:27:07 +0330

طراحی و اجرای نظرسنجی؛ وقتی کیفیت داده به کیفیت سؤال بستگی دارداگر علم داده را یک ساختمان در نظر بگیریم، نظرسنجی یکی از ابزارهایی است که مصالح اولیه این ساختمان را تأمین می‌کند.اما تفاوت زیادی وجود دارد بین «پرسیدن چند سؤال ساده» و «طراحی یک نظرسنجی علمی».یک نظرسنجی خوب می‌تواند تصویری واقعی از یک جامعه ارائه دهد؛ و یک نظرسنجی ضعیف می‌تواند نتایجی تولید کند که کاملاً گمراه ‌کننده باشد.در علم داده، هدف فقط جمع‌آوری پاسخ نیست؛ هدف، تولید داده‌ای معتبر، پایا و بدون سوگیری است.چرا طراحی نظرسنجی اهمیت دارد؟نظرسنجی یکی از رایج‌ترین روش‌های جمع‌آوری داده در تحقیقات بازار، علوم اجتماعی و آموزش است.اما نکته مهم اینجاست: داده‌ای که از نمونه‌ای کوچک جمع‌آوری می‌شود قرار است نماینده یک جامعه بزرگ‌تر باشد.اگر نمونه درست انتخاب نشود یا پرسش‌ها سوگیرانه طراحی شوند،کل تحلیل بر پایه‌ای نادرست بنا می‌شود.به همین دلیل، اولین گام در طراحی نظرسنجی، تعریف دقیق هدف پژوهش و تعیین جامعه هدف است. وقتی ندانیم دقیقاً دنبال چه هستیم، پرسش‌ها هم مبهم و پراکنده خواهند بود.طراحی پرسشنامهیک پرسشنامه حرفه‌ای معمولاً با سؤالات ساده آغاز می‌شود و به‌تدریج به سمت سؤالات پیچیده‌تر حرکت می‌کند.این کار باعث ایجاد اعتماد و افزایش نرخ پاسخ‌گویی می‌شود.همچنین باید از پرسش‌های سوگیرانه پرهیز کرد.برای مثال، سؤال زیر سوگیرانه است: آیا برند ما را نسبت به گزینه‌های ارزان‌تر ترجیح می‌دهید؟ این سؤال به‌صورت ضمنی فرض می‌کند که پاسخ‌دهنده برند را ترجیح می‌دهد.در مقابل، یک سؤال بی‌طرفانه می‌تواند این باشد: هنگام انتخاب این محصول، چه عواملی برای شما اهمیت دارد؟تفاوت این دو سؤال می‌تواند نتایج تحلیل را کاملاً تغییر دهد. پایلوت تست؛ قبل از اجرای گسترده، آزمایش کنیدهیچ نظرسنجی‌ای نباید مستقیماً در مقیاس بزرگ اجرا شود.اجرای آزمایشی (Pilot Test) روی یک گروه کوچک کمک می‌کند ابهامات، برداشت‌های اشتباه یا مشکلات ساختاری پرسشنامه شناسایی و اصلاح شوند. این مرحله، کیفیت داده نهایی را به شکل چشمگیری افزایش می‌دهد.پرسش‌های باز و بسته؛ ترکیب داده کمی و کیفیدر یک نظرسنجی استاندارد معمولاً از ترکیبی از پرسش‌های باز و بسته استفاده می‌شود.پرسش‌های بسته برای تحلیل آماری سریع و مقایسه نتایج بسیار مناسب‌اند.پرسش‌های باز اما امکان کشف بینش‌های عمیق‌تر و غیرمنتظره را فراهم می‌کنند.ترکیب درست این دو نوع سؤال، تصویری کامل‌تر از مسئله ارائه می‌دهد.نمونه‌گیری؛ از چه کسانی را باید بپرسیم؟نمونه‌گیری یعنی انتخاب زیرمجموعه‌ای از جامعه که قرار است نماینده کل آن باشد.روش‌های مختلفی برای این کار وجود دارد:نمونه‌گیری تصادفی ساده (هر فرد شانس برابر دارد)نمونه‌گیری طبقه‌ای (تقسیم جامعه به گروه‌های مشخص و انتخاب از هر گروه)نمونه‌گیری خوشه‌ای (انتخاب گروه‌های طبیعی مانند مدارس یا شهرها)نمونه‌گیری سیستماتیک (انتخاب هر n‌اُمین فرد)نمونه‌گیری در دسترس یا داوطلبانهنمونه‌گیری هدفمند یا قضاوتینمونه‌گیری گلوله‌برفینمونه‌گیری سهمیه‌ایانتخاب روش مناسب به هدف پژوهش و ساختار جامعه بستگی دارد.برای مثال، اگر بخواهیم مطمئن شویم همه گروه‌های سنی در مطالعه حضور دارند،نمونه‌گیری طبقه‌ای انتخاب مناسب‌تری خواهد بود.سوگیری و خطا ؛ وقتی نمونه اشتباه باشدحتی اگر پرسشنامه عالی طراحی شود، نمونه‌گیری نادرست می‌تواند نتایج را تحریف کند. سوگیری نمونه‌گیری زمانی رخ می‌دهد که برخی گروه‌ها بیش‌ازحد یا کمتر از حد در نمونه حضور داشته باشند. همچنین خطای نمونه‌گیری به اختلاف طبیعی بین نتایج نمونه و واقعیت جامعه گفته می‌شود . خطایی که همیشه وجود دارد اما می‌توان آن را کاهش داد.افزایش حجم نمونه، استفاده از روش‌های احتمالی و کنترل متغیرهای مزاحم از راه‌های کاهش این خطاست.خطای اندازه‌گیری؛ وقتی پاسخ‌ها دقیق نیستندگاهی مشکل از انتخاب افراد نیست، بلکه از نحوه اندازه‌گیری است. اگر افراد نمونه میزان ورزش کردن خود را بیش‌ازحد گزارش کنند یا وضعیت روانی خود را دقیق بیان نکنند، داده‌ها دچار خطای اندازه‌گیری می‌شوند.این خطا می‌تواند تصادفی باشد یا سیستماتیک (همواره در یک جهت خاص انحراف ایجاد کند).بهبود ابزار سنجش، کالیبره کردن روش‌ها و اعتبارسنجی داده‌ها از راه‌های کاهش این خطاست.یک مثال سادهفرض کنید یک پژوهشگر می‌خواهد تأثیر ورزش بر سلامت روان دانشجویان را بررسی کند. او ۱۰۰ دانشجو را به‌صورت تصادفی انتخاب می‌کند و سپس آن‌ها را به دو گروه ورزش و کنترل تقسیم می‌کند. این روش باعث می‌شود هر دانشجو شانس برابری برای انتخاب شدن داشته باشد و نتایج قابلیت تعمیم بیشتری پیدا کنند.اما همچنان ممکن است: برخی دانشجویان از مطالعه انصراف دهند (سوگیری عدم پاسخ) گروه‌ها کاملاً متعادل نباشند یا ویژگی‌های نمونه به دلیل شانس با کل جامعه تفاوت داشته باشدآگاهی از این خطاها بخشی از تفکر علمی در علم داده است.

وقتی می‌فهمی آموزش فقط «منتشر کردن محتوا» نیست

ایمان محدثی — Tue, 10 Feb 2026 22:00:54 +0330

چند ماهی بیشتر از انتشار چهار دوره آموزشی و شروع ضبط یک دوره جدید با عنوان«آموزش پیاده‌سازی ربات سیگنال‌دهی در بازار ارز دیجیتال با Python و CCXT» نمی‌گذرد.امروز که نگاهی به آمار انداختم، دیدم تعداد دانشجویان به ۳۸۶ نفر رسیده و مجموع زمان یادگیری از ۸۰۰ ساعت عبور کرده، عددها به‌خودی‌خود شاید خیلی بزرگ به نظر نرسند،اما پشت هر کدامشان یک نفر نشسته که وقت گذاشته، یاد گرفته و احتمالاً سؤالات و دغدغه‌های خودش را داشته.برای من، همین که حس کنم شاید توانسته‌ام کمکی هرچند اندک به مسیر یادگیری در جامعه آموزشی کشورم بکنم، واقعاً ارزشمند است.از همه دوستانی که نمی‌شناسمشان، اما به این آموزش‌ها اعتماد کرده‌اند،صمیمانه تشکر می‌کنم و همین‌طور قدردان همراهی و حمایت مجموعه حرفه‌ای فرادرس هستم که امکان انتشار این مسیر آموزشی را فراهم کردند.امیدوارم در ادامه هم بتوانم آموزش‌هایی کاربردی‌تر، شفاف‌تر و نزدیک‌تر به دنیای واقعی پروژه‌ها ارائه بدهم.

مطلب هفتم از علم داده : جمع‌آوری و آماده‌سازی داده

ایمان محدثی — Mon, 09 Feb 2026 23:34:39 +0330

اگر علم داده را یک ساختمان در نظر بگیریم، جمع‌آوری و آماده‌سازی داده‌ها نقش فونداسیون آن را بازی می‌کنند. حتی پیشرفته‌ترین الگوریتم‌ها و مدل‌ها هم بدون داده‌ی درست، خروجی قابل اعتمادی تولید نمی‌کنند. به همین دلیل، اولین مراحل در چرخه علم داده به این دو گام کلیدی اختصاص دارد: جمع‌آوری داده و آماده‌سازی آن برای تحلیل.این مراحل مشخص می‌کنند که آیا پروژه در نهایت به بینش واقعی و تصمیم‌گیری داده‌محور می‌رسد یا فقط به چند عدد و نمودار بدون معنا ختم می‌شود. چرا جمع‌آوری داده اهمیت حیاتی دارد؟در دنیای امروز که هر روز حجم عظیمی از داده تولید می‌شود، مسئله اصلی «کمبود داده» نیست؛ بلکه داشتن داده‌ی درست، مرتبط و قابل اعتماد است.جمع‌آوری داده یعنی شناسایی منابع مناسب، استخراج اطلاعات مرتبط با مسئله و ثبت دقیق اطلاعات زمینه‌ای مانند زمان، مکان و شرایط محیطی.داده‌ها می‌توانند از منابع متنوعی مانند پایگاه‌های داده داخلی سازمان‌ها، وب‌سایت‌ها، APIها، سیستم‌های نرم‌افزاری و حتی داده‌های تولیدشده توسط کاربران به دست آیند. اگر این فرایند بدون روش‌شناسی مشخص انجام شود، داده‌ها نه‌تنها کمکی به تحلیل نمی‌کنند، بلکه باعث سردرگمی و تصمیم‌های اشتباه خواهند شد. آماده‌سازی داده؛ مرحله‌ای که اغلب دست‌کم گرفته می‌شودپس از جمع‌آوری، داده‌ها معمولاً آماده تحلیل نیستند. اینجاست که مرحله‌ی آماده‌سازی یا Data Wrangling اهمیت پیدا می‌کند.در این مرحله، داده‌های ناقص یا تکراری حذف می‌شوند، خطاها و ناسازگاری‌ها شناسایی و اصلاح می‌گردند و داده‌ها به قالبی تبدیل می‌شوند که برای تحلیل مناسب باشد.در عمل، بخش قابل‌توجهی از زمان یک تحلیل‌گر داده صرف همین مرحله می‌شود، چون کیفیت تحلیل نهایی مستقیماً به کیفیت آماده‌سازی داده‌ها وابسته است. روش‌های رایج جمع‌آوری دادهروش جمع‌آوری داده به نوع پروژه و هدف آن بستگی دارد. در علم داده، روش‌هایی مانند نظرسنجی، آزمایش، مشاهده، مصاحبه، تحلیل اسناد و گروه‌های کانونی بسیار رایج هستند.در بسیاری از پروژه‌های کاربردی، به‌ویژه در حوزه‌هایی مثل تحلیل رفتار کاربران، بازار و سلامت، نظرسنجی‌ها و آزمایش‌ها نقش پررنگ‌تری دارند و داده‌های ارزشمندی تولید می‌کنند. انواع داده؛ مشاهده‌ای و تراکنشیداده‌های مشاهده‌ایداده‌های مشاهده‌ای از طریق مشاهده و ثبت رفتارها بدون دخالت مستقیم به دست می‌آیند و معمولاً ماهیتی کیفی دارند.برای مثال، یک معلم که روند یادگیری دانش‌آموزان را در کلاس بررسی می‌کند یا یک پژوهشگر محیط‌زیست که تغییرات یک زیست‌بوم را در طول زمان ثبت می‌کند، در حال جمع‌آوری داده‌های مشاهده‌ای است.این نوع داده‌ها برای درک عمیق رفتارها بسیار مفیدند، اما معمولاً برای تحلیل‌های آماری گسترده محدودیت دارند. داده‌های تراکنشیدر مقابل، داده‌های تراکنشی حاصل ثبت تعاملات واقعی بین افراد، سیستم‌ها یا کسب‌وکارها هستند و اغلب به‌صورت عددی ذخیره می‌شوند.خرید کاربران در فروشگاه‌های آنلاین، کلیک‌ها و تعاملات کاربران در اپلیکیشن‌ها یا نوبت‌های ثبت‌شده در سامانه‌های خدماتی، همگی نمونه‌هایی از داده‌های تراکنشی‌اند.این داده‌ها پایه‌ی بسیاری از تحلیل‌های پیشرفته مانند تحلیل رفتار مشتری، سیستم‌های پیشنهاددهنده و بهینه‌سازی فرایندها را تشکیل می‌دهند. مثال اول: تخمین مصرف روزانه بدون دخالت مستقیمفرض کنید یاس در پارک محله‌شان یک مخزن آب برای حیوانات نصب کرده و می‌خواهد بداند در نبودش چه مقدار آب باید ذخیره شود.او به‌جای شمارش حیوانات، هر روز مخزن را پر می‌کند و میزان آب مصرف‌شده را ثبت می‌کند. بعد از دو هفته، میانگین مصرف روزانه را محاسبه کرده و بر اساس آن برای چند روز آینده برنامه‌ریزی می‌کند.این سناریو نمونه‌ای روشن از جمع‌آوری داده مشاهده‌ای است. مثال دوم: تحلیل شکایات کاربران با داده‌های تراکنشیدر یک شرکت ارائه‌دهنده خدمات آنلاین، تعداد شکایات کاربران درباره‌ی تأخیر در پاسخ‌گویی افزایش یافته است.تحلیل‌گر داده برای بررسی این مشکل به سراغ لاگ‌های سیستم، زمان پاسخ درخواست‌ها، تاریخچه تیکت‌ها و داده‌های مرکز تماس می‌رود و بدون ارتباط مستقیم با کاربران، الگوهای مشکل‌ساز را شناسایی می‌کند.این مثال، کاربرد داده‌های تراکنشی در حل مسائل واقعی را نشان می‌دهد. جمع‌آوری داده از طریق آزمایش؛ وقتی کنترل اهمیت دارددر برخی پروژه‌ها، مشاهده به‌تنهایی کافی نیست و باید شرایط به‌صورت کنترل‌شده طراحی شوند.مثلاً یک تیم آموزشی می‌خواهد بررسی کند آیا افزایش زمان تمرین روزانه باعث بهبود یادگیری زبان می‌شود یا خیر. آن‌ها زبان‌آموزان را به دو گروه تقسیم می‌کنند، شرایط محیطی را یکسان نگه می‌دارند و فقط میزان تمرین را تغییر می‌دهند. نتایج در بازه‌های زمانی مشخص ثبت می‌شود تا مقایسه‌ای دقیق انجام گیرد.وجود گروه کنترل، ثبت منظم داده‌ها و رعایت اصول اخلاقی، این نوع داده‌ها را بسیار قابل اعتماد می‌کند.جمع‌آوری و آماده‌سازی داده فقط یک مرحله فنی نیست، بلکه یک مهارت کلیدی در تفکر داده‌محور است.کسی که این مرحله را به‌خوبی درک کند، داده‌های درست‌تری انتخاب می‌کند، تحلیل‌های دقیق‌تری انجام می‌دهد و در نهایت تصمیم‌های هوشمندانه‌تری می‌گیرد.در نهایت، کیفیت علم داده از کیفیت داده شروع می‌شود، نه از مدل‌های پیچیده.

مطلب ششم از علم داده : استفاده از pandas در علم داده

ایمان محدثی — Sat, 07 Feb 2026 19:19:08 +0330

یکی از نقاط قوت پایتون این است که شامل مجموعه‌ای متنوع از کتابخانه‌های رایگان و متن‌باز است.کتابخانه‌ها مجموعه‌ای از متدها و توابع از پیش پیاده‌سازی‌شده هستند که برنامه‌نویس می‌تواند به آن‌ها مراجعه کند و به این ترتیب، نیازی به نوشتن دوباره‌ی توابع رایج از صفر نداشته باشد.Pandas یک کتابخانه‌ی پایتون است که به‌طور تخصصی برای کار و تحلیل داده طراحی شده و در بین دانشمندان داده بسیار پرکاربرد است. این کتابخانه متدهای متنوعی را ارائه می‌دهد که به تحلیل‌گران داده اجازه می‌دهد به‌سرعت از آن‌ها برای تحلیل داده استفاده کنند. در طول این دوره، نحوه‌ی تحلیل داده با استفاده از Pandas را یاد خواهید گرفت.نصب کتابخانه Pandas قبل از اینکه بتوانیم با Pandas کار کنیم ، باید آن را نصب کنیم .برای نصب Pandas ابتدا باید پایتون روی سیستم ما نصب شده باشد. برای این کار، ترمینال VS Code رو باز می‌کنیم و این دستور رو می‌زنیم: اگر نسخه پایتون نمایش داده شد، یعنی پایتون آماده‌ی استفاده‌ست.برای نصب Pandas از ابزار مدیریت بسته‌ی پایتون یعنی pip استفاده می‌کنیم. Import کردن Pandasنخست یک فایل جدید جوپیتر پایتون ( Jupyter Notebook ) بنام main.ipynb ایجاد کنید: . برای استفاده از Pandas ، کافی است که ، آن را import کنیم :فایل main.ipynb را باز کنید.import pandas as pd توجه داشته باشید که طبق یک قرارداد رایج، نام pandas به‌صورت pd مخفف می‌شود تا هنگام استفاده از متدهای آن، به‌جای نوشتن کامل نام Pandas ، فقط از pd استفاده شود؛ این کار باعث راحتی و سرعت بیشتر در برنامه‌نویسی می‌شود. بارگذاری داده با Pandas در پایتوناولین قدم در تحلیل داده ، بارگذاری دیتاست مورد نظر در محیط کاری است. دیتاست movieprofit.csv رو دانلود کنید و در پوشه پروژه قرار دهید.خواندن دیتاستمتد read_csv در Pandas برای خواندن فایل‌های CSV استفاده می‌شود و داده‌ها را به شکل یک DataFrame ذخیره می‌کند.DataFrame نوع داده‌ای در Pandas است که برای ذخیره‌ی داده‌های جدولی چندستونه استفاده می‌شود.data = pd.read_csv("movieprofit.csv") dataبعداز اجرا خروجی همانند تصویر زیر خواهد بود : Pandas دو نوع داده‌ی اصلی برای داده‌های جدولی تعریف می‌کند:DataFrame : برای داده‌های چندستونهSeries : برای داده‌های تک ستونهبسیاری از متدهای Pandas هم روی DataFrame و هم روی Series کار می‌کنند، اما بعضی متدها فقط مخصوص یکی از آن‌ها هستند؛ بنابراین همیشه بهتر است بررسی کنید متدی که استفاده می‌کنید دقیقاً چه رفتاری دارد. می‌توانید با استفاده از متد DataFrame.describe خیلی سریع آمارهای پایه‌ای داده‌ها را محاسبه کنید.کد زیر را اضافه و اجرا کنید. این کد متد describe را روی متغیر data فراخوانی می‌کند.data = pd.read_csv("movieprofit.csv") data.describe() متد describe یک جدول برمی‌گرداند که ستون‌های آن زیرمجموعه‌ای از ستون‌های کل مجموعه‌داده هستند و سطرهای آن شامل آمار های مختلف می باشند.این آمارها شامل تعداد مقادیر موجود در هر ستون (count)، میانگین (mean)، انحراف معیار (std)، کمینه و بیشینه (max, min) و همچنین چارک‌های مختلف (25% ، 50% و 75%) که در مبحث «معیارهای پراکندگی» با آن‌ها آشنا خواهید شد.با استفاده از این نمایش، می‌توانید به‌راحتی چنین آمارهایی را برای ستون‌های مختلف مجموعه‌داده محاسبه کنید.انتخاب داده با استفاده از Pandas در پایتونDataFrame در کتابخانه Pandas این امکان را به برنامه‌نویس می‌دهد که برای انتخاب یک ستون، مستقیماً از نام ستون استفاده کند.برای مثال، کد زیر تمام مقادیر ستون US_Gross_Million را چاپ می‌کند. خروجی این انتخاب به‌صورت یک Series خواهد بود (یادآوری: داده‌های یک ستون تکی در Pandas در قالب Series ذخیره می‌شوند.)import pandas as pd data = pd.read_csv("movieprofit.csv") data["US_Gross_Million"] خروجی کد بالا مانند تصویر زیر است : علاوه بر این، متد DataFrame.iloc[] امکان انتخاب پیشرفته‌تری را فراهم می‌کند. با استفاده از iloc می‌توان هم سطر و هم ستون را بر اساس اندیس عددی آن‌ها انتخاب کرد.data.iloc[:,2] خروجی همانند تصویر زیر خواهد بود: در ادامه، چند مثال ارائه می‌شود تا نحوه‌ی استفاده از این روش‌ها را بهتر درک کنیم.مثال یک : انتخاب همه مقدار ها در ستون دوم :data.iloc[:,2] مثال دوم : انتخاب هم مقدارها در ردیف سوم :data.iloc[2, :] خروجی:مثال سوم : برای تعیین یم مقدار دقسق در یک ستون ، می توانیم از شماره اندیس استفاده کنیم:print(data["US_Gross_Million"][0])شما همچنین می‌توانید از []DataFrame.iloc برای انتخاب یک بخش مشخص از سلول‌ها در جدول استفاده کنید.کد نمونه‌ی زیر روش‌های مختلف استفاده از []iloc را نشان می‌دهد.vوش‌های متعددی برای کار با []iloc وجود دارد، اما در این جلسه فقط چند روش رایج معرفی می‌شود.مثال چهار : انتخاب همه مقادیر در ستون دوم ( اندیس 1 )data.iloc[:, 1]خروجی :مثال زیر را امتحان کنید :data.iloc[[1, 3], [2, 3]]جست‌وجوی داده با استفاده از Python Pandasبرای جست‌وجو یا فیلتر کردن داده‌هایی که شرایط خاصی را برآورده می‌کنند، می‌توانید از [] DataFrame.loc در کتابخانه‌ی Pandas استفاده کنید.زمانی که شرط فیلتر را داخل براکت‌ها [] مشخص می‌کنید، خروجی فقط شامل ردیف‌هایی از DataFrame خواهد بود که آن شرط را دارند.برای مثال، در کد زیر ردیف‌هایی فیلتر می‌شوند که مقدار ستون Genre آن‌ها برابر با Comedy است.توجه کنید که خروجی فقط شامل ۳۰۷ ردیف از مجموع ۳۴۰۰ ردیف کل داده‌هاست. اگر خودتان خروجی را بررسی کنید، خواهید دید که مقدار ستون Genre در همه‌ی این ردیف‌ها برابر با "Comedy" است.import pandas as pd data = pd.read_csv("movieprofit.csv") data.loc[data["Genre"] == "Comedy"]خروجی :مصورسازی داده‌ها با استفاده از Python و Matplotlibروش‌های مختلفی برای رسم نمودار داده‌ها در پایتون وجود دارد. رایج‌ترین و ساده‌ترین روش این است که از کتابخانه‌ای به نام Matplotlib استفاده کنیم که به‌طور تخصصی برای مصورسازی داده‌ها طراحی شده است.Matplotlib یک کتابخانه‌ی بزرگ است، اما برای رسم نمودارها فقط کافی است زیرماژولی به نام pyplot را وارد کنیم.برای نصب matplotlib دستور زیر را وارد کنید و همانند pandas عمل کنید. توجه داشته باشید که طبق قرارداد، معمولاً از نام کوتاه plt برای matplotlib.pyplot استفاده می‌شود؛ درست مشابه کاری که برای Pandas از pd استفاده می‌کنیم.import matplotlib.pyplot as plt Matplotlib برای هر نوع نمودار یک متد اختصاصی ارائه می‌دهد و در طول این دوره با متدهای مربوط به رایج‌ترین انواع نمودارها آشنا خواهید شد. با این حال، در این جلسه به‌طور خلاصه نحوه‌ی رسم یک نمودار با استفاده از Matplotlib را بررسی می‌کنیم.فرض کنید می‌خواهید یک نمودار پراکندگی (Scatter Plot) بین ستون‌های US_Gross_Million و Worldwide_Gross_Million از مجموعه‌داده‌ی سود فیلم‌ها (movieprofit.csv) رسم کنید. در فصل «تحلیل همبستگی و رگرسیون خطی» به‌صورت مفصل‌تر به نمودارهای پراکندگی می‌پردازیم.در کد نمونه‌ی زیر، با استفاده از متد ()scatter چنین نموداری رسم می‌شود. این متد دو ستون مورد نظر شما، یعنیdata["US_Gross_Million"] و data["Worldwide_Gross_Million"] را به‌عنوان ورودی دریافت می‌کند و آن‌ها را به‌ترتیب به محورهای x و y اختصاص می‌دهد.import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv("movieprofit.csv") plt.scatter(data["US_Gross_Million"], data["Worldwide_Gross_Million"])خروجی : توجه کنید که این نمودار فقط مجموعه‌ای از نقاط را روی یک صفحه‌ی سفید نشان می‌دهد. خودِ نمودار به‌تنهایی مشخص نمی‌کند هر محور چه چیزی را نمایش می‌دهد یا این نمودار دقیقاً درباره‌ی چیست. بدون این توضیحات، درک مفهوم نمودار دشوار خواهد بود.می‌توانید این اطلاعات را با استفاده از کد زیر تنظیم کنید. نمودار نهایی نشان می‌دهد که بین فروش داخلی (Domestic Gross) و فروش جهانی (Worldwide Gross) یک همبستگی مثبت وجود دارد.import pandas as pd import matplotlib.pyplot as plt data = pd.read_csv("movieprofit.csv") plt.scatter(data["US_Gross_Million"], data["Worldwide_Gross_Million"]) plt.title("Domestic vs. Worldwide Gross") plt.xlabel("Domestic") plt.ylabel("Worldwide") خروجی :همچنین می‌توانید بازه‌ی اعداد روی محورهای افقی و عمودی را با استفاده از توابع ()plt.xlim و () plt.ylim تغییر دهید.دو خط کد زیر را اضافه کنید که در مثال قبلی برای رسم نمودار پراکندگی (scatterplot) استفاده شده بود.plt.xlim(100, 300) plt.ylim(100, 1000) خروجی :

مطلب پنجم از علم داده :استفاده از فناوری در علم داده

ایمان محدثی — Sun, 25 Jan 2026 23:41:43 +0330

فناوری؛ ستون فقرات علم دادهعلم داده بدون فناوری عملاً معنایی ندارد. حجم، تنوع و سرعت تولید داده‌ها در دنیای امروز به حدی رسیده که تحلیل آن‌ها بدون ابزارهای فناورانه غیرممکن است. فناوری به تحلیل‌گران داده و پژوهشگران این امکان را می‌دهد که داده‌های خام را به بینش‌های قابل‌اقدام تبدیل کنند؛ بینش‌هایی که می‌توانند به تصمیم‌گیری‌های دقیق‌تر، بهینه‌سازی فرایندها و بهبود نتایج در سطح فردی، سازمانی و اجتماعی منجر شوند. در واقع، کیفیت خروجی یک پروژه علم داده تا حد زیادی به انتخاب درست ابزارها و فناوری‌ها وابسته است.فناوری مجموعه‌ای از ابزارها، پلتفرم‌ها و الگوریتم‌ها را فراهم می‌کند که پردازش، مدیریت و تحلیل داده‌ها به‌ویژه دیتاست‌های بزرگ و پیچیده را ممکن می‌سازد. این‌که در یک پروژه از چه فناوری‌ای استفاده شود، به عواملی مانند هدف تحلیل، حجم داده‌ها و نوع مسئله بستگی دارد و انتخاب نادرست می‌تواند کل مسیر تحلیل را تحت تأثیر قرار دهد.نقش صفحه‌گسترده‌ها در تحلیل دادهبرنامه‌های صفحه‌گسترده مانند Excel و Google Sheets از اولین ابزارهایی هستند که بسیاری از افراد برای کار با داده با آن‌ها آشنا می‌شوند. این ابزارها برای داده‌های ساخت‌یافته بسیار مناسب‌اند و امکان ورود، ویرایش، محاسبه و نمایش داده‌ها در قالب جدول و نمودار را فراهم می‌کنند. وجود توابع آماده و محیط کاربرپسند باعث شده است صفحه‌گسترده‌ها گزینه‌ای سریع و در دسترس برای تحلیل‌های اولیه و ساده باشند.Excel به‌عنوان یکی از قدیمی‌ترین و پرکاربردترین ابزارهای صفحه‌گسترده، سال‌هاست در محیط‌های آموزشی و سازمانی مورد استفاده قرار می‌گیرد و در بسیاری از سناریوها هنوز هم انتخابی منطقی برای بررسی سریع داده‌هاست. در کنار آن، Google Sheets با رویکرد مبتنی بر فضای ابری، امکان دسترسی از هر مکان و همکاری هم‌زمان چندین کاربر را فراهم کرده و آن را به ابزاری مناسب برای کارهای تیمی و اشتراک‌گذاری داده تبدیل کرده است.با این حال، زمانی که حجم داده‌ها افزایش پیدا می‌کند یا تحلیل‌ها پیچیده‌تر می‌شوند، محدودیت‌های این ابزارها آشکار می‌شود. در چنین شرایطی، نیاز به ابزارهایی احساس می‌شود که توان پردازشی و انعطاف‌پذیری بیشتری داشته باشند.زبان‌های برنامه‌نویسی در علم دادهزبان‌های برنامه‌نویسی نقش اصلی را در تحلیل‌های پیشرفته علم داده ایفا می‌کنند. این زبان‌ها به ما اجازه می‌دهند داده‌ها را به‌صورت دقیق پردازش کنیم، الگوریتم‌های تحلیلی پیاده‌سازی کنیم و فرایندهای تکراری را خودکار کنیم. در میان زبان‌های مختلف، Python و R به‌عنوان پرکاربردترین گزینه‌ها در علم داده شناخته می‌شوند.Python یک زبان همه‌منظوره است که به دلیل سادگی، خوانایی و گستردگی کاربرد، محبوبیت زیادی پیدا کرده است. این زبان در حوزه‌هایی مانند تحلیل داده، یادگیری ماشین، پردازش تصویر و حتی توسعه وب استفاده می‌شود. در مقابل، زبان R تمرکز ویژه‌ای بر تحلیل‌های آماری و مصورسازی داده دارد و در محیط‌های دانشگاهی و پژوهشی بسیار رایج است. هر دو زبان مجموعه‌ای غنی از کتابخانه‌ها و ابزارها را ارائه می‌دهند که انجام تحلیل‌های پیچیده را ساده‌تر می‌کنند.تمرکز اصلی این متن بر Python است، زیرا یادگیری آن برای افراد تازه‌وارد آسان‌تر است و مهارت در این زبان تنها به علم داده محدود نمی‌شود. کتابخانه‌هایی مانند NumPy، Pandas، Matplotlib و Seaborn امکان تحلیل، پردازش و نمایش داده‌ها را با دقت و انعطاف بالا فراهم می‌کنند و Python را به یکی از قدرتمندترین ابزارهای علم داده تبدیل کرده‌اند.مسیرهای تکمیلی و آینده علم دادهدر کنار Python و R، زبان‌های تخصصی‌تری مانند SQL، Scala و Julia نیز در پروژه‌های حرفه‌ای علم داده کاربرد دارند و هرکدام برای نوع خاصی از پردازش داده بهینه شده‌اند. انتخاب زبان و ابزار مناسب، بخشی از مهارت یک دانشمند داده محسوب می‌شود.از سوی دیگر، علم داده حوزه‌ای ایستا نیست. ظهور هوش مصنوعی و گسترش استفاده از یادگیری ماشین، این حوزه را با چالش‌های فناورانه، اجتماعی و اخلاقی جدیدی مواجه کرده است. موضوعاتی مانند مسئولیت‌پذیری الگوریتم‌ها، حریم خصوصی داده‌ها و سوگیری مدل‌ها باعث شده‌اند استانداردهای حرفه‌ای و اخلاقی در علم داده به‌طور مداوم بازنگری و به‌روزرسانی شوند. آینده علم داده نه‌تنها به پیشرفت فناوری، بلکه به نحوه استفاده مسئولانه از آن نیز وابسته است.

مطلب چهارم از علم داده : فرمت‌ها و ساختارهای دیتاست (CSV، JSON و XML)

ایمان محدثی — Sat, 24 Jan 2026 01:24:13 +0330

فرمت‌ها و ساختارهای دیتاست (CSV، JSON و XML)در دنیای علم داده ( Data Science) یادگیری ماشین یا تحلیل داده داده‌ها دقیقاً با چه فرمتی ذخیره می شوند و چطور باید باهاشون کار کنیم؟دیتاست‌ها می‌تونن در فرمت‌های مختلفی ذخیره بشن و شناخت این فرمت‌ها، یکی از پایه‌ای‌ترین مهارت‌ها برای هر تحلیل‌گر داده یا برنامه‌نویسه.در مطلب چهارم از اصول علم داده ، سه تا از رایج‌ترین فرمت‌های دیتاست‌های ساختاریافته رو با هم بررسی می کنیم:· CSV· JSON· XMLهر کدوم از این فرمت‌ها فلسفه‌ی خاص خودشون رو دارند، کاربردهای متفاوت و برای سناریوهای مشخصی طراحی شدند.چرا اصلاً فرمت دیتاست مهمه؟قبل از اینکه بریم سراغ خود فرمت‌ها، یه نکته‌ی مهم رو شفاف کنم:فرمت دیتاست فقط ظاهر داده نیست؛ بلکه مشخص می‌کنه که داده چقدر خواناست، چقدر راحت می‌شه پردازشش کرد ، برای انتقال بین سیستم‌ها مناسبه یا نه و ساختارش ساده‌ست یا سلسله‌مراتبی و پیچیده.مثلاً:معمولا برای داده‌های جدولی ساده از CSVاستفاده می کنند.داده‌های وب با استفاده از JSON انتقال پیدا می کنند.برای داده‌های علمی، پیچیده یا تصویری از فرمت XML استفاده می کنند. فرمت CSV (Comma-Separated Values)CSV یعنی چی؟CSV مخفف Comma-Separated Values هست؛ یعنی:مقادیر جداشده با ویرگولخوب در این فرمت: هر سطر یک رکورد (Record / Entry)، هر ستون یک ویژگی (Attribute / Variable) و مقادیر هر سطر با ویرگول (,) از هم جدا می‌شوند.به زبان ساده، CSV همون چیزیه که خیلی وقت‌ها شبیه اکسل بدون فرمول می‌بینیم.اگر مثال دیتاست انتخاب درس برای ترم بعد در مطلب سوم از علم داده را در نظر بگیریم :فرمت CSV همین دیتاست به مانند زیر خواهد بود : از مزایای CSV بگم :· خیلی ساده و سرراست· سبک و کم‌حجم· ایده‌آل برای داده‌های جدولی· سازگار با تقریباً همه‌ی ابزارها است از جمله : SQL ، R ، Python ، Excel و ... و اما معایب CSV :· اضافه کردن متادیتا تقریباً سخت یا غیرممکنه· اگر داده شامل ویرگول، کوتیشن یا کاراکتر خاص باشه، پردازش پیچیده می‌شه· فقط ساختار تخت (Flat) داره و برای داده‌های تو در تو مناسب نیستCSV در عمل چطور دیده می‌شه؟وقتی یک فایل CSV رو با ابزارهایی مثل ، Notepad ، Visual Studio Code یا Sublime Text باز می‌کنی، دقیقاً یک متن ساده رو می‌بینی ولی وقتی همون فایل رو با Microsoft Excel یا Google Sheets باز می‌کنی، داده‌ها به‌صورت جدول تمیز و قابل فهم نمایش داده می‌شن.همین سادگی باعث شده CSV یکی از محبوب‌ترین فرمت‌ها در تحلیل داده با پایتون باشه.خیلی از علاقه مندان به علم داده می پرسند که ویرگول اضافه آخر خط؟ مشکل داره؟خیر و این در فایل‌های CSV کاملا طبیعیه و بعضی از نرم‌افزارها موقع تولید فایل CSVبه‌صورت خودکار یک ویرگول اضافه آخر هر خط می‌ذارن وابزارهایی مثل Excel، Pandas و R بدون هیچ مشکلی هر دو حالت رو می‌خونن. فرمت (JavaScript Object Notation)JSONJSON چیه؟JSON از ساختار Object در زبان JavaScript الهام گرفته، ولی برای کار با JSON نیازی به دانستن JavaScript ندارید. در این فرمت داده‌ها داخل { } قرار می‌گیرند ، ساختار بر اساس Key : Value هست و کلید و مقدار با : جدا می‌شن.مثلاً:از مزایای JSON بگم :· ساده و خوانا است· سازگار با تقریباً همه‌ی زبان‌ها· عالی برای APIها و وب· پشتیبانی عالی در JavaScript، Python، Java، C# و …و اما معایب : JSON· امکان گذاشتن کامنت نداره· ساختار رسمی برای متادیتا محدودهکاربرد اصلی JSON در کجاست ؟در تبادل داده بین کاربر و سرور و APIها در وب‌سایت‌ها و اپلیکیشن‌ها و .Microservicesبه جرأت می‌شه گفت:JSON ستون فقرات داده در دنیای وب امروزه. فرمت XML (Extensible Markup Language)فرمت XML از نظر مفهومی شبیه JSON است، با این تفاوت که برای نمایش هر آیتم از دیتاست از نمادهایی به نام تگ (Tag) استفاده می‌کند.تگ‌های XML بلوک‌هایی از متن هستند که داخل براکت‌های زاویه‌دار < > قرار می‌گیرندمانند زیر :XML چه فرقی با JSON داره؟XML هم ساختاریافته‌ست، ولی ما به‌جای key-valueدر اینجا از از تگ (Tag) استفاده می‌کنیم که هر تگ مانند زیر است:Fall 2020ساختار XML دیتاست:· سلسله‌مراتبی· قابل گسترش· مناسب داده‌های پیچیدهمزایای XML :· امکان اضافه کردن متادیتا· ساختار واضح و رسمی· مناسب دیتاست‌های علمی و سازمانیمعایب XML· طولانی و شلوغ (Verbose)· پردازش سنگین‌تر نسبت به JSON XML در دنیای واقعی :XML هنوز هم در خیلی از حوزه‌ها استاندارد طلایی محسوب می‌شه، مثل:دیتاست‌های علمی (PubMed)داده‌های پزشکیداده‌های پژوهشیاستانداردهای بین‌المللی فرمت XML همچنین به‌طور گسترده به‌عنوان فایل جانبی (Annotation) برای داده‌های تصویری استفاده می‌شود.در این حالت، خود تصویر در قالب‌هایی مثل JPEG ذخیره می‌شود و اطلاعات تکمیلی تصویر در یک فایل XML جداگانه قرار می‌گیرد.متادیتا (Metadata) در JSON و XMLفایل‌های JSON و XML معمولاً فقط شامل داده‌ی خام نیستند، بلکه اطلاعاتی درباره‌ی خود دیتاست نیز در آن‌ها ذخیره می‌شود که به آن‌ها فراداده (Metadata) گفته می‌شود.فرمت JSON با متادیتا : فرمت XML با متادیتا :متادیتا اطلاعاتی درباره‌ی خود دیتاست هم به همراه دارند مانند :زمان ایجاد دیتاستنام دیتاستنوع ستون‌هاتوضیحات کلیاین اطلاعات:جدا از داده اصلیو بسیار مهم برای تحلیل حرفه‌ای هستن

مطلب سوم از علم داده : داده و مجموعه داده (Datasets)

ایمان محدثی — Tue, 20 Jan 2026 20:41:04 +0330

داده و مجموعه داده ( Datasets)در دنیای امروز، علم داده (Data Science) نقش بسیار مهمی ایفا می‌کند. علم داده به ما امکان می‌دهد تا از داده‌ها بینش و دانش استخراج کنیم و بر اساس آن‌ها تصمیم‌گیری و نوآوری را در حوزه‌هایی مانند کسب‌وکار، سلامت، سرگرمی و بسیاری زمینه‌های دیگر هدایت کنیم. همان‌طور که در مطالب قبل گفتم، این حوزه ریشه در ریاضیات، آمار و علوم کامپیوتر دارد، اما تنها از اوایل دهه ۲۰۰۰ و هم‌زمان با گسترش داده‌های دیجیتال و پیشرفت توان محاسباتی و فناوری، به‌عنوان یک رشته مستقل شکل گرفت.علم داده در اواسط تا اواخر دهه ۲۰۰۰، با ظهور کلان‌داده (Big Data) و نیاز به روش‌های پیشرفته برای تحلیل و استخراج بینش از مجموعه‌داده‌های بزرگ و پیچیده، رشد و توجه گسترده‌ای پیدا کرد. از آن زمان تاکنون، روند تکامل آن بسیار سریع بوده است و همان‌طور که از مباحث قبلی مشخص است، این حوزه به‌سرعت در حال تبدیل شدن به یکی از ارکان اصلی بسیاری از صنایع و حوزه‌هاست.البته خودِ داده پدیده‌ای جدید نیست. انسان‌ها از آغاز تاریخ در حال جمع‌آوری داده و تولید مجموعه‌داده بوده‌اند. این روند از دوران سنگ ( عصر حجر ) آغاز شد؛ زمانی که انسان‌ها نقش‌ها و تصاویر ساده‌ای به نام سنگ‌نگاره‌ها (Petroglyphs) را روی سنگ‌ها حک می‌کردند. این سنگ‌نگاره‌ها اطلاعات ارزشمندی درباره شکل ظاهری حیوانات و شیوه زندگی روزمره آن‌ها در اختیار ما قرار می‌دهند که برای ما نوعی «داده» محسوب می‌شود.مصریان باستان نخستین شکل کاغذ، یعنی پاپیروس را ابداع کردند تا داده‌های خود را ثبت کنند. پاپیروس همچنین ذخیره‌سازی حجم زیادی از داده‌ها را آسان‌تر کرد؛ از جمله فهرست کردن موجودی‌ها، ثبت تراکنش‌های مالی و ثبت داستان‌ها برای انتقال به نسل‌های آینده.داده (Data)کلمه «Data» جمعِ واژه لاتین “datum” است که به معنای «چیزی که داده شده یا استفاده می‌شود» است و معمولاً به یک مقدار واحد اطلاعات یا یک نقطه مرجع در یک مجموعه‌داده اشاره دارد.وقتی کلمه «داده» را می‌شنویم، اغلب ذهن‌مان به سمت اعداد می‌رود و درست است که اعداد معمولاً داده محسوب می‌شوند، اما داده‌ها فقط اعداد نیستند. هر چیزی که بتوانیم آن را تحلیل کنیم و از آن اطلاعات و بینش‌های مفید استخراج کنیم، در واقع داده است..سوال : فرض کنید در حال تصمیم‌گیری هستید که آیا ترم بعد یک درس خاص را بردارید یا نه. روند تصمیم‌گیری شما احتمالاً به این شکل خواهد بود:ابتدا ممکن است نظرسنجی‌های دوره را بررسی کنید، مانند آنچه در جدول بالا نشان داده شده است. این جدول شامل چهار نوع داده است که به‌صورت ستون‌ها دسته‌بندی شده‌اند: نیم‌سال (Semester)، مدرس (Instructor)، اندازه کلاس (Class Size) و امتیازدهی Rating) . در هر ستون، شش مقدار داده متفاوت وجود دارد، یکی در هر سطر. برای مثال، در ستون نیم‌سال شش مقدار متنی داریم: «Fall 2020»، «Spring 2021»، «Fall 2021»، «Spring 2022»، «Fall 2022» و «Spring 2023».خودِ امتیازدهی‌ها ( Rating ) به تنهایی به شما نمی‌گویند که آیا باید درس را ترم بعد بردارید یا نه؛ این امتیازها فقط عباراتی مثل “Highly recommended” یا “Not quite recommended” هستند که میزان توصیه‌شدن درس در آن نیم‌سال را نشان می‌دهند. برای تصمیم‌گیری، لازم است این داده‌ها را تحلیل کنید.برای استخراج اطلاعات مفید از این امتیازها، معمولاً همه داده‌ها را در نظر می‌گیرید: زمان ارائه درس، مدرس و اندازه کلاس . بررسی این رکوردها به شما کمک می‌کند تا تصمیم بگیرید که ترم بعد این درس را بردارید یا نه. مسئلهفرض کنید می‌خواهید تصمیم بگیرید امروز ژاکت بپوشید یا نه. برای این کار، دمای بالاترین درجه‌ها در پنج روز گذشته را بررسی می‌کنید و مشخص می‌کنید که در هر روز به ژاکت نیاز داشتید یا نه. در این سناریو، شما از چه داده‌هایی استفاده می‌کنید و چه اطلاعاتی می‌خواهید به دست آورید؟پاسخداده‌هایی که استفاده می‌کنید شامل:دمای هر روزنیاز به ژاکت (بله/خیر) در هر یک از پنج روز گذشتهاین داده‌ها به خودی خود چیزی درباره پوشیدن ژاکت امروز نمی‌گویند؛ آن‌ها فقط پنج جفت داده هستند: عدد (دمای روز) و بله/خیر (نیاز به ژاکت)، که هر جفت نشان‌دهنده یک روز است.با استفاده از این داده‌ها، شما اطلاعاتی استخراج می‌کنید که می‌توانید آن را تحلیل کنید و تصمیم بگیرید امروز ژاکت بپوشید یا نه.انواع داده‌هادر بخش‌های قبلی دیدیم که چقدر زندگی روزمره ما پر از داده است، خود زندگی روزمره چقدر داده تولید می‌کند و چقدر اغلب بدون اینکه متوجه شویم، تصمیمات‌مان مبتنی بر داده هستند. همچنین متوجه شدیم که داده‌ها انواع مختلفی دارند.داده‌های کمی (Quantitative Data) : این نوع داده‌ها با اعداد بیان می‌شوند و مقادیر و کمیت‌ها را نشان می‌دهند. معمولاً با روش‌های آماری تحلیل می‌شوند. مثال‌ : قد، وزن، دما، ضربان قلب، ارقام فروش و غیره.داده‌های کیفی (Qualitative Data) : این داده‌ها عددی نیستند و معمولاً ویژگی‌ها یا صفات ذهنی را توصیف می‌کنند. برای تحلیل آن‌ها از روش‌هایی مانند تحلیل موضوعی (Thematic Analysis) یا تحلیل محتوا (Content Analysis) استفاده می‌شود. مثال‌ها: توضیحات، مشاهدات، مصاحبه‌ها، پاسخ‌های باز به نظرسنجی‌ها، عکس‌ها، پست‌های ردیت ، ایسنتاگرام و غیره.نوع داده‌ها معمولاً روش تحلیل داده را تعیین می‌کند، بنابراین تشخیص نوع داده مهم است.برای مثال، دوباره به مثال تصمیم‌گیری درباره گرفتن یک درس ترم بعد نگاه کنیم. در این مثال، ما چهار نوع داده داشتیم که به شکل‌های مختلف نمایش داده شده‌اند: عدد، کلمه و نماد (symbol):نیم‌سال ارائه درس : Fall 2020، Spring 2021، …، Fall 2022، Spring 2023مدرس: A و Bاندازه کلاس: 100 ، 50، 120، 40، 110، 50امتیاز دوره: «Not recommended at all» تا «Highly recommended»دو نوع اصلی داده کمی (Quantitative Data) وجود دارد: عددی (Numeric) و دسته‌ای (Categorical) که هرکدام خود به چند زیرنوع تقسیم می‌شوند.داده‌های عددی به‌صورت اعداد نمایش داده می‌شوند و بیانگر مقادیر قابل اندازه‌گیری هستند. این اعداد ممکن است همراه با نمادهایی برای مشخص کردن واحد اندازه‌گیری باشند. داده‌های عددی به دو دسته پیوسته (continuous) و گسسته (discrete) تقسیم می‌شوند.در داده‌های پیوسته، مقادیر می‌توانند هر عددی باشند؛ به‌عبارت دیگر، مقدار از یک مجموعه نامتناهی از اعداد انتخاب می‌شود. اما در داده‌های گسسته، مقادیر دارای دقت مشخصی هستند و به همین دلیل، مجموعه مقادیر ممکن محدود و متناهی است.در مثال قبلی، ظرفیت کلاس‌ها مانند ۱۰۰، ۱۵۰ و … اعدادی هستند که واحد ضمنی «دانشجو» را در خود دارند. همچنین این اعداد بیانگر کمیت‌های قابل اندازه‌گیری‌اند، زیرا نشان‌دهنده تعداد افراد (سرشماری) هستند. بنابراین، اندازه کلاس یک نوع داده عددی محسوب می‌شود.این داده‌ها در نگاه اول پیوسته به نظر می‌رسند، زیرا مقادیر ظرفیت کلاس می‌توانند هر عدد طبیعی باشند و از یک مجموعه نامتناهی یعنی مجموعه اعداد طبیعی انتخاب شوند.البته توجه داشته باشید که پیوسته یا گسسته بودن داده‌ها به بافت و شرایط مسئله نیز بستگی دارد. برای مثال، اگر دانشگاه قانونی وضع کند که همه کلاس‌ها حداکثر ۲۰۰ نفر ظرفیت داشته باشند، در این صورت همین داده اندازه کلاس به یک داده گسسته تبدیل می‌شود. چنین محدودیتی باعث می‌شود مقادیر اندازه کلاس تنها از یک مجموعه متناهی شامل ۲۰۰ عدد ممکن انتخاب شوند:1,2,3 … 197,198,200داده‌های دسته‌ای (Categorical) می‌توانند به شکل‌های مختلفی مانند واژه‌ها، نمادها و حتی اعداد نمایش داده شوند. یک مقدار دسته‌ای از یک مجموعه متناهی از مقادیر انتخاب می‌شود و لزوماً بیانگر یک کمیت قابل اندازه‌گیری نیست.داده‌های دسته‌ای به دو نوع اسمی (Nominal) و ترتیبی (Ordinal) تقسیم می‌شوند. در داده‌های اسمی، مجموعه مقادیر ممکن هیچ‌گونه مفهوم ترتیب یا اولویتی ندارد؛ در حالی که در داده‌های ترتیبی، مقادیر دارای یک ترتیب یا سلسله‌مراتب مشخص هستند.سایر موارد یعنی نیم‌سال تحصیلی (Semester)، مدرس(Instructor) و امتیازدهی (Ratings) جزو داده‌های دسته‌ای هستند. این داده‌ها به‌صورت نمادهایی مانند «Fall 2020» یا «A» و یا به‌صورت واژه‌هایی مانند «Highly recommended» نمایش داده می‌شوند و مقادیر آن‌ها از یک مجموعه متناهی از همین نمادها و واژه‌ها انتخاب می‌شود مثلاً A در مقابل B .دو مورد اول، یعنی نیم‌سال و مدرس، داده‌های اسمی (Nominal) محسوب می‌شوند، زیرا ترتیب خاصی میان مقادیر آن‌ها وجود ندارد. اما امتیازدهی یک داده ترتیبی (Ordinal) است، چرا که مفهوم درجه یا شدت در آن وجود دارد از «Not recommended at all» تا «Highly recommended» البته می‌توان استدلال کرد که نیم‌سال تحصیلی نیز می‌تواند دارای ترتیب زمانی باشد؛ برای مثال، Fall 2020 پیش از Spring 2021 قرار می‌گیرد و Fall 2021 پس از Fall 2020 می‌آید. اگر این مفهوم ترتیب را در تحلیل خود مهم بدانید، می‌توانید داده نیم‌سال را نیز ترتیبی در نظر بگیرید. این ترتیب زمانی به‌ویژه زمانی اهمیت دارد که با یک مجموعه‌داده سری زمانی (Time Series )کار می‌کنید. در مطالب آینده که در ویرگول منتشر خواهم کرد به مبحث سری‌های زمانی و پیش‌بینی بیشتر آشنا خواهید شد.مسئلهسناریوی ژاکت را در مثال بالا در نظر بگیرید. در آن مثال به دو نوع داده اشاره شده است:دمای هوا در سه روز گذشتهاین‌که در هر یک از آن روزها به ژاکت نیاز داشته‌اید یا نه — بله، خیر و …سؤال:نوع هر یک از این داده‌ها چیست؟لطفا در نظرات جواب های خود را ارسال کنید.مجموعه داده ( Datasets)یک مجموعه‌داده (Datasets) مجموعه‌ای از مشاهدات یا موجودیت‌های داده‌ای است که برای تحلیل و تفسیر سازمان‌دهی شده‌اند، همان‌طور که در جدول انتخاب درس در بالا نشان دادیم. بسیاری از مجموعه‌داده‌ها را می‌توان به‌صورت یک جدول نمایش داد که در آن هر سطر نشان‌دهنده یک موجودیت داده‌ای منحصربه‌فرد و هر ستون بیانگر ساختار یا ویژگی‌های آن موجودیت‌هاست.توجه داشته باشید که مجموعه‌داده استفاده‌شده در جدول انتخاب درس شامل شش موجودیت (Entity) است که با نام‌هایی مانند آیتم، رکورد یا نمونه (instance ) نیز شناخته می‌شوند و این موجودیت‌ها بر اساس نیم‌سال تحصیلی از یکدیگر متمایز شده‌اند. هر موجودیت با ترکیبی از چهار ویژگی (attribute) یا مشخصه (characteristics) که به آن‌ها Feature یا Variable نیز گفته می‌شود تعریف می‌شود:نیم‌سال (Semester)، مدرس (Instructor)، ظرفیت کلاس (Class Size) و امتیاز (Rating)در واقع، این ترکیب ویژگی‌هاست که هر رکورد یا ورودی را در یک مجموعه‌داده توصیف و متمایز می‌کند.با وجود این‌که مقادیر واقعی ویژگی‌ها در موجودیت‌های مختلف متفاوت است، توجه داشته باشید که همه موجودیت‌ها برای هر چهار ویژگی یک مقدار دارند. همین موضوع باعث می‌شود این مجموعه‌داده یک مجموعه‌داده ساخت‌یافته (Structured Dataset ) باشد. در یک مجموعه‌داده ساخت‌یافته، آیتم‌ها را می‌توان به‌صورت یک جدول فهرست کرد، به‌طوری‌که هر آیتم در سطرهای جدول قرار می‌گیرد.در مقابل، مجموعه‌داده بدون ساختار (Unstructured Dataset) مجموعه‌داده‌ای است که فاقد یک مدل داده‌ای از پیش تعریف‌شده یا سازمان‌یافته باشد. در حالی که مجموعه‌داده‌های ساخت‌یافته در قالب جداول با فیلدها و روابط مشخص سازمان‌دهی می‌شوند، داده‌های بدون ساختار اسکیما یا قالب ثابتی ندارند. این نوع داده‌ها معمولاً به شکل متن، تصویر، ویدئو، فایل‌های صوتی یا سایر محتواهایی هستند که اطلاعات آن‌ها به‌راحتی در قالب سطر و ستون قرار نمی‌گیرد.مجموعه‌داده‌های بدون ساختار بسیار فراوان‌اند؛ حتی برخی معتقدند تعداد آن‌ها از مجموعه‌داده‌های ساخت‌یافته بیشتر است. به‌عنوان مثال می‌توان به نظرات کاربران آمازون درباره محصولات، توییت‌های منتشرشده در سال گذشته، تصاویر عمومی اینستاگرام، و ویدئوهای کوتاه پرطرفدار در تیک‌تاک اشاره کرد. این مجموعه‌داده‌های بدون ساختار معمولاً به داده‌های ساخت‌یافته تبدیل می‌شوند تا دانشمندان داده بتوانند آن‌ها را تحلیل کنند. در مطالب اینده ای که در ویرگول منتشر خواهم کرد بیشتر در خصوص جمع‌آوری و آماده‌سازی داده‌ها با تکنیک‌های مختلف پردازش داده آشنا خواهید شد.مسئلهبیایید دوباره به مثال ژاکت برگردیم: تصمیم‌گیری درباره این‌که آیا برای رفتن به کلاس ژاکت بپوشیم یا نه. فرض کنید مجموعه‌داده مطابق جدول زیر باشد.آیا این مجموعه‌داده ساخت‌یافته است یا بدون ساختار؟ پاسخاین یک مجموعه‌داده ساخت‌یافته است، زیرا:هر آیتم داده‌ای ساختار یکسانی دارد و شامل سه ویژگی ثابت است: تاریخ (Date)، دما (Temperature) و نیاز به ژاکت (Needed a Jacket)هر مقدار به‌طور دقیق در یک سلول از جدول قرار می‌گیرد. مسئلهمجموعه‌داده مثال قبلی چند رکورد (Entry) و چند ویژگی (Attribute) دارد؟پاسخاین مجموعه‌داده شامل چهار رکورد است که هرکدام با یک تاریخ مشخص شناسایی می‌شوند.همچنین این مجموعه‌داده دارای سه ویژگی است: تاریخ، دما و نیاز به ژاکت.مسئلهیک مجموعه‌داده شامل فهرستی از کلیدواژه‌هایی است که در هفته گذشته در یک موتور جست‌وجوی وب جست‌وجو شده‌اند.آیا این مجموعه‌داده ساخت‌یافته است یا بدون ساختار؟پاسخاین مجموعه‌داده بدون ساختار است، زیرا هر ورودی می‌تواند یک متن آزاد باشد؛ از یک کلمه گرفته تا چند کلمه یا حتی چند جمله. مسئلهمجموعه‌داده مثال قبلی پردازش شده و اکنون هر رکورد جست‌وجو به‌صورت حداکثر سه کلمه، به‌همراه زمان انجام جست‌وجو (Timestamp) خلاصه شده است.آیا این مجموعه‌داده ساخت‌یافته است یا بدون ساختار؟پاسخاین یک مجموعه‌داده ساخت‌یافته است، زیرا همه ورودی‌ها دارای ساختار یکسانی با دو ویژگی مشخص هستند: کلیدواژه کوتاه و برچسب زمانی (Timestamp)

مطلب دوم از علم داده: علم داده در عمل

ایمان محدثی — Sat, 17 Jan 2026 00:41:27 +0330

علم داده در عملکاربرد علم داده با توجه به اینکه روش ها و دیدگاه هایی از سایر رشته ها از قبیل ریاضی ، آمار و علم کامپیوتر دارد، شامل طیف وسیعی از رشته های دیگر می شود. علم داده در تجارت ، سیاست عمومی ، سلامتی و پزشکی و مهندسی و علوم و همچنین در ورزش و سرگرمی کاربرد دارد.علم داده در تجارتعلم داده نقش کلیدی در خیلی از کسب و کار ها دارد. انواع گوناگونی از داده های مرتبط با مشتریان ، محصولات و فروش در این حوزه را می توان تولید و جمع آوری کرد. این داده ها شامل لیستی از نام مشتریان و محصولاتی که خرید کرده اند و اینکه در قبال خرید چه سودی برای کسب و کار مرتبط داشته است. تحلیل داده های تجاری باعث افزایش سود و منفعت صاحبان کسب و کارها می شود.خرده فروشی بزرگ Walmart برای استفاده از تحلیل های تجاری و گسترش سود سالیانه اش شناخته شده است. Walmart چندین پتابایت داده ( یک پتابایت = 1024 ترابایت ) از داده های غیرساختاریافته که هر ساعت از میلیون ها مشتری تولید می شوند را جمع آوری می کند( big data ). داده های مشتریان Walmart شامل بیش از 255 میلیون ویزیت از وب سایت Walmart در یک هفته می شود. پس Walmart بر اساس همین big data ، الگوهای مشتریان رو شناسایی می کند و موجودی کالاها رو منطبق بر آن الگوها به روزرسانی می کند. نتیجه تحلیل این داده های مشتیریان این شد که Walmart توانست مقدار فروش آنلاین را حدود 10 تا 15 درصد تخمین بزند که همین مقدار سود یک میلیارد دلاری را برای Walmart رقم زد ( 2024 ).آمازون مثال خوب دیگری است. آمازون همیشه تمرکزش بر به حداقل رساندن زمان تحویل کالا و هزینه ها بوده است.همانند Walmart، به تحلیل الگوهای مصرف کنندگان پرداخت و موفق شد محصولات به مشتریان مورد نظر نزدیک کند. کاری آمازون توانست بر اساس الگوهای استخراج شده از مشتریان بدست آورد باعث که ایالات متحده را به 8 منطقه جغرافیایی تقسیم کند و در هر قسمت بر اساس الگوهای فروش آن منطقه کالاهایی را در انبار کالا قرار بدهد که این امر باعث شد که زمان تحویل کالا به مشتری و هزینه ارسال کالا کاهش پیدا کند. نتیجه این استخراج بینش از داده های مشتریان افزایش 76 درصدی ارسال به موقع کالا با کمترین هزینه شد.مثالی دیگر از آمازون استفاده به کار بردن الگوریتم های یادگیری ماشین برای پیش بینی کالاهایی که ممکن است در هر منطقه مشتریان سفارش دهند.علم داده بطور گسترده ای در امور مالی نیز استفاده می شود. امروزه تشخیص تقلب در تراکنش های مالی با استفاده از الگوریتم های یادگیری ماشین مدیریت می شوند. مبتنی بر تراکنش های قبلی مشتریان و الگوهای قبلی متقلبانه ، یک الگوریتم یادگیری ماشین تراکنش های جعلی را بصورت بلادرنگ تشخیص می دهد.علم داده در مهندسی و علمرشته های متنوعی از مهندسی و علم از علم داده سود می برند. اینترنت اشیا ( IoT) یک مثال خوب از پارادایم جدید فناوری است که از علم داده سود می برد. اینترنت اشیاء توصیفی از تعامل اشیاء مختلف از طریق اینترنت است. علم داده یک نقش حیاتی در این تعاملات بین اشیاء بازی می کند چرا که رفتار اشیاء در شبکه اغلب بر اثر داده های جمع آوری شده در شبکه های دیگر می باشد. به مثال دوربین های مداربسته یا زنگ در خانه هوشمند به به ما این اجازه را می دهند که بصورت زنده تصاویر را نگاه کنیم و در صورتی که فعالیت غیر معمولی در محل رخ بده به ما اطلاع بدهد.پیش بینی آب و هوا یک فعالیت داده محور است که تحلیل گران این حوزه داده های مختلف از جمله دما و رطوبت را جمع آوری می کنند و سپس بر اساس آن داده ها آب و هوا را در آینده تخمین می زنند.علم داده پیش بینی آب و هوا را با استفاده از روش های پیچیده پیش بینی همانند تحلیل سری های زمانی (Time Series Forecasting ) ، تصمیم گیری با استفاده از یادگیری ماشین ( Decision-making using Machine Learning Basics ) و یادگیری عمیق و هوش منوعی (Deep Learing and AI Basics ) نیز قابل اعتماد تر کرده است.این پیشرفت در پیش بینی آب و هوا مهندسان و دانشمندان را در پیش بینی بلایای طبیعی مانند سیل یا آتش سوزی به شدت کمک کرده است. در بخش کشاورزی نیز استفاده از علم داده و پیشی بینی آب و هوا نجات بخش بسیاری از کشاورزان خواهد بود.علم داده در سیاست عمومیشهرهای هوشمند نمایشی از استفاده علم داده در سیاست عمومی است. شهر Masdar در ایالات متحده عربی و Songdo در کره جنوبی هزاران سنسور جمع آوری داده برای بهینه کردن انرژی نصب کرده اند. هر چند که هنوز این فناوری در این شهرها کامل نیست ولی شرکت های بزرگ با فشار سیاست های دولت حاکم بر استفاده این فناوری تاکید دارند( Clewlow 2024 ). این سیاست شهر هوشمند در مقایس های کوچک در حال انجام است مانند استفاده در پارکینگ خودروها ، ساختمان ها یا چراغ های شهری .به عنوان مثال شهر San Diego هزاران سنسور برای کنترل چراغ های خیابان با استفاده از علم داده و فناوری های هوشمند نصب کرده است.سنسورهای دیگر با اندازه گیری ترافیک ، گنجایش پارکینگ ها ، دما و رطوبت و غیره می توانند در مدیریت شهر های بزرگ کمک کنند.علم داده در آموزشعلم داده همچنین آموزش را تحت تاثیر قرار داده است. در آموزش سنتی مخصوصا در مقاطع تحصیلی بالا ، آموزش در کلاس به این صورت است که آموزگار برای تمامی دانش آموزان به یک ضرب آهنگی مطالب درس را ارائه می کند به این معنی که همه دانش آموزان در هر سطحی باید فقط به سخنرانی آموزگار گوش بدهند.این نوع از آموزش برای پیگیری پیشرفت دانش آموزان برای آموزگار غیر ممکن است. این روز ها برخی از کلاس ها بصورت مجازی و آنلاین برگزار می شوند و آموزگار می تواند با استفاده از پلتفرم های آموزشی و داده های جمع آوری شده روند پیشرفت دانش آموزان را پیگیری کند.علم داده در خدمات درمانی و پزشکیعلم داده در خدمات درمانی و پزشکی اغلب برای تشخیص و درمان با استفاده از تحلیل های پیش گویانه استفاده می شود. تحلیل داده ها تاریخی و استفاده از روش های آماری ، یادگیری ماشین و الگوریتم ها در تشخیص زود هنگام بیماری های افراد می تواند کمک کننده باشد. تشخیص پزشکی و نسخه نویسی برای بیمار معمولا با توضیحات شفاهی علائم و درد خود بیمار می باشد که پزشک بر اساس آن و تجربه ای کسب نموده است ، نسخه درمانی را می نویسد. جنبش استفاده از علم داده در خدمات درمانی و پزشکی به افرادی که در این حوزه فعالیت می کنند کمک خواهد کرد و در آینده باید بیشتر تصمیم گیری و تشخیص نوع بیماری بر اساس داده ها صورت گیرد. امروزه تصمیم گیری داده محور میسر تر شده است و این را باید مدیون داده هایی باشیم که از گجت های شخصی ، تلفن های هوشمند ، ساعات های هوشمند و مچ بندهای هوشمند جمع آوری شده است. این قبیل دستگاه ها بصورت روزانه رکورد های سلامتی را جمع آوری می کنند و پزشکان بر اساس آن رکوردها می توانند موقیعت بیمار را رصد کنند. در این صورت پزشک بیماری را دقیق تر و مبتنی بر فرد تشخیص خواهد داد و نسخه دقیقا برای فرد نوشته خواهد شد.کاربرد دیگر علم داده در خدمات درمانی و پزشکی کاهش هزینه سرویس درمانی است. با استفاده از رکوردهای تاریخی علائم بیماری و تجویز نسخه آن بیماری ، یک چت بات هوش مصنوعی می تواند خدمات پزشکی را بصورت خودکار و با کمترین هزینه انجام دهد که نیاز حضور بیماران به پزشکان را کاهش خواهد داد.علم داده در ورزش و سرگرمیعلم داده در ورزش و سرگرمی متداول شده است. ورزش بطور طبیعی داده های خیلی زیادی تولید می کند؛ داده هایی از بازیکنان ، موقیعت بازی ، تیم ها ، فصل ها و از قبیل داده ها .تحلیل این داده ها در ورزش تحلیل ورزش (Sport Analytics ) نامیده می شود. برای مثال، تیم بیسبال Oakland Athletics ، استخدام بازیکنان برای فصل 2002 را بطرز عالی تحلیل کرد.مدیریت تیم یک روش آماری موسوم به sabermetrics برای استخدام و موقیعت بازیکنان استفاده کرد. تیم با بودجه بسیار ناچیزیش نسبت به سایر تیم ها توانست بازیکنان بارزش را با کمترین بودجه خریداری کند و در نتیجه آن فصل مهیج ترین تیم در لیگ آمریکا شدند. این داستان بسیار درامتیک بود به نحوی که Michael Lewis یک کتاب در مورد آن نوشت و بعدا یک فیلم با نام Moneyball، بر اساس این ساخته شد.در صنعت سرگرمی، علم داده بطور معمول برای پیشنهادات شخصی سازی شده ای که بعنوان سیستم های پیشنهاده دهنده ( Recommendation Systems ) هستند شناخته شده می باشند. برای مثال ما می توانیم از Netflix یاد کنیم. محققان Netflix بر اساس داده های مشترکان و علاقه مندی آنان ویدیو های مورد نظر را در دسترسی بیشتر قرار می دهد.تمایلات و مشکلات در علم دادهفناوری، جمع آوری حجم عظیمی از داده ها را به سادگی ممکن کرده و ما امروز با چالش پردازش و تحلیل این حجم از داده ها روبرو هستیم. اما خود فناوری باز در نقش نجات دهنده وارد بازی شد و دانشمندان داده اکنون با استفاده از یادگیری ماشین داده ها را بیشتر می فهمند و هوش مصنوعی فرایند داده محور تصمیم گیری را خودکار سازی می کند.با این پیشرفت ها ، خیلی از مردم در مورد اخلاق و حریم خصوصی گلایه دارند. چه کسی اجازه داده که این داده ها جمع آوری شوند و چه کسی اجازه دسترسی به آنان را داده است؟ هیچکدام از ما نمی خواهیم که دیگران از داده های خصوصی ما مانند اطلاعات تماس ، رکوردهای سلامتی ، لوکیشن ، تصاویر و تاریخچه جستجو در وب بدون اطلاع استفاده کنند. الگوریتم های یادگیری ماشین و هوش مصنوعی بر اساس داده های گذشته آموزش داده شده اند و خود این داده های گذشته ممکن است شامل سوگیری هایی باشد که این امر نیز باعث می شود که تصمیمات و نتایجی که یادگیری ماشین و هوش مصنوعی هم می دهند شامل سوگیری و نتایج غیر قابل اعتماد باشند. بنابراین پردازش و جمع آوری داده ها و ارزیابی آن ها باید با دقت لازم صورت پذیرد.

مطلب اول از علم داده : داده و علم داده چیست؟

ایمان محدثی — Tue, 13 Jan 2026 20:42:01 +0330

خوب خیلی از ما کلمات داده و علم داده رو شنیدیم ولی بطور کامل ازشون نمی دونیم.در این درس تعریفی از اصطلاحات علم داده رو خواهیم داشت . بطور خلاصه انواع فناوری های مثل نرم افزارهای آماری ، صفحه گسترده ها یا spreadsheets مثل اکسل و زبان های برنامه نویسی که دانشمندان داده برای کارشون استفاده می کنند و بطور عمیق از پایتون برای تحلیل داده استفاده خواهیم کرد.به راستی علم داده چیست ؟علم داده رشته ای هست که ما چه جوری بریم داده رو جمع آوری کنیم، مدیریت کنیم و انواع داده رو بطوری آنالیز کنیم که بتونیم اطلاعات پرمعنی ازشون استخراج کنیم.در اوایل شروع علم داده چندین اکسپرت یا متخصص شامل متخصص آمار ، ریاضیات ، علوم کامپیوتر و علوم اجتماعی باید هر کدوم بوطر جداگانه برای جمع آوری داده و مدیریت و تحلیل داده رو انجام می دادند که هر کدوم هم کار مستقلی رو انجام می داد. بطور دقیق تر برای جمع آوری داده به فرض برای داده های پزشکی باید می رفتیم سراغ پزشک ها ، برای داده های روانشناسی ، روانشناس و از این دست متخصص ها. برای مدیریت داده متخصص علوم کامپیوتر یا مهندسین کامپیوتر نیاز بود که اونا می تونستند داد های ذخیره و پردازش کنند . حالا چه روی یک کامپیوتر شخصی یا سرور یا روی data warehouse . و برای تحلیل داده نیاز به متخصص آمار و ریاضیات بود چرا که اون ها می توانستند از دادها ، بینش یا insight رو استخراج کنند. با پیشرفت فناوری تکثیر داده ها زیاد شد و حجم انبوهی از داده ها رو امروز داریم. امروز انتظار میره که دانشمند داده یا تیم علم داده در همه این سه دومین سررشته داشته باشه.یک مثال خوب بزنیم توسعه تلفن های شخصی هست. قبلا هر خونه ای یا بهتر بگیم بعضی از خانه ها خط تلفن داشتند و تنها داده ای که اون قوت تولید می شد لیستی از شماره تلفن هایی بود که گرفته می شد. امروز همه حداقل یک تلفن همراه رو دارند که هر کدوم ی عالمه داده دارند تولید می کنند از تصاویر گرفته تا تماس های سوشال مدیا ف ویدیو ها برخی مکان ها و شاید هم اطلاعات مربوط به سلامتی افراد . به همراه هیلی چیز های دیگه.خوب این داده های تلفن های هوشمند توسط افراد متخصص تصویر ، ویدیو و از قبل دارند جمع آوری می شوند ؟ به احتمال زیاد نه. خوب این داده ها بصورت خودکار لاگ گرفته م شوند و بوسیله خود سیستم های تلفن همراه جمع آوری می شوند که اونم توسط مهندسان و علم کامپیوتر طراحی شدند. بصورت سنتی یک متخصص علم داده نیاز داشت که برای جمع آوری داده های سلامتی هر فرد در دوره های زمانی مختلف در ازمایشگاه ببرد که خوب این نیازمند صرف تلاش و زمان زیادی بود. استفاده از یک برنامه کاربردی تلفن های هوشمند روش خیلی بهینه ترو عملی تری برای جمع آوری داده های سلامتی می تونه باشه.چرخه علم دادهعلم داده از یک فرایندی پیروی می کنه که بهش می گیم چرخه علم داده، که شامل تعریف مسئله، جمع آوری داده، آماده سازی داده ، تحلیل و گزارش دهی است.چرخه علم دادهاگرچه به نظر می رسد که جمع آوری و آماده سازی داده کارهای آسانی در مقایسه با نسبت به دیگر فرایندها ولی نیاز به تلاش و وقت بسیار زیادی هست. منطبق بر بررسی که Annaconda انجام داده دانشمندان داده تقریبا نصف زمان را به این دو فرایند اختصاص می دهند.تعریف مسئله، جمع آوری داده و آماده سازی دادهاولین قدم در چرخه علم داده تعریف دقیق مسئله هست و هدف و محدوده پروژه رو باید بشناسیم.وقتی که مسئله به خوبی تعریف شد حالا باید بریم سراغ تولید داده و جمع اوری داده. جمع آوری داده یک فرایند منظم گرفتن اطلاعات علاقه مندی های متغیر.اغلب داده بصورت هدفمند توسط متخصصان حوزه ای خاص برای یک مسئله مشخصی از قبل تعرف شده است.یک مثال این هست ، پاسخ های مشتری به یک محصول مثلا از قبل تدابیری اندیشیده شده که اطلاعات خاصی رو از مشتریان در هنگام فروش دریافت کنیم.همه داده ها بطور هدفمند تولید نمی شوند. خیلی از داده هایی که تولید می شوند به سادگی زائیده فعالیت های روزمره ما هستند.این داده ها بعدا توسط کسانی دیگر می توانند استفاده شوند تا از انها بیشن استحراج کنند.مثالی که میشه زد تاریخچه جستجوهای وب ماست.ما روزانه از سرچ انجین گوگل برای جستجوی اطلاعات مورد علاقه مون استفاده می کنیم که از این کار ما در سرورهای گوگل یک تاریخچه ای از جستجوها تمام کسانی که سرچ کردند ذخیره می شود. کارمندان گوگل از این حجم عظیمی از رکوردها برای تحلیل الگوهای و نمایش تبلیغات مرتبط استفاده می کنند.یک حقیقت مهم این هست که داده ها ممکن هست در فرمی یا حالت بهینه ای برای تحلیل نباشند. پس نیاز هست که این داده ها به نحوی پردازش شوند که قابل آنالیز باشند، در فازی که بهش آماده سازی داده گفته می شود.فرض کنید که شما در گوگل کار می کنید و از شما خواسته شده که تحلیلی از نوع غذا هایی که مردم در طول شب جستجو می کنند داشته باشید. شما تاریخچه جستجوی کاربران در سراسر دنیا رو دارید.اما مشکلاتی برای تحلیل وجود دارد. چرا که تاریخچه کلمات کلیدی که مردم در سراسر دنیا جستجو کرده اند به زبان های مختلف هستند و زمان شب در سرار زمین برای هر منطقه زمانی متفاوت هست.حتی ممکن هست که بعضی از کلمات کلیدی اشتباه تایپی داشته باشند که معنی درستی رو نمی دهند یا حتی بدتر ممکن هست معنی غیر مرتبطی داشته باشند.در بعضی مواقع هم ممکن هست به دلایلی مکان ذخیره داده وجود نداشته باشه که با فیلد بلنک یا خالی ممکن هست مواجعه شویم.توجه داشته باشید که تمامی این سناریو ممکن هست رخ بدهد پس ما باید با فرایند آماده سازی داده ها این مشکلات بر طرف کنیم تا نتیجه تحلیل دقیق تری داشته باشیم.تحلیل دادهوقتی که داده ها جمع اوری و بعد آماده سازی شدند باید برای استخراج بینش وارد فاز تحلیل یا آنالیز داده شویم.انواع گوناگونی از روش های تحلیل داده وجود دارد که زا روش های ساده گرفتهمثل فقط چک کردن حداکثر و حداقل مقدارها ، تا روش های پیشرفته از قبیل مدل کردن یک متغیر وابسته. دانشمندان داده از ساده ترین روش شروع می کنند و سپس وارد روش های پیشرفته تر می شوند البته بستگی به این دارد که بررسی بیشتر دارد یا خیر.گزارش دهی دادهدر این فاز داده ها به نحوی نمایش داده می شوند که به بهترین شکل ممکن بینش انتقال داده شود. اهمیت گزارش دهی رو نمی توانیم تاکید نکنیم. بدون این دانشمندان داده نمی توانند بینش هایی که از داده ها استخراج کردند رو به مخاطبان ارائه دهند.دانشمندان داده با متخصصان حوزه های مختلف کار می کنند برای اینکه ان متخصصان هم از نتیجه تحلیل آگاه شوند باید به فرمی باشد که براحتی متوجه شوند. بصری سازی داده نمایش الگو ها و بیشن ها به روش گرافیکی هست. که از عناصری مثل چارت ، گراف ئ maps استفاده می شود. هدف غایی بصری سازی داده ها برقراری ارتباط موثر و تسهیل در تصمیم گیری بهتر هست.مدیریت دادهدر اوایل آنالیز داده داده هایی که تولید می شدند ساختاریافته بودند و همچنین به اصطلاح از big data خبری نبود. با این اوصاف داده ها روی رسانه ذخیره سازی لوکال قرار داشتند و یا روی یک هارد درایو میشد ذخیره شون کرد. با این وضع پردازش داده و آنالیز داده بصورت لوکال انجام می شد.رفته رفته داده های بیشتری تولید و جمع آوری شدند که اغلب شامل داده های غیرساختاریافته و ساختاریافته می شدند.با حجم انبوهی از داده ها نیاز به سیستم های مدیریتی مبتنی بر ابر پیدا شد که برای ذخیره داده ها توسعه پیدا کرد.همزمان دانشمندان داده متوجه شدند که بیشتر وقتشون صرف پردازش داده می شود تا خود آنالیز داده. برای حل این مشکل سیستم های مدیریت مدرن نه فقط خود داده ها رو ذخیره می کند بلکه پردازش داده ها هم روی cloud انجام می شود.به این سیستم ها data warehousing گفته می شود. Data warehousing ، ذخیره و مدیریت حجم انبوهی از داده ها از منابع مختلف در یک مکان مرکزی نگهداری می شوند که این باعث می شود که بازیابی و تحلیل برای هوش تجاری و تصمیم گیری یا decision making موثرتر شود. بعدا در مورد data warehousing بیشتر خواهم گفت.ادامه منتظر مطالب بیشتر از علم داده باشید ...

چرا چت‌بات‌ها در پاسخ به پرسش‌های تخصصی یک حوزه دچار خطا می‌شوند؟

ایمان محدثی — Mon, 05 Jan 2026 18:32:25 +0330

چند وقت پیش به یک مقاله برخوردم که دقیقاً یک درد مشترک رو هدف گرفته بود:اینکه چرا وقتی حجم داده‌ها زیاد می‌شه، چت‌بات‌ها شروع می‌کنن به جواب‌های کلی، حدسی یا حتی اشتباه دادن.مقاله توضیح می‌داد مشکل از کجاست؛مدل‌های زبانی حافظه‌ی محدودی دارن، دیتابیس نیستن، و قرار هم نبوده همه‌چیز رو «بدون منبع» بدونن.راه‌حل چی بود؟ترکیب جستجوی معنایی، بردارسازی متن و مدل زبانی؛ یعنی قبل از جواب دادن، اول داده‌ی مرتبط پیدا بشه، بعد مدل روی همون داده فکر کنه.همین ایده باعث شد یاد پروژه‌هایی بیفتم که این روزها خیلی اسمشون رو می‌شنویم:Agentهای تحلیل‌گر داده، سیستم‌های RAG، دستیارهایی که به PDF، دیتابیس یا فایل اکسل وصل می‌شن و واقعاً تحلیل می‌کنن، نه فقط حرف بزنن.نکته‌ی جالب مقاله این بود که تأکید می‌کرد:لازم نیست مدل رو Fine-Tune کنیم یا هزینه‌های عجیب بدیم؛با طراحی درست Pipeline داده + Prompt + حافظه معنایی، می‌شه سیستم‌هایی ساخت که هم دقیق باشن، هم مقیاس‌پذیر.به نظرم اگر کسی دغدغه‌اش اینه که«چطور از LLMها برای تحلیل واقعی داده استفاده کنیم، نه صرفاً چت»،این مسیر، همون مسیریه که آینده‌ی ابزارهای هوشمند ازش می‌گذره.

وقتی جواب یک مدل زبانی کافی نیست

ایمان محدثی — Sat, 27 Dec 2025 14:51:40 +0330

چند وقت پیش داشتم روی یک سناریوی ساده فکر می‌کردم:«فرض کن کاربر یک سؤال می‌پرسد که جوابش داخل داده‌هاست، نه داخل حافظه‌ی مدل.»مدل زبانی می‌تواند خیلی روان جواب بدهد،اما:داده‌ها را نمی‌خواندمحاسبه انجام نمی‌دهدوضعیت را نگه نمی‌داردو تصمیم مرحله‌به‌مرحله نمی‌گیرداینجاست که متوجه می‌شوی مسئله، خود مدل نیست؛مسئله معماری اطراف مدل است.در پروژه‌های واقعی، ما معمولاً با این چالش‌ها روبه‌رو هستیم:داده از چند منبع مختلف می‌آیدباید قبل از پاسخ، تحلیل یا فیلتر انجام شودگاهی لازم است مدل چند بار فکر کند و تصمیم بگیردو خروجی فقط «متن زیبا» نیست، بلکه بخشی از یک سیستم استاین‌جاست که مفاهیمی مثل:Agent، Tool، Context و حتی پروتکل‌هایی مثل MCPکم‌کم اهمیت پیدا می‌کنند.برای خود من، نقطه‌ی تغییر نگاه زمانی بود که به‌جای تست‌کردن مدل‌ها، شروع کردم به:طراحی عامل تحلیل‌گر دادهاتصال مدل به ابزار واقعیو پیاده‌سازی چت‌بات‌هایی که داخل یک اپلیکیشن دات‌نت یا پایتون زندگی می‌کنندنه به‌عنوان دمو،بلکه چیزی که بشود واقعاً توسعه‌اش داد.جالب است که این مسیر، آن‌قدر تجربه‌ی عملی در خودش دارد که عملاً می‌شود آن را به‌عنوان یک چارچوب یادگیری پروژه‌محور دید؛مسیری که اتفاقاً نمونه‌های کاملش به‌صورت آموزش‌های فارسی در فرادرس هم منتشر شده‌اند، برای کسانی که ترجیح می‌دهند این مفاهیم را قدم‌به‌قدم و مهندسی یاد بگیرند.اگر امروز به LLMها فقط به‌عنوان «چت‌بات» نگاه کنیم،احتمالاً فردا در پروژه‌های واقعی به بن‌بست می‌خوریم.اما اگر آن‌ها را بخشی از یک سیستم تصمیم‌گیر ببینیم،داستان کاملاً فرق می‌کند.شما در پروژه‌هایتان بیشتر با کدام چالش درگیر بوده‌اید؟مدل؟ داده؟ یا معماری اطراف آن؟

وقتی داده داریم، ولی تحلیل نداریم…

ایمان محدثی — Wed, 24 Dec 2025 23:27:33 +0330

احتمالاً برای خیلی‌هامون پیش اومده؛یه عالمه داده داریم — فایل CSV، خروجی لاگ، نظرات کاربرها، گزارش‌ها —اما وقتی می‌خوایم ازشون «فهم» دربیاریم، گیر می‌کنیم.یا باید ساعت‌ها کد بنویسیم،یا چندتا نمودار نصفه‌نیمه رسم کنیم،یا آخرش بگیم «ولش کن، بعداً بررسی می‌کنم».واقعیت اینه که داده، بدون تحلیل، فقط یه انبار شلوغه.مشکل کجاست؟مدل‌های زبانی خیلی باهوشن،اما یه ایراد بزرگ دارن:هیچ‌چیزی از داده‌های ما نمی‌دونن.اگه از یه مدل بپرسی:«مشتری‌ها بیشتر از چی ناراضی بودن؟»جواب می‌ده…ولی اون جواب، بر اساس حدس و دانش عمومیه، نه داده‌های واقعی تو.از اون طرف، ابزارهای تحلیل داده هم هستن،ولی اغلب:تعاملی نیستنفهم زبانی ندارنیا خروجی‌هاشون برای آدم غیرتحلیلی قابل فهم نیستایده‌ی ساده‌ای که همه‌چیز رو عوض می‌کنهچی می‌شه اگه:داده‌هامون رو بردارسازی کنیممدل زبانی رو مجبور کنیم فقط بر اساس همون داده‌ها حرف بزنهو بتونیم با زبان طبیعی از داده سؤال بپرسیم؟مثلاً:«بیشترین نارضایتی مربوط به کدوم بخش بوده؟»«آیا قیمت روی رضایت مشتری تأثیر داشته؟»«الگوی خاصی در بازخوردها دیده می‌شه؟»اینجاست که مفهوم Agent تحلیل‌گر داده معنا پیدا می‌کنه.عامل تحلیل‌گر داده یعنی چی؟نه یه چت‌بات ساده،نه فقط یه اسکریپت پایتونی.بلکه سیستمی که:داده رو می‌فهمه با Embeddingحافظه‌ی معنایی داره (Vector DB )تحلیل عددی انجام می‌دهو در نهایت، نتیجه رو قابل فهم توضیح می‌دهچرا این موضوع الان مهم‌تر از همیشه‌ست؟چون:داده‌ها هر روز بیشتر می‌شنتصمیم‌گیری سریع‌تر شدهو تحلیل دستی دیگه جواب نمی‌دهشرکت‌ها دنبال کسی هستن که:هم پایتون بلد باشههم داده رو بفهمههم با مدل‌های زبانی کار کنهو این دقیقاً همون نقطه‌ی تلاقیه.این مسیر به چه درد چه کسی می‌خوره؟اگر:برنامه‌نویسی که با داده سروکار داریتحلیل‌گری که می‌خوای هوشمندتر کار کنییا کسی که می‌خواد وارد دنیای Agentها و LLMها بشهساختن یک عامل تحلیل‌گر داده،یه تمرین خیلی واقعی و کاربردیه.نه نمایشی،نه صرفاً ترندی،بلکه چیزی که واقعاً می‌تونه کار رو جلو ببره.اگر دوست داشتی درباره‌ی اینکه چطور می‌شه چنین عاملی رو از صفر ساخت بیشتر بدونی، خوشحال می‌شم تجربه‌ای که تو این مسیر جمع کردم رو به اشتراک بذارم.گاهی فقط لازمه داده‌ها رو…بتونیم ازشون سؤال درست بپرسیم.اگه خواستی یاد بگیری که این نوع ایجنت ها رو بسازی منو در لینکدین یا فرادرس دنبال کن.