زهرا ساعدی
زهرا ساعدی
خواندن ۳ دقیقه·۱ سال پیش

آمار عملی برای دیتا ساینتیس ها _ بخش اول : معرفی داده

در چهار بخش ابتدایی این سلسله نوشته به کاوش در داده ها می پردازیم. عموما اولین مرحله هر پروژه آماری، کاوش و یا explore کردن داده هاست. بخش اول به نحوی مقدمه کارمان هست. به نحوی میخواهیم بگوییم قیافه داده های ما باید چه شکلی باشه و از بخش دوم وارد explore کردن داده ها خواهیم شد.

جالبه بدونید آمار کلاسیک بر پایه بررسی یک نمونه و نتیجه گیری درباره یک جامعه تمرکز دارد اما آمار جدید بر استنتاج داده ها تمرکز دارد. اولین بار "جان توکی(1962)" تجزیه و تحلیل اکتشافی را مطرح کرد و نمودار های ساده ای همراه با خلاصه های آماری در کتاب خودش منتشر کرد. بعدتر به دلیل قدرت محاسباتی کامپیوتر ها این شاخه علم آمار بسیار سریع تکامل یافت.

جان  توکی، آماردان برجسته ای که ایده هایش پایه علم داده را تشکیل می دهد.
جان توکی، آماردان برجسته ای که ایده هایش پایه علم داده را تشکیل می دهد.

داده ها از منابع متعددی به دست می آیند: اندازه گیری های حسگر، رویدادها، متن، تصاویر و ویدئوها. اینترنت اشیا(IoT) و.... بسیاری از این داده ها بدون ساختار هستند: تصاویر مجموعه ای از پیکسل ها هستند که هر پیکسل حاوی اطلاعات رنگی RGB (قرمز، سبز، آبی) است. متون دنباله ای از کلمات و کاراکترهای غیرکلمه ای هستند که اغلب بر اساس بخش ها، زیربخش ها و غیره سازماندهی می شوند. کلیک‌استریم‌ها دنباله‌ای از اقدامات کاربر در تعامل با یک برنامه یا یک صفحه وب هستند. در واقع، یک چالش بزرگ علم داده این است که این سیل از داده (data) های خام را در اطلاعات(information) عملی مهار کند. برای به کارگیری مفاهیم آماری تحت پوشش این مجموعه تحریر، داده های خام بدون ساختار باید پردازش و به شکلی ساخت یافته دستکاری شوند. یکی از رایج‌ترین شکل‌های داده‌های ساختاریافته، جدول با ردیف‌ها و ستون‌ها است.

دو نوع اساسی از داده های ساخت یافته وجود دارد: عددی و طبقه ای. داده های عددی به دو صورت هستند: پیوسته، مانند سرعت باد یا مدت زمان، و گسسته، مانند شمارش وقوع یک رویداد. طبقه ای ها فقط مجموعه ای ثابت از مقادیر را می گیرند، مانند یک نوع صفحه تلویزیون(پلاسما، ال سی دی، LED، و ...) یا نام استان ها (تهران، سیستان و بلوچستان، اصفهان و ....).باینری ها(دو دویی) یک گروه خاص مهم از داده های طبقه بندی است که تنها یکی از دو مقدار را می گیرد، مانند 0/1، yes/no، یا true/false. نوع مفید دیگری از داده های طبقه بندی شده ترتیبی است که در آن دسته ها مرتب شده اند؛ نمونه ای از این رتبه بندی عددی (1، 2، 3، 4، یا 5) است. بنابراین انواع داده ها شامل عددی (پیوسته، گسسته) و دسته ای (دودویی، ترتیبی) می باشد.

• داده ها معمولاً بر اساس نوع در نرم افزار طبقه بندی می شوند.

• تایپ داده ها در نرم افزار به عنوان یک سیگنال به نرم افزار در مورد نحوه پردازش داده ها عمل می کند.(انواع داده ها ممکن است گیج کننده باشند، زیرا انواع ممکن است همپوشانی داشته باشند، و طبقه بندی در یک نرم افزار ممکن است با نرم افزار دیگری متفاوت باشد)

تمرکز این مجموعه نوشته بر روی rectangular data یا داده های جدولی است. داده های جدولی اصطلاح کلی برای یک ماتریس دو بعدی با ردیف هایی است که رکوردها و ستون هایی را نشان می دهد که ویژگی ها (متغیرها) را نشان می دهد. پس متن و صوت و ... چه؟ داده های بدون ساختار باید پردازش و دستکاری شوند تا بتوان آنها را به عنوان مجموعه ای از ویژگی ها در داده های جدولی نشان داد.


آمارآموزش
شاید از این پست‌ها خوشتان بیاید