پسر لینوکسی
پسر لینوکسی
خواندن ۶ دقیقه·۲ سال پیش

کتاب داده کاوی مفاهیم و تکنیک ها

کی از زمینه‌هایی که تازه متولد شده و به سرعت در حال بزرگ شدن است داده کاوی نام دارد. برای درک آن باید دانش خوبی از مفاهیم داده کاوی و تکنیک‌های کشف الگوهای جالب داده در کاربردهای مختلف داشت.

در دنیایی زندگی می‌کنیم که فناوری‌های عظیمی برای جمع کردن داده از پیرامون‌مان هر روز در حال بیشتر ساخته‌ شدن است. مطمئنا این داده‌ها بایستی تجزیه تحلیل شوند برای این کار نیازمند ابزارها و تکنیک‌هایی جهت کشف دانش از داده‌ها است.

در واقع درست‌تر آن است به جای اینکه بگوییم «در عصر اطلاعات زندگی می‌کنیم» بگوییم «در عصر داده زندگی می‌کنیم». ترابایت‌ها یا پتابایت‌ها داده در شبکه‌های کامپیوتوری، وب جهان گستر و انواع دستگاه‌های ذخیره داده هر روزه از کسب و کارها، جامعه، علم، مهندسی، پزشکی و تقریبا هر جنبه دیگری از زندگی ما به دست می‌آید. رشد انفجاری حجم داده منجر به رایانشی شدن جامعه ما و تولید سریع ابزارهای ذخیره و جمع‌آوری داده شده است.

کسب و کارهای مختلفی در سراسر دنیا، داده‌های عظیم تولید می‌کنند که از جمله این داده‌ها می‌توان تراکنش‌های فروش، رکوردهای معامله سهم شرکت، توصیف محصول، تبلیغات فروش، عملکرد و پروفایل شرکت و فیدبک مشتریان نام برد.

برای مثال، فروشگاه‌های بزرگ مانند والمارت، چندین هزار شعبه در سراسر دنیا دارد که تراکنش‌های هفتگی آن بیش از صدها میلیون است. در حوزه علم و مهندسی مرتبه بالای پتابایت‌ها داده به صورت مداوم از سنجش از راه دور، سنجیدن پیشرفت، آزمایشات علمی، عملکرد سیستم، مشاهادات مهندسی و مانیتورینگ محیط به دست می‌آید.

لینک دانلود کتاب

داده کاوی چیست؟

داده کاوی یک موضوع میان‌ رشته‌ای است و بدین سبب به شیوه‌های متفاوتی می‌توان تعریفش کرد. حتی خود اسم داده کاوی همه مولفه‌های اصلیش را نشان نمی‌دهد. در کل کاوی به معنای کندن خاک‌ها و سنگ‌ها و صخره‌ها برای یافتن طلا به کار می‌رود. اگر دقت کنید در اینجا نمی‌گوییم rock mining یا sand mining بلکه می‌گوییم gold mining. خوب پس به جایی که بگوییم data mining باید بگوییم knowledge mining ولی این عبارت که معنای دانش کاوی به خوبی بیانگر استخراج دانش از داده‌ها نیست شاید بگویید بهتر باشد بگوییم knowledge mining from data ، خوب این عبارت درستی است اما خیلی طولانی است، بدین سبب متخصصین و دانشمندان و دانشجویان این حوزه توافق کردند که از همان است داده‌ کاوی به انگلیسی data mining استفاده کنند.

گفتیم که داده‌کاوی یعنی فرآیند کشف دانش از داده، اما این فرایند خود شامل فرآیندهای کوچک دیگری است که عبارتند از:

Data Cleaning به فارسی پاک‌سازی داده که برای حذف داده‌های نویز و ناسازگار استفاده می‌شود.

Data integration به فارسی یکپارچه سازی داده که در آن چندین منبع داده ترکیب می‌شوند.

Data Selection به فارسی انتخاب داده که داده‌های مرتبط با تحلیل از پایگاه داده بازیابی می‌شوند.

Data Mining به فارسی داده کاوی که در آن با اعمال روش‌های جستجوی هوشمند به استخراج الگوها از داده‌ها پرداخته می‌شود.

Pattern evaluation به فارسی ارزیابی الگو که در آن الگوهای جالب ارائه دهنده دانش مبتنی بر سنجه‌های مورد علاقه شناسایی می‌شود.

Knowledge presentation به فارسی ارائه دانش که از تکنیک‌های بصری سازی و ارائه دانش جهت ارائه دانش به کاربران استفاده می‌شود.

گام‌های یک تا چهار شکل‌های متفاوت پیش پردازش داده است. گام داده‌کاوی ممکن است با کاربر یا ایستگاه دانش تعامل داشته باشد. الگوهای جالب به کاربر ارائه می‌شوند و ممکن است به عنوان دانش جدید در ایستگاه دانش ذخیره شوند.

کتابی عالی برای یادگیری کامل داده‌کاوی

نوشته‌های بالا، نوشته‌های کتاب داده‌کاوی : مفاهیم و تکنیک‌ها نوشته ژیاوی هان، میشلین کمر و ژان پی است. ژیاوی هان یک چینی است که دانشمند علوم کامپیوتر است و صاحب مقام آبل بلیس در دانشگاه ایلینوی است. برترین اثر او همین کتاب داده‌کاوی است که بیش از ۵۰ هزار بار به آن استناد شده است. ژیان پی نیز یک چینی است و پروفسور علوم کامپیوتر در دانشگاه سایمون فریزر است.

مولف کتاب را به گونه‌ای فصل بندی کرده‌ است که انگار می‌دانسته کسی که اولین بار با داده‌کاوی آشنا می‌شود چه سوال‌هایی می‌پرسد و هر چه بیشتر می‌گذرد چه چیزهایی برای او جالب می‌شوند.

کتاب با مقدمه شروع می‌شود و در آن به سوالات از قبیل اینکه داده‌کاوی چیست، داده‌کاوی روی چه داده‌هایی اعمال می‌شود، چه نوع الگوهایی کشف می‌شود، از چه فناوری‌هایی استفاده می‌‌شود، چه حوزه‌هایی از داده کاوی بهره می‌برند و چالش‌های اصلی داده‌کاوی کدام‌ها هستند پاسخ می دهد.

سپس ذهن خواننده را سمت خود داده‌ها می‌برد تا خواننده داده‌ها را بشناسد، بدین سبب است که در فصل دوم مفاهیمی چون اشیا داده و انواع ویژگی آن‌ها، توصیف آماری پایه از داده، دیداری سازی داده، سنجیدن مشابهت داده تعبیه شده است.

حالا که خواننده با داده آشنا شد، نیاز است با مفهوم پیش پردازش داده آشنا شود و چیزهایی مانند پاکسازی داده، یکپارچه‌سای داده، کاهش داده و انتقال داده را بیاموزد که این‌ها همگی در فصل سوم این کتاب هستند.

در فصل چهارم به انبار داده‌ها و پردازش تحلیلی آنلاین پرداخته می‌شود مفاهیم پیچیده‌ای مانند مدل‌سازی انبار داده‌، مکعب داده و OLAP، کاربرد، طراحی و پیاده‌سازی انبار داده به همراه چگونگی تعمیم داده آموزش داده می‌شوند.

اینک خواننده به دنیای داده‌کاوی پا گذاشته است، حالا نیاز است مفاهیم پیچیده و تخصصی این رشته آشنا شود. پس در فصل پنجم فناوری مکعب داده به صورت کامل آموزش داده شده است.

حال وقت آن فرا رسیده است که خواننده کتاب گامی به جلو بردارد و از چیزهایی که آموخته بهره ببرد، برای همین مولف در فصل ششم مقدمه‌ای بر استخراج الگوهای تکراری، انجمن‌ها و وابستگی‌ها نوشته است.

برای تکمیل کار استخراج الگوها، در فصل هفتم کاویدن الگو به صورت پیشرفته بررسی شده است. در این فصل مفاهیمی مانند کاویدن الگو در فضاهای چند سطحی و چند بعدی، استخراج الگوی مکرر مبتنی بر محدودیت، استخراج داده های با ابعاد بالا و الگوهای غول آسا، کاویدن الگوهای تقریبی و فشرده، کشف الگو و کاربردهای آن بررسی گشته‌اند.

همچنان بیان مفاهیم پیچیده و پیشرفته داده‌ کاوی ادامه دارد در فصل هشتم خواننده به صورت پایه‌ و مقدماتی به موضوع دسته‌بندی پرداخته است و کار خویش را در فصل نهم با بررسی پیشرفته دسته‌بندی در داده‌کاوی تکمیل کرده است. مفاهیم مانند شبکه های باور بیزی، دسته‌بندی با Backpropagation، پشتیبانی از ماشین‌های بردار، دسته‌بندی با استفاده از الگوهای مکرر ، الگوهای تنبل یا یادگیری از همسایگان در فصل نهم آورده شده است.

در فصل دهم به خوشه بندی پراخته شده است. به انواع روش‌های خوشه‌بندی مبتنی بر غلظت، مبتنی بر Grid، خوشه‌بندی کی‌میانگین و دیگر مسائل مربوط به خوشه‌بندی در این فصل پرداخته شده است. در فصل یادهم مسائل مربوط به خوشه بندی تکمیل شدند و مفاهیم مانند خوشه‌بندی بر اساس احتمال، خوشه‌بندی فازی، خوشه‌بندی داده‌هایی با ابعاد بالا، خوشه‌بندی گراف و داده شبکه و خوشه‌بندی با محدودیت از جمله مسائل مطرح شده در این فصل هستند.

در فصل دوازدهم، به داده‌های پرت پرداخته شده است و بیان شده است که چرا شناسایی داده‌های پرت مهم است و چقدر می تواند در تحلیل خوشه و داده‌کاوی به کار آید و روش‌های مختلف برای شناسایی و استفاده از آن آورده شده است.

فصل سیزدهم آخرین فصل این کتاب است، اما تمامی موضوع‌های مرتبط با داده‌کاوی در فصل‌های قبل بیان شدند. در این فصل روندها و مرزهای داده‌کاوی توضیح داده شده است. مباحث مانند انواع کاوش داده‌های پیچیده، انواع متدولوژی‌های داده‌کاوی، کاربردها و مسائل داغ این حوزه بررسی شده‌اند.

data miningعلوم کامپیوتر
بیزینس را شروع کن حتی با فروش یک تکه سنگ
شاید از این پست‌ها خوشتان بیاید