مهرنوش زندی
مهرنوش زندی
خواندن ۴ دقیقه·۲ سال پیش

پایگاه داده‌ها در علم داده

پایگاه داده چیست؟
پایگاه داده چیست؟


تعریف مختصری از پایگاه داده

پایگاه داده (دیتابیس) مجموعه‌ای سازمان یافته از اطلاعات یا داده‌های ساختاریافته است که معمولاً به صورت الکترونیکی در یک سیستم کامپیوتری ذخیره می‌شود. یک پایگاه داده معمولاً توسط یک سیستم مدیریت پایگاه داده (DBMS) کنترل می‌شود. معمولا داده ها و DBMS، همراه با برنامه های کاربردی مرتبط با آنها، به عنوان یک سیستم پایگاه داده نامیده می‌‍شوند که به یک پایگاه داده خلاصه می‌شود.

داده‌های موجود در رایج‌ترین انواع پایگاه‌های داده که امروزه در حال کار هستند، معمولاً در ردیف‌ها و ستون‌ها در یک سری جداول مدل‌سازی می‌شوند تا پردازش و پرس و جوی داده‌ها کارآمد باشد. سپس داده‌ها را می توان به راحتی در دسترس، مدیریت، اصلاح، به روز رسانی، کنترل و سازماندهی کرد. اکثر پایگاه‌های داده از زبان پرس و جو ساخت یافته (SQL) برای نوشتن و پرس و جو داده ها استفاده می‌کنند.

پایگاه داده در علم داده

خب چون توی بیشتر سایتها درباره پایگاه داده نوشته شده و نیازی به تعریفش نیست، بعد از این دو پاراگراف میریم سراغ بحث خودمون یعنی "پایگاه داده در علم داده"!

در طول تاریخ، اولین باری که انسان با داده مواجه شد، بدون اینکه متوجه شود، شروع به ذخیره کردن داده در ذهنش کرد. که ذهن بدترین منبع برای ذخیره داده بود. بعد از مدتی با زیاد شدن حجم داده‌ها متوجه نیاز به ثبت آن‌ها شد و در این پروسه اول تصمیم گرفت اطلاعات رو روی دیوارهای غار ذخیره کرد. در آن زمان دیوارهای غار data storageهایی بودند که از روی آن‌ها می‌شد فهمید هرکس کِی چه چیزی شکار کرده است. بعدها کاغذها منابع اطلاعات بودند و با پیشرفت زمان در حال حاضر دیتابیس‌ها را به عنوان منبع اصلی ذخیره داده می‌شناسیم.

داده‌ها نقش اساسی در تصمیم‌گیری‌های امروزه دارند. وقتی درباره داده صحبت می‌کنیم درباره تنوع بالای داده صحبت می‌کنیم و بهترین کار این است که آن‌ها را از منابع مختلف جمع‌آوری کنیم. جمع‌آوری داده‌ها مستلزم منظم‌سازی آن‌هاست. فرایندی به نام ‌ETL وجود دارد که آن‌ها را برای انجام کارهای تحلیلی استفاده می‌کند.

پایگاه داده فیزیکی

اما اینجا بحث اینست که داده‌ها کجا ذخیره می‌شوند. به طور کلی یا فیزیکی ذخیره می‌شوند یا بصورت دیجیتال. اگر بصورت فیزیکی ذخیره می‌کنیم معمولا روی کاغذها ، داکیومنتهای پرینت شده یا در ذهن افراد ذخیره می‌شوند.که نامطمئن‌ترین جا برای ذخیره داده‌ها همینجاست. تمام سعی ما اینست که داده‌ها را از منابع فیزیکی به دیجیتال منتقل کنیم چون قابل دسترس، قابل ارتباط برقرار کردن و قابل کوئری زدن نیستند.بنابراین یکی از فراگیرترین جاهایی که داده‌ها ذخیره می‌شوند، منابع فیزیکی هستند که داده‌‌هاباید از اینجا به پایگاه‌های داده منتقل شوند.

پایگاه داده دیجیتال

معمولا وقتی درباره داده صحبت می‌کنیم درباره پایگاه داده دیجیتال صحبت می‌کنیم که در اینجا هم فناوری‌های مورد استفاده برای ذخیره داده یکپارچه نیستند. دسته اول فایل‌ها هستند که یکی از مهمترین منابع ذخیره داده‌ها هستند. مثلا یک فایل متنی شامل داده‌های بسیار زیادی است. اتفاقا در کسب و کارهایی کمتر سمت دیجیتال شدن رفتند، فایل‌ها پایگاه‌داده اصلی هستند. که معمولا کار با آن‌ها راحت‌تر از کاغذ است. که آن‌ها هم مشکلاتی دارند از جمله اینکه راحت قابل اشتراک‌گذاری نیستند، نمی‌توانیم راحت روی آن‌ها کوئری بزنیم و دنبال داده خاصی بگردیم و گاهی فرمت آن‌ها به راحتی قابل خواندن نیست. و مهمتر از همه، به راحتی قابل اتصال و ایجاد ارتباط با داده‌های دیگر نیستند. مثلا ارتباط یک فایل ورد و پی دی اف به سابقه خرید فردی که اطلاعات او در فایلهاست خیلی سخت است و بنابراین راه تحلیل داده‌های خرید فرد را سخت می‌کنند.

بنابراین علیرغم خوب بودن ذخیره داده‌ها در فایلها، کیفیت آنها قابل قبول نیست و بهترین کار اینست که داده‌ها را به پایگاه‌های داده ساختاریافته‌تر منتقل کنیم که بتوانیم روی آن‌ها کوئری بزنیم، آن‌ها را به اشتراک بگذاریم و بتوانیم با بقیه داده‌ها مرتبطشان کنیم.

علاوه بر فایلها، Spread sheet ها هم برای ذخیره داده‌ها بکار می‌روند. مثل اکسل و نرم‌افزارهای مشابه آن. که در حال حاضر تمام معیارهای مهم برای کار کردن با داده‌ها را دارند. چرا که خیلی از داده‌های شرکت‌ها در اکسل ذخیره می‌شوند و بسیاری از نرم‌افزارهای داخل شرکت‌ها خروجی‌های خود را بصورت اکسل ارائه می‌دهند.

اما نواقص آن‌ها چیست؟ 1- برای حجم داده‌‌های بالا مناسب نیستند. 2- داده‌های کمتر ساختار یافته را به سختی می‌توان وارد صفحات گسترده کرد.

اما چرا کماکان پر طرفدارند؟ بخاطر مزایایی از جمله راحتی کار کردن، اشتراک‌گذاری، در دسترس بودن و همه فهم بودن.

اما مهمترین پایگاه ذخیره‌سازی داده‌ها، دیتابیس‌ها هستند(که تعریفشون رو می‌دونیم).که در دو گروه SQL-Based (مثل Mysql که می‌تونید برای آشنایی بیشتر با اون، به دوره آموزشی تحت عنوان دوره جامع آموزش MySQL که قبلا ضبط کردم مراجعه کنید)و NONSQL-Based قرار دارند.

بعد از جمع‌‌آوری داده‌ها در دیتابیس، نوبت تمیز کردن داده‌ها و آماده کردن آن‌ها برای تحلیل و در نهایت تصمیم‌گیری داده محور است.

دوره جامع آموزش MySQL





داده‌هاپایگاه دادهmysqlدوره آموزشیعلوم کامپیوتر
شاید از این پست‌ها خوشتان بیاید