پایگاه داده (دیتابیس) مجموعهای سازمان یافته از اطلاعات یا دادههای ساختاریافته است که معمولاً به صورت الکترونیکی در یک سیستم کامپیوتری ذخیره میشود. یک پایگاه داده معمولاً توسط یک سیستم مدیریت پایگاه داده (DBMS) کنترل میشود. معمولا داده ها و DBMS، همراه با برنامه های کاربردی مرتبط با آنها، به عنوان یک سیستم پایگاه داده نامیده میشوند که به یک پایگاه داده خلاصه میشود.
دادههای موجود در رایجترین انواع پایگاههای داده که امروزه در حال کار هستند، معمولاً در ردیفها و ستونها در یک سری جداول مدلسازی میشوند تا پردازش و پرس و جوی دادهها کارآمد باشد. سپس دادهها را می توان به راحتی در دسترس، مدیریت، اصلاح، به روز رسانی، کنترل و سازماندهی کرد. اکثر پایگاههای داده از زبان پرس و جو ساخت یافته (SQL) برای نوشتن و پرس و جو داده ها استفاده میکنند.
خب چون توی بیشتر سایتها درباره پایگاه داده نوشته شده و نیازی به تعریفش نیست، بعد از این دو پاراگراف میریم سراغ بحث خودمون یعنی "پایگاه داده در علم داده"!
در طول تاریخ، اولین باری که انسان با داده مواجه شد، بدون اینکه متوجه شود، شروع به ذخیره کردن داده در ذهنش کرد. که ذهن بدترین منبع برای ذخیره داده بود. بعد از مدتی با زیاد شدن حجم دادهها متوجه نیاز به ثبت آنها شد و در این پروسه اول تصمیم گرفت اطلاعات رو روی دیوارهای غار ذخیره کرد. در آن زمان دیوارهای غار data storageهایی بودند که از روی آنها میشد فهمید هرکس کِی چه چیزی شکار کرده است. بعدها کاغذها منابع اطلاعات بودند و با پیشرفت زمان در حال حاضر دیتابیسها را به عنوان منبع اصلی ذخیره داده میشناسیم.
دادهها نقش اساسی در تصمیمگیریهای امروزه دارند. وقتی درباره داده صحبت میکنیم درباره تنوع بالای داده صحبت میکنیم و بهترین کار این است که آنها را از منابع مختلف جمعآوری کنیم. جمعآوری دادهها مستلزم منظمسازی آنهاست. فرایندی به نام ETL وجود دارد که آنها را برای انجام کارهای تحلیلی استفاده میکند.
پایگاه داده فیزیکی
اما اینجا بحث اینست که دادهها کجا ذخیره میشوند. به طور کلی یا فیزیکی ذخیره میشوند یا بصورت دیجیتال. اگر بصورت فیزیکی ذخیره میکنیم معمولا روی کاغذها ، داکیومنتهای پرینت شده یا در ذهن افراد ذخیره میشوند.که نامطمئنترین جا برای ذخیره دادهها همینجاست. تمام سعی ما اینست که دادهها را از منابع فیزیکی به دیجیتال منتقل کنیم چون قابل دسترس، قابل ارتباط برقرار کردن و قابل کوئری زدن نیستند.بنابراین یکی از فراگیرترین جاهایی که دادهها ذخیره میشوند، منابع فیزیکی هستند که دادههاباید از اینجا به پایگاههای داده منتقل شوند.
پایگاه داده دیجیتال
معمولا وقتی درباره داده صحبت میکنیم درباره پایگاه داده دیجیتال صحبت میکنیم که در اینجا هم فناوریهای مورد استفاده برای ذخیره داده یکپارچه نیستند. دسته اول فایلها هستند که یکی از مهمترین منابع ذخیره دادهها هستند. مثلا یک فایل متنی شامل دادههای بسیار زیادی است. اتفاقا در کسب و کارهایی کمتر سمت دیجیتال شدن رفتند، فایلها پایگاهداده اصلی هستند. که معمولا کار با آنها راحتتر از کاغذ است. که آنها هم مشکلاتی دارند از جمله اینکه راحت قابل اشتراکگذاری نیستند، نمیتوانیم راحت روی آنها کوئری بزنیم و دنبال داده خاصی بگردیم و گاهی فرمت آنها به راحتی قابل خواندن نیست. و مهمتر از همه، به راحتی قابل اتصال و ایجاد ارتباط با دادههای دیگر نیستند. مثلا ارتباط یک فایل ورد و پی دی اف به سابقه خرید فردی که اطلاعات او در فایلهاست خیلی سخت است و بنابراین راه تحلیل دادههای خرید فرد را سخت میکنند.
بنابراین علیرغم خوب بودن ذخیره دادهها در فایلها، کیفیت آنها قابل قبول نیست و بهترین کار اینست که دادهها را به پایگاههای داده ساختاریافتهتر منتقل کنیم که بتوانیم روی آنها کوئری بزنیم، آنها را به اشتراک بگذاریم و بتوانیم با بقیه دادهها مرتبطشان کنیم.
علاوه بر فایلها، Spread sheet ها هم برای ذخیره دادهها بکار میروند. مثل اکسل و نرمافزارهای مشابه آن. که در حال حاضر تمام معیارهای مهم برای کار کردن با دادهها را دارند. چرا که خیلی از دادههای شرکتها در اکسل ذخیره میشوند و بسیاری از نرمافزارهای داخل شرکتها خروجیهای خود را بصورت اکسل ارائه میدهند.
اما نواقص آنها چیست؟ 1- برای حجم دادههای بالا مناسب نیستند. 2- دادههای کمتر ساختار یافته را به سختی میتوان وارد صفحات گسترده کرد.
اما چرا کماکان پر طرفدارند؟ بخاطر مزایایی از جمله راحتی کار کردن، اشتراکگذاری، در دسترس بودن و همه فهم بودن.
اما مهمترین پایگاه ذخیرهسازی دادهها، دیتابیسها هستند(که تعریفشون رو میدونیم).که در دو گروه SQL-Based (مثل Mysql که میتونید برای آشنایی بیشتر با اون، به دوره آموزشی تحت عنوان دوره جامع آموزش MySQL که قبلا ضبط کردم مراجعه کنید)و NONSQL-Based قرار دارند.
بعد از جمعآوری دادهها در دیتابیس، نوبت تمیز کردن دادهها و آماده کردن آنها برای تحلیل و در نهایت تصمیمگیری داده محور است.
دوره جامع آموزش MySQL