جواد روستایی javad roustaei
جواد روستایی javad roustaei
خواندن ۷ دقیقه·۵ سال پیش

چرخه عمر داده Data Life cycle در علم داده

چرخه عمر داده
چرخه عمر داده


مدیریت چرخه عمر داده در سازمان یک موضوع راهبردی هست و کل عمر داده از زمان تولید ( که این تولید می تونه توسط خود سازمان صورت گرفته باشه یا سازمان دیگر همونطوری که می دونید ، سازمانها می تونند دیتا را خریداری هم بکنند. یا از دیتاهای باز موجود استفاده کنند. ) و تا زمانی که این دیتا مصرف می شه و تبدیل به دانش می شه و در نهایت از بین میره کاربرد داره


در این ویدیو به معرفی چرخه عمر داده پرداختم اگر حوصله خوندن این مقاله را ندارین می تونید این فیلم را مشاهده کنید


دیتا تبدیل می شه به اطلاعات و اطلاعات به دانش و در نهایت یک ارزشی را تولید میکنه که این ارزشه واسه شرکتها مهمه و از اون می تونند درامد کسب کنند.

چرخه عمر داده یک شروع و یک پایان دارد. دیتا طول عمر طولانی تری داره به خاطر اینکه خام هست و می شه از اون به بینش ها و دانشهای مختلف رسید. ممکنه بعضی از داده ها را دور بریزیم یا ارشیو کنیم . دور می ریزیم به خاطر حجم زیاد داده یا اینکه طول عمر اون تموم شده. چرخه عمر داده همه اینها را پوشش می ده موضوعاتی مثل

تولید ،ذخیره سازی،یکپارچه سازی،تحلیل دیتا ،دستیابی به دانش و باز این چرخه ادادمه پیدا میکنه.

در برخی سازمانها مثل بانک تولید دیتا از طریق سیستم ها و نرم افزارها مثل دستگاه خودپرداز صورت می گیره و یا در اپراتورها مثل سوییچ ها و آنتن ها .

ذخیره و ساختار دهی به دیتا : یکی از چالش ها در این قسمت اینه که تکرار زیاده و باید داده یه دست و بدون تکرار ساختار دهی و ذخیره بشه. که این یکی از مواردی هست که در معماری دیتا باید مورد توجه قرار بگیره . چرا که به مرور این دیتا ها دستکاری میشه. مثلا برنامه نویسان دیتا بیس را تغییر می دن که باعث می شه طول عمر دیتا کم بشه.

پاکسازی و حذف نویز از داده : که یکی از دلایل اون تنوع سیستم های تولید دیتا هست. باید مورد توجه قرار بگیره. اینا همه کمک می کنه تا اون دانشی که تولید میشه قابل اطمینان باشه.

اسمارت دیتا زمانی هست که دیتا نویزش حذف شده باشد. پروژه های هوش تجاری زمانی انجام می شه که نویز داده گرفته شده و در انبار داده ذخیره شده .در واقع تحلیل روی اسمارت دیتا صورت میگیره و می شه به اون دانش اتکا کرد و بر اساس اون تصمیمات قابل اطمینان گرفت.

مثالی که میشه زد سایت دیوار هست که در اون قیمت ساختار مشخصی نداره برخی به ریال می زنند بعضی ها به میلیون وارد می کنند مثل دو وارد می کنند به معنی دومیلیون که این داده ها نویز داره و نیازه که ساختار دهی و پاکسازی روی اون صورت بگیره.

در دیتا بیس ها این داده ها را به صورت موجودیت و کلاس ها طبقه بندی می کنند اما زمانی که وارد انبار داده می شه به صورت بعد طبقه بندی میشن و اونجا ما پایگاه داده های چند بعدی داریم که اینا باید تو ساختار دهی دیتا مورد توجه قرار بگیرند.

بحث بعدی تجمیع دیتا هست که داده ها مختلفی که در دیتابیس های مختلف پراکنده هستند مثل اطلاعات مشتری همه را باید تجمیع کنیم و در یک دیتا بیس داشته باشیم.

تولید دانش هم یکی از بحثای چرخه حیات داده هست. مثلا در بانک ها میان با استفاده از همین تولید دانش ریسک عدم پرداخت وام ها کاهش می دن . مثلا شخصی پولی را میزاره و بعد 5 ماه می خواد وام بگیره اما با این سیستم متوجه می شن که همون شخص این پول را به صورت خرد خرد و مثلا بیشترش را در ماه پنجم واریز کرده. این دیتا را از طریق تحلیل سابقه مشتری میفهمند.

یا اینکه شخصی اومده تو بانک چند حساب باز کرده که و قتی اینا را با هم جمع می کنی میبینی چند میلیارده . و اونا به عنوان مشتریان ویژه طبقه بندی می کنند.

تحلیل رفتار مشری جدید ، تحلیل رفتار مشتریان قدیم و ... اینا دوباره خودش دیتا تولید میکنه و نیازه این چرخه دوباره تکرار بشه.

تو تحلیل رفتا مشتری میان با همین دیتا ها دغدغه های مشتری را پیدا میکنند مثل وقتی شما تو یه سایت کلیک های زیاده می کنید تا خریدش را نهایی کنید. این داده ها می تونه به شما کمک کنه که دغدغه مشتری را شناسایی کنید و تعداد کلیک های را کم کنید تا تجربه مشتری بهتر بشه.

مدیریت داده مساوی مدیریت چرخه حیات داده است و اگر چرخه داده را خوب مدیریت کنیم در واقع داده را خوب مدیریت کردیم . داده بر اساس نوعش می تونه طول عمر متفاوت داشته باشه.

توی مدیریت چرخه حیات داده باید منافع ذینفعان Stackholder در هر گام در نظر گرفته شود.

برای هر کدوم از این ذینفعان بر اساس نیازشون یک سری کارها را باید انجام بدیم. مثلا واحد فروش نیاز داره که روی موجودیت مشتری اطلاعات تماس مانند شماره موبایل و سابقه خرید مشتری وجود داشته باشه . که در گام پاکسازی و اعتبار سنجی داده باید این نیاز در نظر گرفته شود.و بر اساس این نیازهاست که ما میایم دیتا ها را طبقه بندی می کنیم. مثلا Master Data و Reference Data و critical data را شناسایی می کنیم.

ارزش دیتا را تو بیزینس خود بیزینس تعیین می کنه نه اون برنامه نویس و توسعه دهنده . مثلا در بانک یه سری دیتا و فیلدها اهمیت دارند و یا در بیمه و تلکام یه سری دیتا های دیگر.

کیفیت و امنیت تو تمام مراحل چرخه اثر خودشون را دارند و باید مد نظر باشد. و حتی مهمتر از اون اصالت داده هست که باید در تمامی مراحل حفظ شود. و تو چرخه اهمیت زیادی داره.

نمی شه این مراحل را پیش رفت بدون اینکه بدونیم این داده از کجا اومده و اصالتش چیه. و سابقه اون و اتفاقاتی که در این مسیر براش افتاده باید ثبت شود . که با زنجیره داده هم اونا می شناسند. واسه همه این مراحل استاندارد های مشخصی داریم که باید رعایت شود حتی واسه مستند سازی این فرایندها نرم افزارهایی هستند که به صورت استاندارد میان و این کارو انجام می دن.

مثلا فیلد آدرس را اگر در نظر بگیریم . میایم میگیم اولین بار توسط سیستم crm تولید شده . بعد میایم میگیم این آدرس حالا کجاها استفاده شده مثلا در سیستم تبلیغات و کمپین های تبلیغاتی هم استفاده شده. خوبی این روش اینه که می تونیم برگردیم به عقب و فرایندهامون را اصلاح کنیم . مثلا اگر در کمپین جواب نگرفتیم برمی گردیم به سیستم crm و اصلاحاتمونا اعمال می کنیم.

یکی از خروجی های معماری داده همین data lifecycle هست اگر data lifecycle را خوب در بیاریم توی سایر بخش های مدیریت دیتا مثل کیفیت داده هم کار ما راحت می شه.


دیتا تبدیل می شه به اطلاعات و اطلاعات به دانش و در نهایت یک ارزشی را تولید میکنه که این ارزشه واسه شرکتها مهمه و از اون می تونند درامد کسب کنند.
بیگ دیتاعلم دادهداده کاوی
یک برنامه نویس فول استکم که به صورت فریلنسری کار میکنم.با تمرکز روی علم داده و بیگ دیتا و علاقمند به مطاله و یادگیری هستم.
شاید از این پست‌ها خوشتان بیاید