ثنا احمدی
ثنا احمدی
خواندن ۱۴ دقیقه·۱ سال پیش

معماری نرم افزار در نرم افزارهای داده حجیم (Big Data)

مقدمه:

در دنیای امروز، با تولید بی‌وقف داده‌ها، سازمان‌ها با چالش‌های مدیریت و بهره‌مندی از حجم عظیم این داده‌ها مواجه هستند. این تحقیق با تحلیل ۱۲ مقاله اصلی در حوزه معماری داده‌های بزرگ، سعی در ارائه یک دیدگاه جامع و بروز از پیشرفت‌ها در این زمینه دارد.

در دنیای دیجیتال امروز، با افزایش حجم داده‌ها، نیاز به معماری‌های پیچیده برای مدیریت چالش‌های داده‌های بزرگ احساس می‌شود. این تحقیق به بررسی چهارچوب‌های معماری مختلف می‌پردازد که هرکدام توانمندی‌ها و مزایای خاصی را در مواجهه با چالش‌های داده‌های بزرگ دارند.

معماری‌های مختلفی از جمله Lambda، Broker، Shared-Nothing و غیره، مورد بررسی قرار گرفته‌اند. هر یک از این معماری‌ها یک رویکرد خاص به مدیریت داده‌های بزرگ ارائه می‌دهند. به‌علاوه، تکنولوژی‌هایی چون MapReduce و Hadoop Cluster برای پردازش موازی و ادغام یکپارچه پایگاه‌های داده NoSQL نیز مورد بررسی قرار گرفته‌اند.

هدف اصلی این تحقیق شامل بررسی جامع معماری‌ها، برجسته کردن نقاط قوت و ضعف آنها و ارائه راهنمایی جهت انتخاب معماری‌های مناسب با نیازهای هر سازمان است. این اطلاعات به تصمیم‌گیرندگان کمک می‌کند تا با درک عمیق از معماری‌های مختلف، انتخابی آگاهانه و هماهنگ با نیازهای خود داشته باشند.

ادبیات موضوع:

حال با توجه به مقالات مرتبط با معماری کلان داده ها، بنده به مطالعه چندین مقاله پرداخته ام که در ادامه به بررسی و توضیح مقالات مربوطه می پردازم.

مقاله "اکوسیستم کلان داده: مروری بر تکامل معماری" توسط Kamakhya Narain Singh، Rajat Kumar Behera و Jibendu Kumar Mantri، به بررسی چشم‌انداز کلان داده و تکامل معماری آن می‌پردازد. این مقاله به چالش‌های ناشی از داده‌های بزرگ با ویژگی‌های متنوع، توجه دارد و مفهوم داده‌های بزرگ را از نظر پنج Vs (حجم، تنوع، سرعت، ارزش و صحت) مورد بررسی قرار می‌دهد. با تغییرات مستمر و تأثیر سیستم‌های منبع باز، مقاله نشان می‌دهد که چگونه داده‌های بزرگ یک اکوسیستم چند وجهی ایجاد کرده‌اند، شامل چارچوب‌ها، ابزارها و کتابخانه‌های در حال تکامل. نویسندگان بر اهمیت انطباق فناوران با محیط پویا و انتخاب مناسب ابزارها و چارچوب‌ها در دنیای فناوری داده‌های بزرگ تأکید دارند. مقاله به هدف کشف پیچیدگی‌های معماری کلان داده و ارائه بینش‌های ارزشمند برای انتخاب فناوری‌های مناسب برای موارد استفاده خاص، منتشر شده است.

مقاله "معماری کلان داده برای شهرهای هوشمند" نگاهی جامع به چالش‌ها و نیازهای متنوع شهروندان در شهرهای مدرن با تأکید بر پایداری اقتصادی، اجتماعی و زیست‌محیطی ارائه می‌دهد. تأثیر تکنولوژی اینترنت اشیا (IoT) در تولید داده‌های بزرگ با تنوع و سرعت بیشتر مورد بررسی قرار می‌گیرد. معماری کلان داده به نام BASIS برای شهرهای هوشمند طراحی شده است و لایه‌های انتزاعی متنوعی را شامل می‌شود. این معماری تأکید دارد که داده‌های عمومی باید به دسترس باشند. نتایج یک مطالعه موردی نشان می‌دهند که BASIS با موفقیت قابلیت ذخیره، پردازش و تحلیل داده‌های بزرگ در شهرهای هوشمند را دارد. این مقاله به چالش‌ها و پیچیدگی شهرها پرداخته و اهمیت توجه دولت به نیازهای شهروندان و حفظ پایداری در ابعاد مختلف زندگی را مورد تأکید قرار می‌دهد. BASIS به عنوان یک معماری داده‌های بزرگ واکنشگرا و منطبق با نیازهای شهرهای هوشمند معرفی شده و به عنوان یک سهم ارزشمند در پیاده‌سازی موفق معماری‌های کلان داده در شهرهای پیچیده و پویا تصویب شده است.

مقاله "معماری مرجع و طبقه‌بندی فناوری‌ها برای سیستم‌های کلان داده" توسط Pekka Pääkkönen و Daniel Pakkala به نیاز به یک چارچوب یکپارچه در زمینه داده‌های بزرگ می‌پردازد و اهمیت ادغام رویکردهای مختلف در یک ساختار معماری یکپارچه را مورد تأکید قرار می‌دهد. مقاله یک معماری مرجع فناوری برای سیستم‌های کلان داده معرفی کرده و از تحلیل معماری‌های پیاده‌سازی موجود الهام گرفته است. همچنین، یک سیستم طبقه‌بندی برای فناوری‌ها، محصولات و خدمات ارائه کرده و به طراحی و انتخاب فناوری‌ها در ساختارهای داده بزرگ کمک می‌کند.

مقاله "تاکتیک‌های معماری برای سیستم‌های تجزیه و تحلیل امنیت سایبری داده‌های بزرگ: مروری"، به تحلیل سیستم‌های تجزیه و تحلیل امنیت سایبری داده‌های بزرگ با استفاده از فناوری‌های کلان داده می‌پردازد. با انجام مرور ادبیات سیستماتیک بر روی ۷۴ مقاله، ۱۲ ویژگی کیفیت برای سیستم‌های BDCA شناسایی شده و ۱۷ تاکتیک معماری برای مقابله با این ویژگی‌ها مورد بررسی قرار گرفته‌اند. نتایج نشان می‌دهد که نگرانی‌های اصلی کیفیت در این سیستم‌ها عملکرد، دقت و مقیاس‌پذیری هستند و توصیه می‌شود تاکتیک‌های گزارش‌شده مدل‌سازی شده و ارزیابی تجربی آنها انجام شود.

در مقاله "معماری داده‌های بزرگ"، نویسنده به بررسی تکامل و جنبه‌های بنیادی داده‌های بزرگ پرداخته و این اصطلاح را به عنوان توصیفی برای داده‌های غیرمتعارف تعریف کرده است. مقاله بحرانی را در تمرکز روی حجم داده‌ها در بحث کلان داده مطرح کرده و تأکید دارد که هدف اصلی داده‌های بزرگ باید استخراج ارزش از طریق تجزیه و تحلیل باشد. سه جنبه عملکردی کلان داده، یعنی جمع‌آوری داده، تحقیق و توسعه داده‌ها، و محصولات داده، مورد بررسی قرار گرفته و نحوه ادغام آنها برای ایجاد معماری داده یکپارچه تبیین شده است.این مقاله به تجزیه و تحلیل همه داده‌ها، نه فقط با حجم زیاد، تأکید دارد. همچنین نویسنده به پیشنهاد معماری کلان داده جامعی پرداخته و ادغام فناوری‌های مختلف را ترویج کرده است. در پایان، سه نکته کلیدی برای معماری کلان داده مؤثر مطرح شده‌اند: شامل کردن همه داده‌ها در تجزیه و تحلیل، تشخیص اینکه پیچیدگی داده‌ها مهم‌تر از حجم است، و ارزیابی معماری بر اساس یک دلار به ازای هر تحلیل.

مقاله "ملاحظات برای داده های بزرگ: معماری و رویکرد" به چالشات ناشی از رشد داده‌ها، به ویژه داده‌های بدون ساختار، می‌پردازد. نویسنده تاکید دارد که برخورد با این داده‌ها نه تنها نیاز به ذخیره‌سازی و مدیریت حجم بلندی از داده‌ها دارد بلکه باید بر تجزیه و تحلیل و استخراج ارزش از آنها تمرکز شود. مقاله به Clusterهای MapReduce و Hadoop به عنوان راهکارهای مدرن برای تجزیه و تحلیل داده‌های بدون ساختار اشاره کرده و تأکید دارد که با استفاده از یک رویکرد معماری مناسب، می‌توان بهینه‌تر از این ابزارها استفاده کرد.

مقاله "معماری برای تجزیه و تحلیل داده‌های بزرگ" توسط جوزف چان، اهمیت داده‌های بزرگ در اقتصاد جدید را مورد بررسی قرار داده و بر تأثیرات حجم، سرعت، تنوع و دقت داده‌ها تأکید دارد. نویسنده به اهمیت باز کردن ارزش داده‌های بزرگ برای کسب‌وکارها برای درک مؤثر و پاسخگویی به محیط‌های پویا اشاره می‌کند. مقاله بر روی تغییر پارادایم از روش‌های سنتی پردازش داده به فناوری‌ها و رویکردهای جدید منطبق با چالش‌ها و فرصت‌های دنیای داده‌های بزرگ تأکید دارد. برخی از فناوری‌های کلیدی مورد بررسی عبارتند از پایگاه‌های داده NoSQL، سیستم فایل توزیع شده Hadoop و MapReduce. مقاله به کاربردهای علمی، بهداشتی، امنیت ملی و اقتصادی داده‌های بزرگ اشاره کرده و چگونگی مدیریت مجموعه داده‌های عظیم با استفاده از نرم‌افزار منبع باز و پلتفرم‌های پردازش موازی را مورد بحرانی قرار داده است.

مقاله "توزیع، داده، استقرار: همگرایی معماری نرم‌افزار در سیستم‌های کلان داده" اثر ایان گورتن، به چالش‌ها و نیازمندی‌های مهندسی نرم‌افزار در زمینه کاربردهای داده در مقیاس بزرگ می‌پردازد. نویسنده بر اهمیت طراحی داده‌ها، توزیع و معماری‌های استقرار پیچیده در موفقیت راه حل‌ها در این زمینه تأکید می‌کند. دو جهت تحقیقات تکمیلی توضیح داده شده است: ابتدا، تاکتیک‌های معماری گسترده‌ای برای ناوبری در محیط کدگذاری شده و ارتباط با ویژگی‌های کیفیت و تاکتیک‌ها، برای انتخاب طراحی‌های موثر در سیستم‌های داده بزرگ ارائه شده‌اند. ثانیاً، مقاله ارتباط تاکتیک‌های معماری با راه‌حل‌های طراحی مبتنی بر فناوری‌های کلان داده را مورد بحرانی قرار داده است، تا معماران قادر باشند به سرعت قابلیت‌های یک فناوری خاص را با تاکتیک‌های مرتبط متصل کنند. در کل، این مقاله یک گام اولیه در جهت درک و کاربرد تاکتیک‌های معماری در سیستم‌های داده بزرگ است، که به معماران امکان می‌دهد طراحی‌های آگاهانه و همسو با فناوری‌های کلان داده را انتخاب کنند و همگرایی معماری نرم‌افزار و سیستم‌های کلان داده را به‌منظور توسعه موفق و استقرار راه‌حل‌های مؤثر در دنیای پردازش داده‌های بزرگ ترویج کند.

مقاله "تجزیه و تحلیل داده های بزرگ در ارتباطات: بررسی ادبیات و توصیه های معماری" تأکید دارد که شرکت‌های مخابرات با چالش حجم بالای داده از منابع متنوع، از جمله اینترنت اشیا، روبرو هستند. با بررسی ۳۸ مقاله، نقاط قوت و ضعف مطرح شده در این مقالات را مورد بررسی قرار داده و نشان می‌دهد که آزمایش‌های اثبات مفاهیم محدود و اجرای کامل در محیط‌های مخابراتی عملیاتی ندارند. برای حل این مشکلات، مقاله معماری پیشرفته‌ای به نام "LambdaTel" را معرفی می‌کند که از فناوری‌های تجزیه و تحلیل داده‌های بزرگ منبع باز و زبان پایتون بهره می‌برد. این معماری به عنوان یک راهنمای اجرای تجزیه و تحلیل داده‌های بزرگ در محیط‌های مخابراتی عملیاتی معرفی می‌شود و تأکید بر سادگی و سازگاری با مخاطبان در حوزه مخابرات دارد.

مقاله "طراحی معماری برنامه‌های تحلیل داده‌های بزرگ" تاکید دارد که برنامه‌های تحلیل داده‌های بزرگ (BDA) نیازمند طراحی معماری مبتنی بر مدل هستند. این برنامه‌ها از یادگیری ماشینی برای استخراج بینش‌های ارزشمند از داده‌های بزرگ بهره می‌برند. مقاله یک رویکرد طراحی معماری با استفاده از روش طراحی ویژگی محور و تحلیل معاملاتی معماری معرفی کرده و از مدل‌سازی دامنه و DevOps برای تعیین، استقرار و نظارت بر معیارهای عملکرد در BDA استفاده می‌کند. این رویکرد توسط ابزار Avionic ارزیابی شده و نتایج نشان می‌دهند که این روش در ادغام، استقرار و نظارت بهبودهای معناداری دارد.

مقاله "کاربرد الگوهای معماری در سیستم‌های کلان داده" تاکید دارد که الگوهای معماری در زمینه سیستم‌های کلان داده نقش مهمی ایفا می‌کنند. این الگوها که به عنوان راه‌حل‌های ساختاریافته شناخته می‌شوند، ویژگی‌های ساختاری سطح بالا و دستورالعمل‌هایی را برای حل مشکلات معماری نرم‌افزار با تأکید بر کیفیت و قابلیت استفاده مجدد ارائه می‌دهند. مقاله با مطالعه نقشه‌برداری سیستماتیک، الگوهای معماری متداول مورد استفاده در سیستم‌های کلان داده مانند Layers، خطوط لوله، فیلترها، مخازن مشترک و معماری‌های Broker را مورد بررسی قرار داده است. نتایج نشان می‌دهند که این الگوها، هرچند شبیه الگوهای استفاده شده در سیستم‌های داده بزرگ هستند، اما تأثیرات گوناگونی بر کیفیت و ویژگی‌های سیستم‌های کلان داده دارند. در نهایت، مقاله بر اهمیت در نظر گرفتن کیفیت و ویژگی‌های خاص سیستم‌های کلان داده در طراحی با استفاده از این الگوها تأکید می‌کند و راهنمایی‌های مفیدی برای معماران و محققان فراهم می‌آورد.

مقاله "معماری مرجع داده‌های بزرگ، مروری بر ادبیات نظام‌مند" به بررسی معماری‌های مرجع در دنیای داده‌های بزرگ می‌پردازد. نویسندگان تأکید دارند که در عصر وفور داده، توسعه معماری‌های قوی جهت مدیریت داده‌های گسترده و پیچیده بسیار حائز اهمیت است. این مقاله از مرور ادبیات سیستماتیک برای تجزیه و تحلیل عمیق معماری‌های مرجع داده‌های بزرگ استفاده می‌کند و اصول اساسی این معماری‌ها را مورد بررسی قرار می‌دهد. همچنین، وضعیت فعلی و محدودیت‌های معماری‌های مرجع داده‌های بزرگ را برجسته می‌کند. این مقاله به محققان و معماران در زمینه داده‌های بزرگ راهنمایی می‌کند و درک از اصول اساسی معماری‌های مرجع را افزایش می‌دهد.

حال با جمع بندی مقالات ذکر شده، درک جامعی از پارادایم های معماری Big Data، از رویکردهای مدل محور گرفته تا الگوهای معماری را افزایش می دهد و بینش های ارزشمندی را برای طراحی سیستم های داده در مقیاس بزرگ ارائه می دهد. در جدول زیر یک سیستم طبقه بندی از این مقالات را فراهم نموده ایم.

این طبقه بندی ها یک نمای کلی از ملاحظات و رویکردهای معماری متنوعی را که در مقالات برجسته مورد بحث قرار گرفته اند، می باشد.

در این مقایسه، چندین معماری کلان داده با یکدیگر مورد بررسی قرار گرفته‌اند تا تفاوت‌ها و ویژگی‌های آنها بر اساس معیارهای مختلف مورد ارزیابی قرار گیرد.

معماری Lambda به دلیل دسته‌ای موازی و پردازش بلادرنگ، مقیاس پذیری بالا را فراهم می‌کند. این معماری بر لایه‌ی دوگانه تأکید دارد و برای پردازش بلادرنگ و دسته‌ای مناسب است. تحمل خطای بالا از طریق لایه‌ی سرعت و دسته‌ای به‌دست می‌آید. با این حال، پیچیدگی مدل برنامه‌نویسی در مقایسه با معماری Shared-Nothing بیشتر است که به مقیاس پذیری متوسط آن اضافه می‌شود.

معماری MapReduce برای پردازش موازی مناسب است و مدل برنامه‌نویسی پیچیده‌تری دارد. این معماری برای پردازش دسته‌ای مناسب بوده و تاخیر بالاتری را در نظر می‌گیرد. در مقابل، NoSQL Database Integration مقیاس‌پذیری افقی برای حجم‌های بزرگ داده فراهم می‌کند و مدل‌های ساده‌تری ارائه می‌دهد که به موارد استفاده خاصی نیاز دارد.

معماری بروکر انعطاف‌پذیری بالا با اجزاء جداگانه دارد و از ارتباطات ناهمزمان برای بلادرنگ پشتیبانی می‌کند. تحمل خطا بالا از طریق صف پیام فراهم می‌شود. در مقابل، معماری Pipes and Filtersها معمولاً متوالی است و در زمان واقعی چالش‌هایی دارد. این معماری مزایای ماژولاریته را با رویکرد متوالی فراهم می‌کند و مدل برنامه‌نویسی ساده‌تری دارد.

معماری Layers با ماژولاریته و تفکیک نگرانی‌ها مقیاس‌پذیری را بهبود می‌بخشد. با این حال، ماژولاریته ممکن است در پردازش بلادرنگ محدود باشد. معماری LambdaTelبه دلیل لایه‌ی دوگانه، بر پردازش دسته‌ای و بلادرنگ تأکید دارد. هر یک از این معماری‌ها مزایا و معایب خود را دارند که انتخاب باید با توجه به نیازهای خاص پروژه انجام شود.

ایجاد یک سیستم رتبه بندی برای معماری های کلان داده مستلزم در نظر گرفتن ویژگی ها و قابلیت های کلیدی مختلف است. در اینجا یک رتبه بندی کلی بر اساس جنبه های مهم ارائه شده است.

این رتبه بندی یک تعمیم است و در هنگام انتخاب معماری، همیشه الزامات، محدودیت ها و اهداف وظایف پردازش کلان داده در نظر گرفته می شود.

نتیجه گیری:

با توجه به چشم‌انداز پیچیده داده‌های کلان و تحولات مداوم معماری‌های مرتبط، ما مدل‌ها و پارادایم‌های مختلفی را بررسی کرده‌ایم که هرکدام استراتژی‌های مختلفی را برای مدیریت و بهره‌برداری از داده‌های حجیم ارائه می‌دهند. مثلاً، معماری Lambda با توانایی تطبیق بالا، پردازش لحظه‌ای و دسته‌ای را در یک ساختار یکپارچه ترکیب می‌کند. از سوی دیگر، معماری Shared-Nothing بر تثبیت و ذخیره‌سازی متمرکز داده تأکید دارد.

معماری های MapReduce و Hadoop Cluster نمایانگر قابلیت پردازش موازی هستند و مدل سازگاری یکپارچه با پایگاه داده‌های NoSQL جوابی برای چالش‌های مقیاس‌پذیری و تأخیر ارائه می‌دهند. همچنین، معماری Broker بر انعطاف‌پذیری از طریق ارتباطات ناهمزمان تأکید دارد و رویکرد Pipe and Filters یک ساختار مدولار و متوالی را برای پردازش داده‌ها به کار می‌برد. معماری LambdaTel اصول قوی مدل Lambda را با تأکید بر مقیاس‌پذیری، پردازش بلادرنگ و تحمل خطا در یک سیستم یکپارچه ادغام می‌کند و Layers Architecture برای مقیاس‌پذیری بر اساس طراحی مدولار بهره‌می‌برد.

تصمیم‌گیری در مورد معماری نیازمند آگاهی از چشم‌انداز طولانی‌مدت، نیازهای مقیاس‌پذیری، الزامات پردازش لحظه‌ای و دسته‌ای، تحمل خطا و هماهنگی با فناوری‌های فعلی است. هر پارادایم برای حل چالش‌های خاصی طراحی شده و انتخاب معماری باید با درنظر گرفتن نیازهای خاص به‌طور آگاهانه انجام شود.

در مسیر تحول پیچیده داده‌های کلان، این انتخاب معماری به عنوان یک ابزار اساسی می‌تواند به سازمان‌ها کمک کند تا بهترین راه حل برای مدیریت و بهره‌برداری از داده‌های خود را انتخاب کنند. این ابزارهای معماری مثل فانوس‌ها، نقاطی روشنی را برای سازمان‌ها به ارمغان می‌آورند تا در مسیر بهره‌مندی از تغییرات قدرتمند داده‌ها راهنمایی شوند. از طریق تصمیم‌گیری آگاهانه، این سازمان‌ها می‌توانند پتانسیل واقعی داده‌های کلان را به دست آورند، چالش‌ها را به فرصت تبدیل کنند و راهی برای آینده‌ای متمایز و مبتنی بر داده‌ها ایجاد کنند.

مراجع:

Certainly, here are the formatted references for the 12 papers you provided:

[1] K. N. Singh, R. K. Behera, and J. K. Mantri, "Big Data Ecosystem: Review on Architectural Evolution," *International Journal of Computer Applications*, vol. 174, no. 6, pp. 7-12, 2017.

[2] C. Costa and M. Y. Santos, "BASIS: A big data architecture for smart cities," *Procedia Computer Science*, vol. 121, pp. 861-868, 2017.

[3] P. Pääkkönen and D. Pakkala, "Reference Architecture and Classification of Technologies, Products and Services for Big Data Systems," *Procedia Computer Science*, vol. 120, pp. 18-25, 2017.

[4] F. Ullah and M. A. Babar, "Architectural Tactics for Big Data Cybersecurity Analytics Systems: A Review," *Information and Software Technology*, vol. 122, pp. 105-125, 2020.

[5] B. Ramesh, "Big Data Architecture," *Procedia Computer Science*, vol. 78, pp. 590-597, 2016.

[6] K. Bakshi, "Considerations for big data: Architecture and approach," *Procedia Computer Science*, vol. 79, pp. 748-755, 2016.

[7] J. O. Chan, "An Architecture for Big Data Analytics," *International Journal of Computer Applications*, vol. 174, no. 10, pp. 1-5, 2017.

[8] I. Gorten, "Distribution, Data, Deployment: Software Architecture Convergence in Big Data Systems," *2017 IEEE International Conference on Software Architecture (ICSA)*, pp. 1-10, 2017.

[9] H. Zahid, T. Mahmood, A. Morshed, and T. Sellis, "Big data analytics in telecommunications: literature review and architecture recommendations," *Journal of Big Data*, vol. 7, no. 1, pp. 1-32, 2020.

[10] C. Castellanos, B. Pérez, D. Correal, and C. A. Varela, "A Model-Driven Architectural Design Method for Big Data Analytics Applications," *Symmetry*, vol. 10, no. 12, p. 777, 2018.

[11] B. Sena and L. Garcés, "Investigating the Applicability of Architectural Patterns in Big Data Systems," *2017 IEEE/ACM 12th International Symposium on Software Engineering for Adaptive and Self-Managing Systems (SEAMS)*, pp. 144-150, 2017.

[12] P. Ataei and A. Litchfield, "Big Data Reference Architectures, a systematic literature review," *Journal of Systems and Software*, vol. 159, p. 110416, 2020.


این مطلب، بخشی از تمرینهای درس معماری نرم‌افزار در دانشگاه شهیدبهشتی است

big dataمعماریمعماری_نرم_افزار_بهشتی
شاید از این پست‌ها خوشتان بیاید