ای ترجمه
ای ترجمه
خواندن ۱۴ دقیقه·۲ سال پیش

تجزیه و تحلیل ساده شده کلان داده (مقاله ترجمه شده)

چکیده

با توسعه تکنولوژی رایانه، افزایش قابل توجهی در رشد داد ه ها وجود دارد. دانشمندان با توجه به مقدار میزان افزایش نیازهای پردازش داده ها که در حوزه علم ایجاد می شوند همیشه غرق هستند. یک مسئله بزرگ در زمینه های مختلف استفاده از داده های با مقیاس بزرگ وجود دارد و این مسئله همیشه با پشتیبانی تصمیم-گیری مواجه است. داده کاوی تکنیکی است که می تواند الگوهای جدیدی را از مجموعه کلان داده ها پیدا کند. در طی این سال ها تمام زمینه های کاربردی مورد مطالعه و بررسی قرار گرفتند و بسیاری از روش های داده کاوی را توسعه داده اند. اما در سال های مقدار زیادی از داده ها، محاسبات و تجزیه و تحلیل آنها به طور قابل توجهی افزایش یافته اند. در چنین موقعیتی، اکثر روش های داده کاوی در عمل برای دسترسی به چنین کلان داده هایی از دسترس خارج شدند. الگوریتم موازی/همزمان و تکنیک های پیاده سازی به طور موثر کلید ارزیابی مقیاس پذیری و عملکرد مورد نیاز در تجزیه و تحلیل کلان داده ها در مقیاس بزرگ می باشند. تعدادی از الگوریتم های موازی دارای تکنیک های مختلف پیاده سازی هستند و می توانند: از نگاشت کاهش، MPI، بندها، و mash-up یا گردش کار که دارای ویژگی های عملکردی و قابلیت های متفاوتی هستند استفاده کنند. مدل MPI به طور موثر در محاسبه مسئله، به ویژه در شبیه سازی به دست می آید. در حقیقت استفاده از آن کار ساده ای نیست. نگاشت کاهش از یک مدل تجزیه و تحلیل داده ها در زمینه بازیابی داده ها است و به صورت فناوری ابر توسعه پیدا کرده است. تاکنون، چندین معماری نگاشت کاهش برای دست زدن به کلان داده ها توسعه پیدا کرده اند. معروف ترین آنها گوگل است. یکی دیگر از ویژگی های هادوپ این است که محبوب ترین نرم افزارها، نرم افزار منبع باز نگاشت کاهش است و توسط بسیاری از شرکت های فناوری اطلاعات مانند یاهو، فیس بوک، eBay و غیره مورد پذیرش قرار گرفته است. در این مقاله، ما به طور خاص روی هادوپ و اجرای موثر نگاشت کاهش به منظور تحلیل پردازش تمرکز می کنیم.

مقدمه

سازمان ها از چندین مقادیر که داده های ساختاری بسیار دشواری دارند و از تکنولوژی DBMS برای پردازش و تجزیه و تحلیل داده ها استفاده می کنند. این نوع مسئله با شرکت های مبتنی بر وب مانند فیس بوک، یاهو، گوگل و لینکدین همیشه مواجه است و نیاز به پردازش داده های با حجم بسیار زیاد و هزینه کافی مستر (ارباب) دارند. تعداد زیادی از این سازمان ها سیستم های غیر  رسمی خود را برای غلبه بر این موضوع توسعه داده اند. به عنوان مثال، گوگل، نگاشت کاهش و سیستم فایل گوگل را توسعه داده است. همچنین یک سیستم DBMS به نام بیگ تیبل (جدول بزرگ) نیز ساخته شده است. امکان جستجو در میلیون ها صفحه نیز وجود دارد و نتایج در آن به صورت میلی ثانیه یا کمتر به منظور کمک به الگوریتم هایی که هر کدام از سرویس های جستجو را در یک چارچوب نگاشت کاهش گوگل به ارمغان می آورند برگردانده می شوند ]1[. این یک مسئله چالش برانگیز در تحلیل داده های بزرگ نیز است. کلان داده ها برای کار کردن بسیار بزرگ هستند و بنابراین یک کار بزرگ برای تجزیه و تحلیل کلان داده ها انجام می شود. تکنولوژی های موجود در تجزیه و تحلیل کلان داده ها به سرعت در حال تکمیل شدن هستند و به طور قابل توجهی علاقه زیادی به رویکردهای تحلیلی مانند هادوپ، نگاشت کاهش و Hive و توسعه نگاشت کاهش در برابر ارتباط DBMS دارند.

استفاده از چارچوب نگاشت کاهش به طور گسترده در جهت مقابله با کلان داده ها بسیار موثر بوده است. در چند سال گذشته، نگاشت کاهش به عنوان رایج ترین نمونه محاسباتی موازی، تحلیل کلان داده ها به نظر می-رسید.

کارهای مرتبط

کلان داده ها به اشکال مختلف مجموعه ای از داده های بزرگ اشاره دارد و این کلان داده ها نیاز به سیستم های محاسباتی خاصی دارند تا تحلیل شوند. برای تجزیه و تحلیل کلان داده ها کارهای زیادی مورد نیاز است. اما، امروزه برای تجزیه و تحلیل چنین کلان داده هایی مسائل چالش برانگیز نیز وجود دارد. چارچوب نگاشت کاهش به تازگی توجه زیادی را برای چنین داده های گسترده ای را به کار می برد. نگاشت کاهش یک مدل برنامه نویسی و پیاده سازی مرتبط با پردازش و تولید مجموعه کلان داده ها می باشد و به طیف گسترده ای از وظایف در دنیای واقعی پاسخ می دهد ]9[. نگاشت کاهش نمونه ای از ویژگی برنامه نویسی موازی را به سادگی ارائه می دهد. در عین حال، متوازن کننده و ظرفیت تحمل پذیری خطا به همراه این ویژگی ها ارائه می شود ]10[. سیستم فایل گوگل (GFS) معمولا تحت عنوان یک سیستم نگاشت کاهش داده های توزیع شده را به صورت کارآمد و با قابلیت اطمینان ذخیره می کند و برنامه های کاربردی را در یک سیستم پایگاه داده بزرگ را که مورد نیاز است ارائه می دهد ]11[. نگاشت کاهش از طریق عنصر اولیه نگاشت و کاهش در توابع زبان های برنامه کاربردی انجام می شود ]12[. در حال حاضر برخی از پیاده سازی ها قابل دسترس هستند: اشتراک سیستم چند هسته ای با حافظه ]13[، پردازنده های چند هسته ای نامتقارن، پردازنده های گرافیکی، و خوشه ای ماشین های شبکه ]14[. تکنولوژی نگاشت کاهش گوگل امکان توسعه  برنامه های توزیع شده در مقیاس وسیع را به شیوه ای ساده تر و با هزینه کم را فراهم می کند. ویژگی اصلی مدل نگاشت کاهش این است که قادر است کلان داده ها را به صورت موازی که در میان گره های مختلف توزیع شده است پردازش کند ]15[. نرم افزار نوین نگاشت کاهشی یک سیستم اختصاصی گوگل است و بنابراین برای استفاده از منابع باز قابل دسترس نیست. محاسبات توزیع شده نظریه عناصر اولیه نگاشت و کاهش را ساده می کند، سپس به زیرساخت عملکرد مورد نظر که غیربدیهی است دسترسی پیدا می کند ]16[. یک زیرساخت کلیدی دارای نگاشت کاهش گوگل، سیستم فایل توزیع شده است و با قابلیت اطمینان بالا به داده ها دسترسی پیدا می کند ]9[. با ترکیب روش زمانبندی نگاشت کاهش و سیستم فایل توزیع شده، می توان به راحتی به محاسبات توزیع شده به صورت موازی که بیش از هزاران گره محاسباتی دارد دست یافت؛ و پردازش داده ها را در مقیاس ترابایت و پتابایت و همچنین قابلیت اطمینان و بهینه سازی سیستم توزیع شده را می توان بهبود داد. ابزار نگاشت کاهش در بهینه-سازی داده ها بسیار کارآیی دارد و دارای قابلیت اطمینان نیز است به این دلیل که زمان دسترسی به داده ها یا بارگیری از آنها را 50 تا کاهش می دهد ]16[. گوگل اولین روش تکنیک نگاشت کاهش را تعمیم می دهد ]17[. تکنولوژی نگاشت کاهش که اخیرا معرفی شده است از جامعه علمی نشات می گیرد و کلان داده های بزرگ را تجزیه و تحلیل می کند ]18[. هادوپ یک برنامه منبع باز از مدل برنامه نویسی نگاشت کاهش است و به سیستم فایل توزیع شده هادوپ (HDFS) متکی است. اما سیستم فایل گوگل (GFS) وابسته نیست. HDFS بلوک های داده ای را با قابلیت اطمینان بالا در گره های مختلف قرار می دهد و آن ها را کپی می کند و سپس محاسبات را بعد از هادوپ در این گره ها انجام می دهد. HDFS شبیه به سیستم های دیگر است اما طوری طراحی شده است که در برابر خطا بسیار مقاوم است. سیستم فایل توزیع شده (DFS) هیچ سخت افزار بالایی ندارد و می تواند در رایانه ها و نرم افزارها اجرا شود. همچنین مقیاس پذیر نیز است و یکی از اهداف اصلی طراحی در اجرا است. همانطور که مشخص شد HDFS مستقل از هرگونه سیستم عامل سخت افزار و نرم افزار است، بنابراین در سیستم های ناهمگن به راحتی قابل حمل هستند ]19[. دستاورد بزرگی که توسط نگاشت کاهش حاصل شده است باعث شبیه سازی هادوپ که یک برنامه منبع باز می باشد شده است. هادوپ یک چارچوب منبع باز است که نگاشت کاهش را اجرا می کند ]20[. این یک مدل برنامه نویسی موازی است که از یک موتور نگاشت کاهش و یک سیستم فایل که سطح کاربر را مدیریت می کند و در میان منابع ذخیره-سازی خوشه تشکیل شده است ]9[. حمل و نقل سراسری سیستم عامل های مختلف-لینوکس، Mac OS/X، FreeBSD، سولاریس و ویندوز- هر دو در جاوا نوشته شده اند و فقط نیاز به سخت افزار کالا دارند.

اهمیت کلان داده ها

سازمان ها باید سیستم عامل محاسباتی تحقیقاتی خود را برای بهبود بخشیدن مقادیر کامل کلان داده ها ایجاد کنند. این کار کاربران را قادر می سازد تا از ساختار تجزیه و تحلیل کلان داده ها برای استخراج داده های مفید که به راحتی قابل کشف هستند را استفاده کنند. اهمیت کلان داده ها را می توان به صورت زیر توصیف کرد:

1) کلان داده ها باعث انگیزه در یک اصطلاح می شوند.

2) این افزایش و مشهوری از هر دو کاربر تجارت و صنعت فناوری اطلاعات به دست می آیند.

3) از دیدگاه تجزیه و تحلیل هنوز هم تراکم کاری و راه حل های مدیریتی که قبلا نمی توانستند از هزینه/یا محدودیت ها پشتیبانی کنند نشان داده شده اند.

4) راه حل ها قادر هستند تصمیم گیری  هوشمندتری را که زمان بیشتری را برای تحلیل تکنولوژی و محصولات صرف کنند ارائه دهند.

5) تجزیه و تحلیل داده ها در چندین ساختار تصمیم گیری های هوشمندانه ای را می توانند اتخاذ کنند. تا به امروز، این نوع داده ها برای پردازش های پیچیده از تجزیه و تحلیل سنتی تکنولوژی های پردازش استفاده می-کرده است.

6) تصمیم گیری های سریع قابلیت فعال بودن را دارند به این دلیل که راه حل های کلان داده ها از تجزیه و تحلیل سریع داده های دقیق با حجم بالا پشتیبانی می کنند.

7) در نظر گرفتن زمان سریع امکان پذیر است به این دلیل که سازمان ها می توانند داده های خارج از انبار داده های سازمانی را پردازش و تجزیه و تحلیل کنند.

تنظیم مسائل

هادوپ: یاهو! اولین عامل اصلی در سال 2006 شده است آپاچی هادوپ شامل چندین مولفه است. مواردی که در یک پایگاه داده و پردازش تحلیلی مورد توجه هستند عبارتند از [23]:

سیستم فایل توزیع شده هادوپ (HDFS)، نگاشت کاهش، Pig، Hive، Hbase، اسکوپ

HDFS می تواند یک منبع یا سیستم فایل برای برنامه های نگاشت کاهش باشد. این بهترین درخواست برای فایل های بسیار بزرگ می باشد. استفاده از داده های تکراری برای دسترسی به داده ها در HDFS امکان پذیر است. اما این باعث افزایش ذخیره سازی مورد نیاز برای مقابله با داده ها می شود. چارچوب نگاشت کاهش هادوپ به توزیع نگاشت فرآیند کمک می کند بنابراین داده هایHDFS به برنامه محلی نیاز پیدا می کنند. برای پردازش، تمام فایل های خروجی ایجاد می شوند و توسط فرآیند نگاشت و برنامه کاهش بیشتر حرکات و دسترسی به داده های گره داخلی را انجام می شوند. در زمان اجرا، هر دو برنامه نگاشت و کاهش ، داده های انجام شده را به سیستم فایل محلی ارسال می کنند تا بتوانند از سربارگذاری تکرار HDFS جلوگیری کنند. HDFS از خوانندگان متعدد و یک نویسنده(MROW) پشتیبانی می کند. مکانیسم شاخص درHDFS قابل دسترس نیست، از این رو، برای خواندن برنامه ها به منظور اسکن محتوای کامل یک فایل مناسب و بهتر است. درHDFS، محل واقعی داده ها برای برنامه ها و نرم افزار خارجی شفاف است.

معماری HDFS

معماری HDFS شامل گره های ارباب/برده است و گره ارباب گره نام و گره برده گره داده نام دارد. HDFS فقط شامل تک گره نام ارباب و تعداد زیادی گره داده (برده) در میان خوشه و معمولا در هر گره است. HDFS یک فضای نامی (شبیه بسته ای در جاوا) را برای ذخیره داده های کاربران اختصاص می دهد. یک فایل ممکن است به یک یا چند بلوک داده تقسیم شود و این بلوک های داده ممکن است در مجموعه ای از گره های داده نگهداری شوند. گره نام اطلاعات ضروری فراداده را که در مورد نحوه اتصال بلوک ها به یکدیگر است و نحوه ذخیره بلوک ها در گره نام را نشان می دهد. نیازهایی که توسط کلاینت برای خواندن و نوشتن سیستم فایل ساخته شده بودند به صورت مستقیم توسط گره داده پردازش شده بودند، در حالی که عملیات فضای نام مانند باز کردن، بستن و تغییر نام دایرکتوری ها توسط گره های نام انجام می شود. مسئولیت های گره نام و گره-های داده باید مربوط به فعالیت های خاصی مانند ایجاد بلوک داده، تکرار و حذف باشد [20]. معماری HDFS (سیستم فایل توزیع شده هادوپ) در زیر نشان داده شده است.

آزمایشات

نوشتن برنامه کاربردی نگاشت کاهش هادوپ

بهترین راه برای درک و کار کردن با هادوپ این است که از طریق فرآیند نوشتن برنامه، نگاشت کاهش هادوپ پیاده سازی شود. ما با یک برنامه ساده نگاشت کاهش کار می کنیم و این برنامه می تواند بسیاری از رشته ها را معکوس کند. مثالی که در زیر ارائه شده است از طریق تعدادی از مراحل ابتدا تمام داده ها را به گره های مختلف تقسیم می کند، عملیات را انجام می دهد تا داده ها معکوس شوند و نتیجه رشته ها را باهم مرتبط می-سازد و سپس نتایج را تولید می کند. این نرم افزار فرصتی را برای بررسی تمام مفاهیم اصلی هادوپ فراهم می کند. ابتدا، ما در مراحل زیر نگاهی به اعلان و وارد کردن بسته می اندازیم. بسته در کلاس رشته ایcom.javaworld.mapreduce قرار دارد. این را می توان در دو مجموعه به صورت زیر نشان داد:

اولین مجموعه اعلان ها برای کلاس های استاندارد جاوا است و دومین مجموعه برای پیاده سازی نگاشت کاهش است. بازخوانی کلاس با توسعهorg.apache.hadoop.conf.Configured و اجرای رابطorg.apache.hadoop.until.Tool آغاز می شود.

نگاشت و کاهش

حالا شما می توانید به پیاده سازی نگاشت کاهش واقعی پرش پیدا کنید. دو کلاس داخلی عبارتند از: نگاشت: شامل عملکردی برای پردازش جفت های کلیدی ورودی به منظور تولید جفت خروجی کلیدی است.

مشارکت ما

به تازگی، در برخی از آزمایشات کشف شده است که برنامه های کاربردی ای که از هادوپ استفاده می کرده اند در مقایسه با برنامه های مشابه که از پایگاه داده های موازی استفاده می کرده اند کارایی کمتری دارند. هدف اصلی ما این است که بهینه سازیHDFS و به طور قابل توجهی عملکرد کلی چارچوب نگاشت کاهش را که باعث افزایش کارایی کل برنامه های نگاشت کاهش در هادوپ می شود را فراهم کنیم. ممکن است نتیجه نهایی نگاشت کاهش در مقابل پایگاه داده موازی هیچ تغییری نداشته باشد، با این حال رویکرد جدید هادوپ و نگاشت کاهش مطمئنا امکان مقایسه دقیق تر مدل های برنامه نویسی را فراهم خواهد کرد. اگرچه هادوپ قابلیت-های داخلی را برای نمایش نگاشت و کاهش فراهم می کند، با این حال هیچ ابزار ساخته شده ای برای تنظیم چارچوب، که بتواند موانع عملکرد را بدون انعطاف نگه دارد وجود ندارد. این مقاله تعاملات بین هادوپ و ذخیره سازی را بازیابی می کند. در اینجا، ما بسیاری از موانع عملکرد را که به طور مستقیم به کد برنامه مربوط نمی شود (یا سبک برنامه نویسی نگاشت کاهش)، بلکه به واسط زمانبندی کار و سیستم های توزیع شده تمام برنامه های هادوپ مربوط می شود را توضیح دادیم. HDFS همزمان می تواند به طور قابل توجهی با استفاده از برنامه ورودی/خروجی زمانبندی شود و می تواند حفظ قابلیت حمل و نقل را بهبود ببخشد. بهبودهای بیشتر می توانند با کاهش پراکندگی و حافظه نهان و کاهش هزینه قابل حمل انجام شوند. هادوپ از قابلیت انتقال برای پشتیبانی کاربران و کاهش پیچیدگی نصب و راه اندازی استفاده می کند. این نتایج نمونه ای گسترده از محاسبات موازی است.

نتیجه گیری

کلان داده ها و فناوری ها می توانند مزایای قابل توجهی را برای کسب و کار به ارمغان بیاورند. اما استفاده های فوق العاده از این تکنولوژی ها برای یک سازمان و برای کنترل مجموعه های ناهمگن داده ها به منظور بررسی بیشتر بسیار دشوار است. اثرات چندگانه استفاده از کلان داده ها وجود دارند. برای روبرو شدن با رقابت های شدید شرکت های خصوصی، آنها از یک پتانسیل بزرگ پشتیبانی کردند. بعضی از جنبه ها نیاز به پیگیری دارند تا ما بتوانیم نتایج را به موقع از کلان داده ها بدست آوریم، به این دلیل که استفاده دقیق از کلان داده ها می-تواند به گسترش، نوسازی و اثربخشی کل بخش ها منجر شود. برای اینکه بتوانید مزایای کلان داده ها را استخراج کنید، این بسیار مهم است که بدانید مدیریت و استفاده مجدد از منابع داده از جمله تاثیر داده های کانتری و ایجاد برنامه های کاربردی و مورد اطمینان چگونه حاصل می شوند. مهم این است که بهترین روش را به منظور استفاده از فیلتر کردن/و یا تجزیه و تحلیل داده ها ارزیابی کنید. برای پردازش تحلیلی بهینه سازی، هادوپ با نگاشت کاهش مورد استفاده قرار می گیرد. در این مقاله، ما اصول برنامه نویسی نگاشت کاهش را با چارچوب هادوپ منبع باز ارائه کردیم. این یک چارچوب فوق العاده از سرعت پردازش مقادیر زیادی از داده های هادوپ است که از طریق پروسه های توزیع شده و پاسخ های بسیار سریع ارائه می شود. این می تواند برای رفع نیازهای مختلف توسعه مورد پذیرش قرار گیرد و می تواند با افزایش تعداد گره های موجود به منظور پردازش مقیاس پذیری شود. قابلیت امتداد و سادگی چارچوب، و متمایزکننده های کلیدی که یک ابزار امیدوار کننده است را برای پردازش داده ها ایجاد می کند.

این مقاله ISI در سال 2022 در نشریه الزویر و در مجله پروسدیا علوم کامپیوتر، توسط علوم کامپیوتر و انگ منتشر شده و در سایت ای ترجمه جهت دانلود ارائه شده است. در صورت نیاز به دانلود رایگان اصل مقاله انگلیسی و ترجمه آن می توانید به پست دانلود ترجمه مقاله تجزیه و تحلیل ساده شده کلان داده در سایت ای ترجمه مراجعه نمایید.

مقاله کلان دادهمقاله داده کاویمقاله نگاشت کاهشمقاله هادوپمقاله HDFS
خدمات ارائه مقالات علمی و سفارش ترجمه تخصصی
شاید از این پست‌ها خوشتان بیاید