نوشته های bdbanalytic

نوشته های bdbanalytic https://virgool.io/feed/@bdbanalytic گروه تحلیلگری عظیم داده و کسب و کار www.bdbanalytics.ir fa 2026-04-15 10:09:35 https://files.virgool.io/upload/users/9172/avatar/csbh1G.png?height=120&width=120 bdbanalytic https://virgool.io/@bdbanalytic معرفی ابزار: Apache Druid https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-apache-druid-htqvgh4rru6f ابزار Apache Druid یک پایگاه داده تحلیلی بلادرنگ است که برای پردازش تحلیلی آنلاین (OLAP)در مجموعه داده‌های بزرگ طراحی شده است. اغلب Druid در مواردی استفاده می‌شود که در آن ورود داده بلادرنگ، عملکرد سریع کوئری و زمان مهم است. Druidمعمولاً به‌عنوان پایگاه داده backend برای رابط‌های کاربری گرافیکی اپلیکیشن‌ها تحلیلی یا برای APIهای همزمان که نیاز به تجمیع سریع دارند، استفاده می‌شود. Druidبا داده‌های رخداد محور عملکرد بهتری دارد.زمینه‌های کاربردی رایج برای Druidعبارتند از:• تحلیل جریان کلیک از جمله تحلیل وب و موبایل• تحلیل تله‌متری شبکه از جمله نظارت بر عملکرد شبکه• ذخیره‌سازی متریک‌های سرور• تحلیل زنجیره تامین از جمله متریک‌های تولید• متریک‌های عملکرد اپلیکیشن• تحلیل بازاریابی/تبلیغات دیجیتال• هوش کسب و کار/OLAPویژگی های کلیدی Druidمعماری اصلی Druidایده‌هایی از انبارهای داده، پایگاه‌های داده سری زمانی و سیستم‌های جستجوی لاگ را ترکیب می‌کند. برخی از ویژگی های کلیدی Druid عبارتند از:1. قالب ذخیره سازی ستونی (columnar). Druid از ذخیره سازی ستونی استفاده می‌کند. این بدان معنی است که فقط ستون‌های مورد نیاز برای یک کوئری خاص را load می‌کند. این امر به میزان زیادی سرعت کوئری‌هایی را که تنها چند ستون را بازیابی می‌کنند، بهبود می‌بخشد. علاوه بر این، برای پشتیبانی از اسکن‌ها و تجمیع‌های سریع، Druid ذخیره‌سازی ستون را برای هر ستون با توجه به نوع داده آن بهینه می‌کند.2. سیستم توزیع شده مقیاس پذیر. استقرارهای Druid معمولی شامل خوشه‌هایی از ده ها تا صدها سرور می‌شود. Druid می‌تواند داده‌ها را با نرخ میلیون‌ها رکورد در ثانیه دریافت کند، در حالی که تریلیون‌ها رکورد را حفظ کرده و تاخیرهای کوئری را از کسری از ثانیه تا چند ثانیه حفظ می‌کند.3. پردازش موازی. Druidمی‌تواند هر کوئری را به صورت موازی در کل خوشه‌ پردازش کند.4. مصرف بلادرنگ یا دسته‌ای. Druid می‌تواند داده‌ها را در زمان واقعی یا به صورت دسته‌ای دریافت کند. داده‌های دریافت شده بلافاصله برای کوئری زدن در دسترس هستند.5. بازیابی، ایجاد تعادل خودکار و آسانی استفاده. با اضافه و کم نمودن سرورها جهت مقیاس‌پذیری، خوشه Druidخود را به طور خودکار بدون هیچ‌گونه خطا متعادل می‌کند. اگر یک سرور Druidاز کار بیفتد، سیستم به طور خودکار داده‌ها را تا زمانی که سرور جایگزین شود، هدایت می‌کند. Druidبه گونه ای طراحی شده است که به هر دلیلی بدون توقف برنامه ریزی شده به طور مداوم اجرا شود. این موضوع در مورد تغییرات پیکربندی و به‌روزرسانی نرم افزار صدق می‌کند.6. معماری ابری و مقاوم در برابر خطا که داده‌ها را از دست نمی‌دهد. Druid یک کپی از داده‌ها را ذخیره می‌کند. این ذخیره‌سازی معمولاً ذخیره‌سازی ابری، HDFS یا یک فایل سیستم مشترک است. به این ترتیب حتی اگر همه سرورهای Druidاز کار بیفتد، اطلاعات از این فضای ذخیره‌سازی قابل بازیابی است. برای یک خرابی محدود که فقط بر تعداد کمی از سرورهای Druid تأثیر می‌گذارد، این تکرار داده‌ها، امکان کوئری زدن در طول بازیابی سیستم را تضمین می‌نماید.7. ایندکس‌هایی برای فیلتر کردن سریع. Druid از ایندکس‌های bitmap فشرده Roaring یا CONCISEبرای ایجاد اندیس‌هایی جهت فعال کردن فیلتر کردن سریع و جستجو در چندین ستون استفاده می‌کند.8. پارتیشن‌بندی مبتنی بر زمان. Druid ابتدا داده‌ها را بر اساس زمان پارتیشن‌بندی می‌کند. با این حال می‌توان به صورت اختیاری پارتیشن‌بندی اضافی را بر اساس فیلدهای دیگر پیاده سازی نمود. کوئری‌های مبتنی بر زمان فقط به پارتیشن‌هایی دسترسی دارند که با محدوده زمانی کوئری مطابقت دارند که منجر به بهبود عملکرد قابل توجهی می‌شود.9. الگوریتم‌های تقریبی. Druidشامل الگوریتم‌هایی برای تعداد تقریبی متمایز، رتبه‌بندی تقریبی، و محاسبه هیستوگرام‌ها و چندک‌های تقریبی است. این الگوریتم‌ها استفاده محدود از حافظه را ارائه می‌دهند و اغلب به طور قابل توجهی سریع‌تر از محاسبات دقیق هستند. برای موقعیت‌هایی که دقت مهم‌تر از سرعت است، Druid همچنین رتبه‌بندی و تعداد متمایز دقیق را ارائه می‌کند.10. خلاصه‌سازی خودکار در زمان مصرف. Druid به صورت اختیاری از خلاصه‌سازی داده‌ها در زمان مصرف پشتیبانی می‌کند. این خلاصه تا حدی داده‌ها را از قبل جمع می‌کند، که به طور بالقوه منجر به صرفه جویی قابل توجه در هزینه و افزایش عملکرد می‌شود.موارد استفاده از Druid :Druid توسط بسیاری از شرکت‌ها در اندازه‌های مختلف برای موارد استفاده مختلف استفاده می‌شود. اگر مورد استفاده با موارد زیر مطابقت داشته باشد، Druid احتمالاً انتخاب خوبی است:• نرخ درج بسیار بالا است، اما به‌روزرسانی کمتر است.• اکثر کوئری‌ها عبارتند از کوئری‌های تجمیع و گزارش. به عنوان مثال کوئری‌های group by.• تأخیرهای کوئری از 100 میلی ثانیه تا چند ثانیه.• داده‌ها دارای یک جزء زمان است. Druidشامل بهینه‌سازی‌ها و انتخاب‌های طراحی به طور خاص مربوط به زمان است.• ممکن است بیش از یک جدول داشته باشیم، اما هر کوئری فقط روی یک جدول توزیع شده بزرگ انجام می‌شود. کوئری‌ها ممکن است به طور بالقوه بر روی بیش از یک جدول lookup کوچکتر اعمال شود.• ستون‌های داده با کاردینالیتی بالا. به عنوان مثال URLها، IDهای کاربر و نیاز به شمارش سریع و رتبه بندی بر روی آنها•در موارد load داده‌ها از Kafka، HDFS، فایل‌های فلت، یا ذخیره‌سازی آبجکت مانند Amazon S3در موارد زیر Druidمناسب نیست:• به‌روزرسانی رکوردهای موجود با استفاده از کلید اصلی با تأخیر پایین. Druid از درج‌ داده‌های جریان پشتیبانی می‌کند، اما به‌روزرسانی‌های جریانی را پشتیبانی نمی‌کند.• سیستم گزارش‌دهی آفلاین که در آن تأخیر کوئری چندان اهمیتی ندارد.• انجام join‌های بزرگ میان جداول فکت در زمانی که تأخیر کوئری اهمیت چندانی نداشته باشد.www.bdbanalytics.ir@BigData_BusinessAnalyticshttps://www.instagram.com/dr.saeedrouhani bdbanalytic bdbanalytic Sat, 12 Feb 2022 17:58:19 +0330 معرفی ابزار Apache NIFI https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-apache-nifi-w0sqijjpyivt ابزار NIFI به زبان ساده، برنامه‌ای است که برای خودکارسازی جریان داده‌ها بین سیستم‌ها ساخته شده است. در حالی که اصطلاح "Dataflow" در زمینه‌های مختلف مورد استفاده قرار می‌گیرد، منظور ما از آن همان جریان خودکار و مدیریت شده اطلاعات بین سیستم‌ها می‌باشد. مشکل فضای ذخیره‌سازی داده‌ها از زمانیکه شرکت‌ها دارای بیش از یک سیستم بوده‌اند بوجود آمده است، جایی که برخی از سیستم‌ها تولید کننده داده و برخی از سیستم‌های مصرف کننده آن می‌باشند. مشکلات این گونه فضاها و الگوهای راه حل آنها، به طور گسترده مورد بحث و تفسیر قرار گرفته است. راه حل جامع در الگوهای ادغام سازمانی [EIP] یافت می‌شود.برخی از چالش‌های جریان داده‌ها عبارتند از:مشکلات سیستم‌ها مانند مشکل شبکه‌ها، خرابی دیسک، اشتباه افرادمیزان درخواست به داده‌ها از ظرفیت شبکه بیشتر می‌شودخود داده‌ها دچار مشکل می‌باشند مانند خرابی، بزرگی یا کوچکی بیش از حد و اشتباه در داده‌هاتغییر مداوم جریان داده سازمان‌هاتغییر و تحول مداوم سیستم‌هاتغییر مقررات و قوانین و رویه‌هادر طول سال‌ها، طراحی جریان داده‌ها یکی از مشکل‌ترین مباحث در معماری سازمان بوده است. در این میان ابزارهای گوناگونی برای مدیریت این جریان بوجود آمده‌اند مانند؛ معماری خدمات‌گرا [SOA]، ظهور رابط‌های کاربری API، اینترنت اشیاء [IOT] و عظیم‌داده [BigData]. NiFi برای کمک به مقابله با چالش‌های مدرن جریان داده ساخته شده است.مفاهیم اصلی NIFIاین مدل از طراحی، شرایطی را فراهم می‌کند که به NIFI کمک می‌کند تا بعنوان یک پلت‌فرم بسیار موثر برای ساخت داده‌های قدرتمند و مقیاس‌پذیر عمل کندFlowFile: نشان دهنده هر شیء درون سیستم بوده و نای فای با یک رشته کلید/ مقدار آن را شناسایی می‌کندFlowFile Processor: پردازنده‌ها در واقع کار را انجام می‌دهند. یک پردازنده ترکیبی از مسیریابی، تبدیل داده یا میانجیگری بین سیستم‌ها را انجام می‌دهد.Connection: ارتباط میان پردازنده‌ها با این آیتم صورت می‌گیردFlow Controller: به عنوان تسهیل کننده تبادل میان پردازنده‌ها و فایل‌ها عمل می‌کندProcess Group: مجموعه‌ای خاص از فرآیندها و اتصالات آنها است که می‌تواند داده‌ها را از طریق پورت‌های ورودی دریافت کند و از طریق پورت‌های خروجی ارسال کندمعماری NIFINIFI در یک JVM بر روی سیستم عامل میزبان اجرا می‌شود. اجزای اصلی NiFi در JVM به شرح زیر است:وب سرور: هدف از سرور وب، میزبانی از HTTP و کنترل API مبتنی بر NIFI است.کنترل کننده جریان: کنترل کننده جریان مغز عملیات بوده و جریان داده‌ها را مدیریت می‌کند.پسوند: انواع مختلفی از افزونه‌های NIFI وجود دارد که در سایر اسناد وجود دارندمخزن FlowFile: مخزن Flowfile جایی است که NIFI وضعیت جریان داده‌های فعال را پیگیری و مدیریت می‌کند.مخزن محتوا: مکان اصلی محتوای ذخیره سازی داده‌ها می‌باشدمخزن رویدادها یا Provennance: جایی که تمام رویدادها و تغییرات اعمال شده بر روی جریان داده‌ها را ذخیره می‌کند.NiFi همچنین قادر به کار در یک ساختار خوشه‌ای است. شکل زیر این نوع ساختار را نشان می‌دهد.از همان زمان انتشار 1.0 NiFi، یک پارادایم خوشه‌بندی در آن استفاده شده است. هر نود در یک خوشه از NiFi وظایف مشابه، اما بر روی مجموعه‌های مختلف از داده‌ها را اعمال می‌کند. Apache Zookeeper یک نود از خوشه را به عنوان هماهنگ کننده خوشه انتخاب می‌کند و عملیات Failover به طور خودکار توسط ZooKeeper اداره می‌شود. تمام نودهای خوشه، داده‌ها و وضعیت را به هماهنگ کننده خوشه گزارش می‌دهند. هماهنگ کننده خوشه مسئول قطع و اتصال نودها است. علاوه بر این، هر خوشه دارای یک نود اصلی می‌باشد که آن نیز توسط ZooKeeper انتخاب شده است. به عنوان یک مدیر جریان داده، شما می‌توانید با کلاستر NiFi از طریق رابط کاربر (UI) هر گره ارتباط برقرار کنید. هر گونه تغییری که شما انجام می‌دهید، به تمام نود ها در خوشه تکرار می‌شود، که اجازه می‌دهد چندین نقطه ورود را به دست آورید.به طور کلی NIFI به گونه‌ای طراحی شده است که با داده‌های در حجم بسیار بالا نیز کار کرده و جریان داده‌ها را بخوبی مدیریت می‌کند. اگر در راهبری جریان داده‌های خود بدنبال یک ابزار مناسب هستید NIFI می‌تواند بعنوان یک گزینه انتخاب گردد.www.bdbanalytics.ir@BigData_BusinessAnalyticshttps://www.instagram.com/dr.saeedrouhani bdbanalytic bdbanalytic Mon, 15 Mar 2021 11:10:19 +0330 معرفی ابزار: Apache HCatalog https://virgool.io/dataio/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-apache-hcatalog-kuoqbncpdozs ابزار HCatalog یک لایه مدیریت جداول و ذخیره‌سازی برای هدوپ است که به کاربران با ابزارهای پردازش داده‌های مختلف مانند Pig و MapReduce امکان خواندن و نوشتن راحت‌تر داده‌ها در شبکه را فراهم می‌کند. توانایی استخراج و تلخیص جداول در HCatalog دیدی رابطه‌ای از داده‌ها را در سیستم فایل توزیع شده هدوپ (HDFS) به کاربران ارائه می‌کند و به مسائل ونگرانی کاربران درباره اینکه داده‌ها از کجا یا در چه قالبی ذخیره می‌شوند - قالب RCFile، فایل‌های متنی، SequenceFiles یا فایل‌های ORC – پاسخ می‌دهد.HCatalog از خواندن و نوشتن فایل‌ها در هر قالبی پشتیبانی می‌کند. به طور پیش فرض، HCatalog از فرمت‌های فایل RCFile ، CSV ، JSON، SequenceFile و ORC پشتیبانی می‌کند. برای استفاده از قالب سفارشی، باید InputFormat ، OutputFormat و SerDe را ارائه دهید.معماری HCatalogHCatalog بر روی ساختار داده‌ای Hive ایجاد شده و دستورات ایجاد و تغییر داده‌ها در Hive را پشتیبانی می‌کند. HCatalog رابط‌های خواندن و نوشتن داده‌ها در Pig و MapReduce را نیز فراهم می‌کند و از رابط خط فرمان Hive برای صدور دستورات تعریف داده و کشف متادیتا استفاده می‌کند.رابط HCatalog برای Pig از HCatLoader و HCatStorer تشکیل شده است که به ترتیب رابط بارگیری و ذخیره داده‌ها در Pig را پیاده‌سازی می‌کنند. HCatLoader جدولی را برای خواندن داده‌ها می‌پذیرد. می‌توانید مشخص کنید که کدام پارتیشن‌ها را اسکن کنید و بدنبال آن بلافاصله دستور load را با یک عبارت فیلتر پارتیشن مورد نظر بکار ببرید. HCatStorer جدولی را برای نوشتن انتخاب کرده و به صورت اختیاری مشخصات کلیدهای پارتیشن مورد نظر را برای ایجاد یک پارتیشن جدید می‌پذیرد.مدل دادهHCatalog دیدی رابطه‌ای از داده‌ها را ارائه می‌دهد. داده‌ها در جداول ذخیره می‌شوند و این جداول می‌توانند در پایگاه داده قرار گیرند. جداول همچنین می‌توانند بر روی یک یا چند کلید به صورت hash تقسیم شوند. یعنی برای یک مقدار مشخص از یک کلید (یا مجموعه‌ای از کلیدها) یک پارتیشن وجود دارد که شامل تمام ردیف‌های دارای آن مقدار (یا مجموعه‌ای از مقادیر) است. به عنوان مثال، اگر یک جدول بصورت توالی تاریخی تقسیم شده باشد و سه روز داده در جدول وجود داشته باشد، در این جدول سه پارتیشن وجود دارد. پارتیشن‌های جدید را می‌توان به یک جدول اضافه کرد یا می‌توان از یک جدول حذف کرد. جداول پارتیشن‌بندی شده در زمان ایجاد هیچ پارتیشنی ندارند. جداول تقسیم نشده به طور موثر دارای یک پارتیشن پیش فرض هستند که باید در زمان ایجاد جدول ایجاد شوند.مثالی از جریان داده‌هااین مثال ساده جریان داده را نشان می‌دهد که چگونه HCatalog می‌تواند به کاربران شبکه کمک کند داده‌ها را به اشتراک بگذارند و به آنها دسترسی پیدا کنند.داده ها را در شبکه کپی کنیددر دستیابی به داده‌ها از distcp برای وارد کردن داده ها به شبکه استفاده می‌کنید. همانطور که مشاهده می‌کنید با دستورdistcp فایل مورد نظر را به محیط فایل سیستم هدوپ کپی کرده و می‌توانید جداول مربوطه را ایجاد و تغییرات لازم را بر روی جداول اعمال کنیدhadoop distcp file:///file.dat hdfs://data/rawevents/20100819/datahcat "alter table rawevents add partition (ds='20100819') location 'hdfs://data/rawevents/20100819/data'"داده‌ها را آماده کنیدمثلا اگر بخواهید از Pig برای پاکسازی و آماده کردن داده‌ها استفاده کنید در صورتی که از HCatalog استفاده نکنید به هنگام بارگذاری داده‌ها باید منتظر باشید و اطمینان حاصل کنید که داده‌ها بارگذاری شده و در محیط هدوپ موجود هستند اما با استفاده ازHCatalog خود برنامه بعد از بارگذاری کامل داده‌ها یک پیغام اتمام ارسال کرده و Pig می‌تواند عملیات خود را آغاز کند.A = load 'rawevents' using org.apache.hive.hcatalog.pig.HCatLoader();B = filter A by date = '20100819' and by bot_finder(zeta) = 0;...store Z into 'processedevents' using org.apache.hive.hcatalog.pig.HCatStorer("date=20100819");تحلیل داده‌هافرض کنیم بخواهید از Hive برای تحلیل داده‌های مشتریان استفاده کنید. در اینصورت و بدون استفاده از HCatalog باید خود شما جداول مورد نظر را تغییر داده و پارتیشن‌های مورد نیاز را ایجاد کنید.alter table processedevents add partition 20100819 hdfs://data/processedevents/20100819/data select advertiser_id, count(clicks)from processedeventswhere date = '20100819'group by advertiser_id;اما با استفاده از HCatalog دیگر نیازی به این کار نداشته و فقط به تحلیل و کوئری زدن بر روی داده‌های خود می‌پردازید زیرا پارتیشن‌ها از قبل برای شما ایجاد شده‌اند.select advertiser_id, count(clicks)from processedeventswhere date = '20100819'group by advertiser_id;رابط کاربری تحت وب (HCatalog Web API)WebHCat یک رابط کاربری تحت وب است که امکان کار با محیط HCatalog را فراهم می‌کند. نام اصلی WebHCat تمپلتون بود. کار با این رابط کاربری بسیار آسان بوده و امکانات خوبی را فراهم می‌کند.www.bdbanalytics.ir@BigData_BusinessAnalyticshttps://www.instagram.com/dr.saeedrouhani bdbanalytic bdbanalytic Sat, 10 Oct 2020 19:42:36 +0330 معرفی ابزار KNIME https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-knime-fz2ymuiffm5f ابزار KNIME که مخفف Konstanz Information Miner است یک ابزار منبع باز می‌باشد که برای گزارش‌دهی، ادغام، تحقیق، مدیریت روابط مشتریان، داده کاوی، تجزیه و تحلیل داده‌ها، استخراج متن و هوش کسب و کار استفاده می‌شود. این برنامه از سیستم عامل‌های لینوکس، OS X و ویندوز پشتیبانی می‌کند. این ابزار می‌تواند به عنوان جایگزین مناسبی برای SAS در نظر گرفته شود.نایم یک پلتفرم نرم افزاری از نوع سازمانی می‌باشد که دو ابزار مکمل دارد:1. نرم افزار منبع باز KNIME Analytics برای ایجاد علم دادهیک نرم افزار منبع باز برای ایجاد علم داده است. KNIME با ایجاد تحولات جدید و ادراک نسبت به آنها، باعث می‌شود داده‌ها را بهتر درک کرده و بتوان رویه‌های علم داده را طراحی کرده برای استفاده مجدد در دسترس همگان قرار دهد.2. سرور تجاری KNIME برای تولید علم دادهنایم سرور یک نرم افزار سازمانی برای همکاری تیمی، اتوماسیون، مدیریت و استقرار گردش کار علم داده به عنوان کاربردها و خدمات تحلیلی است. به افراد متخصص می‌توان از طریق KNIME WebPortal دسترسی به علم داده را فراهم کرده یا می‌توان از APIهای REST استفاده کرد.نرم افزار KNIME چگونه می‌تواند در ایجاد و تحلیل داده‌ها به ما کمک کندالف) جمع آوری و شکل‌دهی به داده‌ها از منابع گوناگونعلم داده و تحلیل عظیم داده با دستیابی به همه منابع داده شما آغاز می‌شود. نرم افزار KNIME این امکان را فراهم می‌کند تا در یک محیط دیداری به این منابع داده متنوع متصل شوید. در این محیط، طیف گسترده‌ای از قابلیت‌های مکمل مراحل تبدیل داده‌ها، پاکسازی و جمع آوری داده‌ها را آسان می‌کند.ب) استخراج معنی و مفهوم از داده‌هاایجاد مفهوم از داده‌ها به تکنیک‌های پیشرفته مدل‌سازی و تجسم نیاز دارد. در حال حاضر تجزیه و تحلیل مدرن یادگیری ماشین و هوش مصنوعی را نیز در بر می‌گیرد. با این حال، برای حل برخی از مشکلات، هنوز هم می‌خواهید قادر به دستیابی به روش‌های آماری کلاسیک و روش‌های داده کاوی باشید. به همین دلیل است که به طور مداوم هر دو الگوریتم‌های پیشرفته و روش‌های تحلیلی و بصری تثبیت شده به نرم افزار KNIME اضافه شده است. همراه با ادغام R و Python به علاوه ادغام با سایر پروژه‌های بزرگ منبع باز، می‌توان در یک محیط یکنواخت ابزارهایی را که مورد نظرتان است ترکیب و تطبیق دهید.ج) تیم علوم داده و عظیم داده خود را قادر سازید تا روی ارائه اطلاعات کسب و کار متمرکز شوندنرم افزار KNIME شما را قادر می‌سازد تا از منابع، زمان و منابع فناوری خود به بهترین شکل استفاده کنید تا نیاز تیم و سازمان را برآورده سازید. محیطی را فراهم می‌کند که تیم علوم داده شما را قادر می‌سازد از ابزاری که می‌شناسند استفاده کنند و در پروژه‌های پیچیده همکاری کنند. استقرار و قابلیت‌های مدیریتی تولید برنامه‌های کاربردی و خدمات علوم داده را آسان می‌کند و بینش‌های قابل استفاده، قابل اعتماد و قابل تجدید را برای کسب و کار فراهم می‌کند.د) کسب و کار خود را با عظیم داده متحول کنیدشما می‌دانید که داده ارزش زیادی ارائه می‌دهد اما نمی‌خواهید هفته‌ها منتظر بمانید تا فقط نیمی از بینش‌های مربوطه را دریافت کنید. علاوه بر این، شما می‌خواهید که بتوانید به سرعت بر داده‌ها و روش‌های استفاده شده و برنامه‌ها و خدمات ارائه شده تأثیر بگذارید. نرم افزار KNIME شما را وارد چرخه علوم داده می‌کند، بنابراین می‌توانید بازخورد ارائه دهید و اطمینان حاصل کنید که فرایند علوم داده بلافاصله منعکس کننده الزامات در حال تغییر و یا بینش جدید است.www.bdbanalytics.ir@BigData_BusinessAnalyticshttps://www.instagram.com/dr.saeedrouhani bdbanalytic bdbanalytic Wed, 19 Aug 2020 21:25:29 +0430 معرفی ابزار: Statwing https://virgool.io/dataio/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-statwing-a8io2i51jbd4 Statwing ابزاری ساده برای تحلیل داده‌های آماری است. این تحلیلگر برای عظیم داده ساخته شده است. رابط مدرن آن تست‌های آماری را بطور خودکار انتخاب می‌کند.برخی از امکانات این ابزار شامل موارد ذیل است:داده‌ها را به سرعت و در چند ثانیه کاوش کنید.این ابزار در پاکسازی داده‌ها، کشف روابط و ایجاد نمودارها با سرعت بالا کمک می‌کند.این برنامه اجازه می‌دهد نمودارهایی مانند نمودارهای میله‌ای، هیستوگرام‌ها و سایر نمودارهای مهم را به فرمت اکسل یا پاورپوینت ایجاد نمود.همچنین نتایج را به انگلیسی ساده ترجمه می‌کند، بنابراین تحلیلگرانی که با تحلیل‌های آماری ناآشنا هستند مفاهیم را به سادگی متوجه می‌شوند.در این بخش به برخی از ویژگی‌های این برنامه می‌پردازیم.در چند ثانیه داده‌های خود را کاوش کنیدبه سادگی صفحه گسترده یا مجموعه داده خود را بارگذاری کنید، سپس روابطی را که می‌خواهید کاوش کنید انتخاب کنید. Statwing توسط تحلیلگران و برای خود آنها ساخته شده است، بنابراین می‌توانید داده‌ها را پاک کنید، روابط را کاوش کنید و نمودارها را به جای چند ساعت در عرض چند دقیقه ایجاد کنید. هیچ روش سریع‌تر یا دلنشین‌تری نسبت به این روش برای کار با داده وجود ندارد، حتی اگر شما از قبل متخصص صفحات گسترده بوده باشید.Statwing در مقایسه با صفحه گستردهStatwing فقط برای تجزیه و تحلیل جداول از داده‌ها طراحی شده است، بنابراین کاربران روزها صرف زمان برای تجزیه و تحلیل را در عرض چند دقیقه به پایان می‌رسانند. برای پرسیدن یک سؤال ساده از داده‌ها در صفحه گسترده، و ایجاد و تغییر نمودارها و جداول محوری و نوشتن فرمول‌ها چندین دقیقه طول می‌کشد. اگر داده‌های زیادی دارید، صفحه گسترده تقریبا غیر قابل استفاده هستند.اگر داده‌ها را در یک صفحه گسترده تحلیل می‌کنید و چیزی بیشتر از ()AVERAGE= می‌نویسید، در Statwing بسیار سریع‌تر کار خواهید کرد.Statwing در مقایسه با نرم‌افزارهای آماریStatwing برای تحلیلگران ساخته شده است، بنابراین تست‌های آماری را بطور خودکار انتخاب می‌کند. نرم‌افزارهای آماری سنتی ده‌ها سال پیش برای متخصصان آمار ساخته شده است، بنابراین برای بررسی‌های ساده نیز نیاز به تخصص فنی دارند. برخلاف نرم‌افزارهای سنتی، Statwing داده‌های خارج از محدوده را نیز محاسبه می‌کند، بنابراین همیشه می‌توانید به تحلیل‌های خود اطمینان داشته باشید. Statwing همچنین نتایج را به انگلیسی ساده ترجمه می‌کند، بنابراین تحلیلگران ناآشنا با تحلیل آماری نیز می‌توانند از مزایای آن استفاده کنند.بصری‌سازی سریعStatwing بطور خودکار هر تجزیه و تحلیل را بصری‌سازی می‌کند و امکان گرفتن خروجی را برای PowerPoint امکان پذیر می‌کند. در صفحات گسترده و نرم‌افزارهای آماری، حتی ایجاد نمودارهای ساده نیز به تلاش و زمان زیادی نیاز دارد. Statwing ساختار داده شما را درک می‌کند، بنابراین به طور خودکار histograms ، scatterplots، hotplot و نمودارهای میله‌ای را ایجاد می‌کند که می‌توانید به راحتی به Excel یا PowerPoint وارد کنید.www.bdbanalytics.ir@BigData_BusinessAnalyticshttps://www.instagram.com/dr.saeedrouhani/ bdbanalytic bdbanalytic Wed, 08 Jul 2020 18:57:18 +0430 معرفی ابزار: Apache CouchDB https://virgool.io/dataio/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-apache-couchdb-bcoir6slkqf0 CouchDB چیست؟Apache CouchDB یک پایگاه داده سندی NoSQL منبع باز است که داده‌ها را در قالب‌های اسناد مبتنی بر JSON جمع‌آوری و ذخیره می‌کند. برخلاف بانک‌های اطلاعاتی رابطه‌ای، CouchDB از یک مدل داده بدون طرحواره (Schema) استفاده می‌کند، که مدیریت ثبت داده‌ها را در دستگاه‌های مختلف محاسباتی، تلفن‌های همراه و مرورگرهای وب ساده می‌کند.CouchDB در سال 2005 معرفی شد و سپس در سال 2008 به یک پروژه بنیاد نرم افزار Apache تبدیل شد. به عنوان یک پروژه منبع باز، CouchDB توسط یک جامعه فعال از توسعه دهندگان پشتیبانی می‌شود که بطور مداوم با تمرکز بر سهولت استفاده و پذیرایی از وب، نرم افزار را بهبود می‌بخشند.چرا از CouchDB استفاده می‌کنیم؟برای اکثر شرکت‌ها، تصمیم گیری در مورد استفاده از نوع پایگاه داده هنگام استفاده از فناوری مدیریت داده می‌تواند یک چالش باشد. نرم افزار اختصاصی نه تنها محدودیت صدور مجوز در استفاده از این فناوری را اعمال می‌کند، بلکه هنگام انتقال همه داده‌های سازمانی خود به یک سیستم مدیریت پایگاه داده که مناسب برای هر نوع داده شما باشد، نگرانی‌های مربوط به تداوم تجارت وجود دارد زیرا نمی‌توانیم به طور قطع مطمئن باشیم که تمامی نیازهای ما را بر طرف می‌کند.اما CouchDB متفاوت است. برخلاف نرم افزارهای اختصاصی که معمولاً قفل‌های نرم افزاری دارند، CouchDB منبع باز بوده و برای استفاده رایگان است و به راحتی در زیرساخت‌های مدیریت فعلی داده شما ادغام می‌شود. از آنجا که شما کنترل بیشتری روی نرم‌افزار دارید، همچنین هنگام تطبیق آن با نیازهای منحصر به فرد شغل خود، از انعطاف‌پذیری بیشتری نیز برخوردار هستید. اگر نیاز به یک مخزن داده با هدف کلی داشته باشید که امکان همگام‌سازی کارآمد داده‌ها را فراهم کند، CouchDB انعطاف‌پذیری مورد نیاز شما را برای ایجاد زیرساخت‌های بادوام، قابل اعتماد و مقیاس‌پذیر فراهم می‌کند.فوایدCouchDB انواع مزایای کاربر و توسعه دهنده را ارائه می‌دهد که آن را به یک پایگاه داده بزرگ غیر رابطه‌ای تبدیل می‌کند.مقیاس‌پذیریمعماری CouchDB به گونه‌ای است که هنگام پارتیشن بندی پایگاه داده و مقیاس‌بندی داده‌ها بر روی گره‌های مختلف، آن را بسیار سازگار می‌کند. CouchDB از هر دو بخش‌بندی افقی و همانندسازی داده‌ها برای ایجاد یک راه‌حل ساده چهت تعادل بار خواندن و نوشتن داده‌ها در حین استقرار پایگاه داده پشتیبانی می‌کند.CouchDB دارای یک موتور ذخیره‌سازی بسیار بادوام و قابل اعتماد است که برای زیرساخت‌های چندکاره خوشه‌بندی و توزیع داده‌ها ساخته شده است. به عنوان یک پایگاه داده NoSQL، پایگاه داده CouchDB بسیار قابل تنظیم است و در را برای توسعه برنامه‌های پیش‌بینی شده و عملکرد محور صرف نظر از حجم داده یا تعداد کاربران شما باز می‌کند.بدون قفل بخواندر اکثر بانک‌های اطلاعاتی رابطه‌ای - جایی که داده‌ها در جداول ذخیره می‌شوند - اگر نیاز به بروزرسانی یا تغییر جدول داشته باشید تا زمانی که تغییر در جریان است ردیف‌های مورد نظر قفل شده و قابل خواندن نیستند. این می‌تواند مشکلات دسترسی را برای مشتری و تنگناهای کلی در فرآیندهای مدیریت داده شما ایجاد کند.CouchDB از MVCC (کنترل همزمان چند نسخه) برای مدیریت دسترسی همزمان به بانک‌های داده استفاده می‌کند. این بدان معنی است که فارغ از بارهای فعلی موجود بر بانک اطلاعاتی، CouchDB می‌تواند با سرعت کامل و بدون محدودیت برای کاربران خود اجرا شود. از آنجا که اسناد در CouchDB در زمان واقعی نسخه‌بندی شده و به آن پیوست می‌شوند، تقاضاهای خواندن بانک اطلاعاتی، همیشه صرف نظر از اینکه در ابتدا چه کسی به این استاد دسترسی داشته، آخرین نسخه‌های به‌روز شده در پایگاه داده را مشاهده می‌کنند.توسعه منبع بازCouchDB به دلیل پشتوانه و پشتیبانی شدید خود در جامعه منبع باز، پایه و اساس قوی و قابل اطمینانی را برای مدیریت پایگاه داده سازمانی فراهم می‌کند. CouchDB طی چند سال به عنوان پایگاه داده بدون schema توسعه یافته و انعطاف‌پذیری بی‌نظیری را ارائه می‌دهد که در اکثر راه‌حل‌های پایگاه داده اختصاصی یافت نمی‌شود.امکاناتانگیزه پیشرفت CouchDB را می‌توان با یک کلمه تعریف کرد: آرامش. CouchDB با مجموعه‌ای از ویژگی‌های خود به گونه‌ای طراحی شده که با کمترین تلاش بتوان داده‌ها و پردازش آن‌ها را توزیع نمود.www.bdbanalytics.ir@BigData_BusinessAnalytics bdbanalytic bdbanalytic Tue, 28 Apr 2020 22:56:09 +0430 سیستم کلاستر محاسباتی با کارایی بالا (HPCC) https://virgool.io/dataio/%D8%B3%DB%8C%D8%B3%D8%AA%D9%85-%DA%A9%D9%84%D8%A7%D8%B3%D8%AA%D8%B1-%D9%85%D8%AD%D8%A7%D8%B3%D8%A8%D8%A7%D8%AA%DB%8C-%D8%A8%D8%A7-%DA%A9%D8%A7%D8%B1%D8%A7%DB%8C%DB%8C-%D8%A8%D8%A7%D9%84%D8%A7-hpcc-ht138yff6bvb امروزه ابزارهای عظیم داده (Big Data) در بازار موجود است و این ابزارها، با بهره‌وری در هزینه سبب مدیریت زمان بهتر در وظایف تحلیلی می‌شوند. سیستم کلاستر محاسباتی با کارایی بالا (HPCC) یکی از ابزارهای عظیم داده بوده که توسط LexisNexis ایجاد شده است. این ابزار بر روی یک سکوی واحد، یک معماری واحد و یک زبان برنامه‌نویسی واحد برای پردازش داده‌ها ارائه می‌گردد.سیستم کلاستر محاسباتی با کارایی بالا (HPCC)، سکویی محاسباتی متن باز متمرکز داده‌ها را توزیع نموده و سرویس‌های مدیریتی جریان کار عظیم داده را فراهم می‌کند. بر خلاف Hadoop، مدل داده‌ای HPCC به وسیله کاربر تعریف می‌گردد و تضمین می‌کند که ECL در حداکثر زمان سپری شده انجام می‌گردد و گره‌ها (نودها) به شکل موازی پردازش شوند. همچنین سکوی HPCC به ابزارهای بخش ثالث نظیر GreenPulm ، Cassandra ، RDBMS ، Oozie و غیره نیازی ندارد.مؤلفه های اصلی HPCCTHOR(پالایشگاه داده HPCC): یک موتور ETL موازی به شکل انبوه بوده که ادغام داده‌ها براساس یک مقیاس را انجام داده و دستکاری داده‌ها را به شکل دسته‌ای فراهم می‌کند.ROXIE(موتور تحلیل داده HPCC): یک موتور موازی انبوه، با توان عملیاتی بالا، فوق‌العاده سریع، با زمان تأخیر کم که اجازه بازیابی چند کاربره مؤثر داده و موتور پاسخ جستجوی ساخت یافته را می‌دهد.ECL) Enterprise Control Language): یک جریان کاری توزیع شده بین گره‌ها به صورت خودکار بوده که الگوریتم‌هایی همگام و خودکار داشته و ماشین توسعه پذیر کتابخانه یادگیری را توسعه میدهد. در ضمن زبان برنامه‌نویسی مفید و ساده‌ای داشته که برای عملگرهای عظیم داده و تراکنشهای جستجو، بهینه‌سازی شده است.امکاناتبسیار کارآمد جهت انجام کارهای عظیم داده با کدنویسی بسیار کمتر.ارائه افزونگی و دسترسی بالا.قابل استفاده در پردازش داده‌های پیچیده در کلاستر Thor .دارای محیط توسعه یکپارچه گرافیکی (Graphical IDE) به منظور سهولت توسعه، آزمایش و اشکال زدایی.بهینه‌سازی خودکار کد جهت پردازش موازی.افزایش مقیاس‌پذیری و عملکرد.تبدیل کد ECL به ++C بهینه.امکان گسترش با استفاده از کتابخانه‌های ++C.تفاوت بین سکوی سیستمهای HPCC و Hadoopکلاسترهای HPCC میتوانند در Thor و Roxie اعمال شوند. کلاسترهای Hadoop با پردازش MapReduce اجرا میشوند.در محیط HPCC ، ECL زبان برنامه‌نویسی اولیه است در حالیکه پردازش MapReduce در Hadoop بر مبنای زبان جاوا است.سکوی HPCC ، شاخص چند متغیره و چند کلیده بر روی سیستم فایل توزیع شده میسازد. HBase درHadoop، پایگاه‌داده ستون‌گرا را فراهم می‌آورد.قابلیتهای انبار داده (data warehouse) در HPCC جهت جستجوهای ساخت‌یافته و برنامه‌های کاربردی تحلیل کننده استفاده میشود و از طرف دیگر Hive در Hadoop قابلیتهای انبار داده را فراهم نموده و اجازه میدهد داده‌ها در HDFS هدوپ، Load شوند.بر روی پیکر بندی سخت افزاری مشابه یک سیستم با 400 گره، موفقیت HPCC در 6 دقیقه و 27 ثانیه است در حالی که موفقیت Hadoop در 25 دقیقه و 28 ثانیه است. این نتایج نشان می‌دهد که در این مقایسه HPCC سریعتر از Hadoop است.جهت دسترسی به نسخه آزمایشی این ابزار به لینک زیر مراجعه نمایید:https://hpccsystems.com/try-nowwww.bdbanalytics.ir@BigData_BusinessAnalytics bdbanalytic bdbanalytic Mon, 10 Feb 2020 19:50:01 +0330 معرفی ابزار Apache Flink https://virgool.io/dataio/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-apache-flink-otuh5thnatb0 آپاچی فلینک نسل 4 عظیم‌ داده است که به عنوان 4G of Big Data شناخته می‌شود. پروژه آپاچی فلینک هم‌راستا با Spark Streaming بوده و در تحقیقات و تبلیغات بر هماهنگی پردازش دسته‌ای و جریانی در یک سیستم تأکید شده است و تضمین «تنها یک‌بار پردازش» برای مدل برنامه‌نویسی جریانی و API قابل قیاس با Trident را ارائه می‌دهد. در ابتدا، فلینک با نام Stratosphere شناخته می‌شد، اما در دسامبر ۲۰۱۴ با نام Flink معرفی و از سال 2015 قابل دسترس شد.برخلاف اسپارک استریمینگ، فلینک به صورت بنیادی یک پردازشگر جریانی بوده و بر پردازش دسته‌ای تکیه ندارد. در کنار APIهای دسته‌ای و APIهای جریانی، فلینک APIهایی برای پردازش گراف، پردازش رویدادهای پیچیده (Complex Event Processing) و SQL ارائه می‌دهد و قادر به اجرای توپولوژی استورم می‌باشد. اسپارک استریمینگ قادر است که با بهره گیری از یک سیستم مدیریت منابع مانند YARN یا Mesos یا به صورت مستقل(standalone) بر روی کامپیوترها مستقر شود.علیرغم API جریانی اسپارک یا مدیریت حالت استورم که بعد از توسعه هسته پروژه به وجود آمدند، بسیاری از ویژگی‌های اصلی در نظر گرفته شده در طراحی‌ اولیه فلینک، پس از بررسی سایر جوانب اضافه نشد و بنابراین فلینک را می‌توان به عنوان یکی از پیشرفته‌ترین پردازشگرهای جریانی به حساب آورد.فلینک از مکانیزم backpressure با استفاده از بافر با ظرفیت محدود استفاده می‌کند و هر زمانی که دریافت داده از سرعت پردازش بیشتر گردد، بافرهای داده مانند صف‌های مسدود کننده با سایز ثابت رفتار می‌کنند و در نتیجه نرخی که داده‌های جدید به سیستم وارد می‌شود را کُند می‌کند. با امکان تنظیم زمان بافردهی برای بخش‌های داده در فلینک، می‌توان توازن بین تأخیر و توان عملیاتی را کنترل کرد و همچنین امکان توان عملیاتی بالاتری نسبت به استورم میسر است.فلینک هم مانند Spark Streaming به طور مؤثری پردازش دسته‌ای و جریانی را کنار هم (البته از جهات متفاوت) قرار می‌دهد، و APIهای سطح بالا، تضمین پردازش«دقیقا یک‌بار» و مجموعه‌ای از کتابخانه‌های مفید را ارائه می‌دهد که همگی می‌توانند پیچیدگی‌های توسعه نرم‌افزار را به شدت کاهش دهند.اکوسیستم اسپارک بی شک دارای بیشترین تعداد کاربر و توسعه‌دهنده است ولی به این‌ دلیل که رویکردش مدل پردازش‌گر دسته‌ای است، Spark Streaming در میزان تأخیر تسلیم سایر رقبا شده است. لازم به ذکر است که طراحی فلینک به گونه ای است که محدودیت‌های جدی‌ نداشته لیکن هنوز به صورت همه‌گیر مورد استفاده قرار نگرفته است.اجزای اکوسیستم فلینکhttp://www.bdbanalytics.ir@BigData_BusinessAnalytics bdbanalytic bdbanalytic Thu, 19 Dec 2019 19:43:18 +0330 معرفی ابزار Apache Solr https://virgool.io/dataio/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-apache-solr-armrqpkg518t Apache Solr یک پلتفرم جستجوی منبع باز است که بر روی یک کتابخانه جاوا به نام Lucene ساخته شده است.Solr یک بستر جستجوی محبوب برای وب‌سایت‌ها است زیرا می‌تواند چندین سایت را فهرست‌بندی و جستجو کند و توصیه‌های مربوط به مطالب مرتبط را بر اساس طبقه‌بندی جستجو بازگرداند. این ابزار همچنین یک بستر جستجوی محبوب برای سازمان‌ها است زیرا می‌توان از آن برای فهرست و جستجوی اسناد و پیوست‌های ایمیل استفاده کرد.Solr با پروتکل انتقال Hypertext) HTTP) و زبان نشانه‌گذاری گسترده (XML) کار می‌کند. این برنامه رابط‌های برنامه ای (API) برای Javascript Object Notation (JSON) پایتون و روبی ارائه می دهد. با توجه به پروژه Apache Lucene ،Solr امکاناتی را فراهم کرده است که باعث محبوبیت آن در بین مدیران شده است از جمله:نمایه‌سازی در زمان واقعیهمانندسازی خودکار فهرستثبت آمار سروربازیابی خودکارتجزیه و فهرست‌بندی فهرست مؤثرفهرست‌های جستجوی چندگانهحافظه پنهان کاربرطراحی برای ترافیک با حجم بالامقیاس‌پذیری، انعطاف‌پذیری و توسعه‌پذیریجستجوی کامل متنجستجوی جغرافیاییپرس‌وجو متعادل با بارکارینحوه کار Apache Solr:به منظور جستجوی یک سند، Apache Solr عملیات زیر را به ترتیب انجام می‌دهد:نمایه‌سازی: اول از همه، اسناد را به قالب قابل خواندن با ماشین تبدیل می‌کند که به آن Indexing گفته می‌شود.پرس و جو: در این مرحله شرایط پرس‌وجو از کاربر پرسیده می‌شود. برای مثال این پرس‌وجوها می‌توانند تصاویر یا کلمات کلیدی باشند.نقشه‌برداری: این ابزار سپس درخواست کاربر را به اسناد ذخیره شده در دیتابیس نگاشت می‌کند تا نتیجه مناسب را پیدا کند.رتبه‌بندی نتیجه: به محض اینکه موتور اسناد ایندکس را جستجو می‌کند، براساس اهمیت آن‌ها، خروجی‌ها را رتبه‌بندی می‌کند.یکپارچه کردن Solr در ابزارهای دیگرSolr به عنوان موتور جستجوی داخلی در بسیاری از برنامه‌ها مانند سیستم‌های مدیریت محتوای سازمانی همراه است. توزیع Hadoop در ابزارهایی مانندCloudera ، Hortonworks و MapR همه بسته‌های Solr را به عنوان موتور جستجوی محصولات خود برای عظیم‌داده به بازار عرضه کرده‌اند. DataStax DSE این ابزار را به عنوان موتور جستجو با کاساندرا ادغام کرده است. Solr با هر سیستم یا زبان برنامه‌نویسی که از استانداردهای HTTP پشتیبانی می‌کند ادغام می‌شود. برای سهولت استفاده از این ابزار کتابخانه‌های کاربری نیز برای جاوا، C # ، PHP، پایتون، روبی و سایر زبان‌های برنامه‌نویسی محبوب دیگر موجود است.http://www.bdbanalytics.ir@BigData_BusinessAnalytics bdbanalytic bdbanalytic Thu, 10 Oct 2019 10:50:46 +0330 معرفی ابزار آپاچی دریل (Apache Drill) https://virgool.io/dataio/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-%D8%A2%D9%BE%D8%A7%DA%86%DB%8C-%D8%AF%D8%B1%DB%8C%D9%84-apache-drill-mub8j5cocco7 ابزارهای مختلفی جهت تحلیل عظیم داده در دسترس است. بعضی از روش‌های موجود به منظور تحلیل عظیم داده با تاکید بر سه مورد مهم نگاشت‌کاهش، آپاچی اسپارک و استورم ارائه شده‌اند. تمرکز اکثر ابزارهای موجود، روی «پردازش دسته‌ای» (batch processing)، «پردازش جریان» (stream processing) و «تحلیل تعاملی» (interactive analysis) است.بیشتر ابزارهای پردازش دسته‌ای بر اساس زیرساخت «آپاچی هادوپ» (Apache Hadoop) مانند «آپاچی ماهوت» (Mahout) و «دریاد» (Dryad) هستند.برنامه‌های تحلیل داده‌های جریانی، بیشتر جهت تحلیل‌های زمان واقعی مورد استفاده قرار می‌گیرند. استورم و اسپلانک از جمله پلتفرم‌های تحلیل جریان داده‌ها هستند.آپاچی دریل (Apache Drill) یک پلتفرم‌ عظیم داده است که از تحلیل‌های تعاملی پشتیبانی می‌کند و به پژوهشگران در توسعه پروژه‌های عظیم داده کمک می‌نماید. فرآیند تحلیل تعاملی، امکان تعامل مستقیم در زمان واقعی برای انجام تحلیل‌های کاربران را فراهم می‌سازد.آپاچی دریل انعطاف‌پذیری بیشتری برای پشتیبانی از بسیاری زبان‌های query، فرمت‌های داده و منابع داده داشته و به طور خاص جهت بهره‌‌برداری از داده‌های تو در تو طراحی شده است و بر روی 10 هزار سرور یا بیشتر به مقیاس پرداخته و می‌تواند در چند ثانیه، تریلیون‌ها رکورد و حجم داده به‌ظرفیت پتابایت یا بیشتر را پردازش نماید.دریل از سیستم فایل توزیع شده هادوپ (HDFS) برای ذخیره‌سازی و نگاشت کاهش برای انجام تحلیل دسته‌ای استفاده می‌کند.آپاچی دریل از انواع پایگاه‌های داده‌های NoSQL و سیستم فایل‌ها پشتیبانی می‌کند که این موضوع یکی از مزیت‌های این ابزار محسوب می‌گردد.برای نمونه می‌توان موارد زیر را نام برد:سیستم ذخیره‌سازی Azur Blobسیستم ذخیره‌سازی Google CloudHBaseMongoDBMapR-DBHDFSAmazon S3SwiftNASسیستم فایل محلیشکل زیر جریان پرس و جو در دریل را نشان می‌دهد:هنگامی که یک پرس و جو دریل ثبت می‌شود، یک مشتری یا یک برنامه، پرس و جویی را در قالب یک بیانیه SQL به یک Drillbit در خوشه Drill ارسال می‌کند. «دریل بیت» (Drillbit) فرایندی است که بر روی تمامی گره (Node) های دریل فعال اجرا می‌شود و هماهنگی، برنامه‌ریزی و اجرای پرس و جو را انجام داده و همچنین عملیات پرس و جو را در میان خوشه‌ها به منظور به حداکثر رساندن مکان داده‌ها، توزیع می‌کند.شکل زیر نشان دهنده ارتباط بین مشتریان، برنامه‌ها و «دریل بیت‌ها» Drillbits است:بنابراین هدف اصلی Apache Drill، فراهم نمودن بستری برای مقیاس‌پذیری است تا بتوان مجموعه داده‌هایی را در مقیاس پتابایت و اگزابایت، به صورت بهینه‌ و مبتنی بر زبان ANSI SQL پردازش نمود.لازم به ذکر است که یکی از برجسته‌ ترین مزایای Apache Drill، استفاده‌ی ترکیبی از ذخیره‌ساز‌های داده‌های متنوع، آن ‌هم تنها با استفاده از یک پرس‌ و جو می‌باشد.http://www.bdbanalytics.ir@BigData_BusinessAnalytics bdbanalytic bdbanalytic Tue, 27 Aug 2019 09:16:59 +0430 آپاچی ماهوت (Apache Mahout) https://virgool.io/dataio/%D8%A2%D9%BE%D8%A7%DA%86%DB%8C-%D9%85%D8%A7%D9%87%D9%88%D8%AA-apache-mahout-nwknhcwvlrjv ابزار پرکاربرد دیگر اکوسیستم هدوپ، آپاچی ماهوت می‌باشد. ماهوت واسط‌هایی برای ایجاد برنامه‌های مقیاس‌پذیر یادگیری ماشین را فراهم می‌کند.یادگیری ماشین چیست؟الگوریتم‌های فراگیری ماشینی، اجازه‌ی ساخت سیستم‌های خود-یادگیرنده را به ما می‌دهند، که بدون آن‌که نیاز به برنامه‌ریزی مشخصی داشته باشد، تکامل می‌یابند و براساس رفتار کاربر، الگوهای داده و تجربیات گذشته می‌توانند در تصمیمات آینده یاری‌رسان باشند.یادگیری ماشین و آپاچی ماهوتهدف اصلی داده‌کاوی، پردازش و استخراج اطلاعات از دیتا‌ست‌های بزرگ و تبدیل اطلاعات برای برنامه‌های کاربردی در قالبی قابل فهم است و این کار هزینه بسیاری جهت کشف الگوها در دیتا‌ست‌های بزرگ را در پی دارد که شامل روش‌های مختلف هوش مصنوعی، آمار، سیستم‌های پایگاه داده و یادگیری ماشین است. برای استخراج اطلاعات از عظیم‌داده یا مجموعه داده‌های بزرگ ما انواع مختلفی از روش‌های تجزیه و تحلیل را داریم که هر روش تجزیه و تحلیل نتایج یا تاثیر متفاوتی را دارد. در حال حاضر بسیاری از تکنیک‌های داده‌کاوی وجود دارد، اما همه‌ی این تکنیکها برای عظیم‌داده مناسب نیستند. هدف از تکنیک‌های داده‌کاوی نسل جدید، برطرف نمودن نواقص و شکست چارچوب‌های موجود می‌باشد و همچنین قابلیت دستیابی بیشتر در کارایی و مقیاس‌پذیری در عملکرد می‌باشد. آپاچی ماهوت یک چارچوب داده‌کاوی جدید می‌باشد و این ویژگی‌های فوق را دارا می‌باشد. آپاچی ماهوت بهترین استفاده از منابع مطلوب و الگوریتم‌های یادگیری ماشین است. آپاچی ماهوت نتایج دقیقی را هنگامی که ما آن را بر مجموعه عظیم‌داده‌ها اعمال می‌کنیم، را ارائه می‌دهد. برای اندازه‌گیری توزیع آپاچی ماهوت، از روشهای تمرکززدایی و تکنیک‌های تکثیر استفاده می‌شود. استفاده اولیه از آپاچی ماهوت، ایجادالگوریتم یادگیری ماشین مقیاس‌پذیر است. آپاچی ماهوت پروژه زیر بنایی آپاچی است، واستفاده از ان در داده‌کاوی به سرعت در حال افزایش است.معماری آپاچی ماهوت پیاده‌سازی آپاچی ماهوت طراحی سطح بالایی را دارد. API آپاچی ماهوت، از بسیاری از برنامه‌های کاربردی برای یادگیری ماشین جهت اجرای تکنیک‌های مختلف یادگیری ماشین، مانند خوشه‌بندی، طبقه‌بندی و ... پشتیبانی می‌کند. همچنین دارای خصوصیات پیش پردازش داده‌ها و ذخیره‌سازی برای دستیابی به مقیاس‌پذیری می‌باشد.برای فعال کردن پردازش موازی، آپاچی ماهوت پارادایم برنامه نویسی Map reduce را دارد. هنگامی که آپاچی ماهوت قابل استفاده برای یادگیری ماشین است، Map reduce برای هر الگوریتم اختصاص داده می‌شود. در آپاچی ماهوت عمدتا دارای گره اصلی است که mappers و reducers را مدیریت میکند. توزیع آپاچی ماهوت با گره اصلیشروع می‌شود، فایل‌های ورودی به گره اصلی ارسال می‌شود و داده‌ها را تجزیه و تحلیل می‌کند و این داده‌ها را به مکان‌های مختلف که گره‌های دیگری هستند، اختصاص می‌دهد.چارچوب آپاچی ماهوت منبع باز است و توسط بنیاد آپاچی توسعه یافته است. این چارچوب به عنوان ابزارهایی برای ساخت الگوریتم‌های مقیاس‌پذیر و همچنین ارائه الگوریتم‌های توکار است. این الگوریتم ها بر روی Hadoop Map Reduction، Apache Spark و H2O اجرا می‌شود.آپاچی ماهوت چه کاری انجام می‌دهد؟پالایش گروهی، خوشه‌بندی، طبقه‌بندی و قواعد انجمنی کارهایی است که می‌توان توسط آپاچی ماهوت انجام داد:پالایش گروهی: Mahout رفتارهای کاربران، الگوهای آن‌ها و ویژگی‌هایشان را بررسی می‌کند و بر اساس آن پیش‌بینی‌هایی انجام می‌دهد و به کاربران پیشنهاد می‌دهد. رایج‌ترین کاربرد آن، استفاده در وب‌سایت‌های تجارت الکترونیکی است.خوشه‌بندی: خوشه‌بندی یا آنالیز خوشه در یادگیری ماشین، یکی از شاخه های یادگیری بی‌نظارتمی‌باشد و فرآیندی است که در طی آن، نمونه‌ها به دسته‌هایی که اعضای آن مشابه یکدیگر می‌باشند تقسیم می‌شوند که به این دسته ها خوشه گفته می‌شود. بنابراین خوشه مجموعه ای از اشیاء می‌باشد که در آن اشیاء با یکدیگر مشابه بوده و با اشیاء موجود در خوشه‌های دیگر غیر مشابه می‌باشند.طبقه‌بندی: این روش به طبقه‌بندی و دسته‌بندی داده‌ها به زیر مجموعه‌هایی بر اساس خصوصیاتشان اشاره دارد. در واقع در این روش مجموعه‌ای از قوانین بر اساس داده‌های موجود (داده‌های مجموعه آموزش) ایجاد می‌شود تا بر اساس آن طبقه‌بندی مناسبی برای موضوع جدید در میان طبقه‌بندی‌های مختلف انجام گیرد. این روش جزء روش های یادگیری با نظارت محسوب می‌شود.قواعد انجمنی : قوانین انجمنی روابط و وابستگیهای متقابل بین مجموعه بزرگی از اقلام داده‌ای را نشان می‌دهند. پیدا کردن چنین قوانینی می‌تواند در حوزه‌های مختلف مورد توجه بوده و کاربردهای متفاوتی داشته باشد بعنوان مثال کشف روابط انجمنی بین حجم عظیم تراکنش های کسب و کار می‌تواند درتشخیص تقلب ، در حوزه پزشکی و همچنین در مورد اطلاعات روش بکارگیری وب توسط کاربران مورد استفاده قرار گیرد.آپاچی ماهوت خط فرمانی برای فراخوانی الگوریتم‌های مختلف ارائه می‌دهد. این ابزار از مجموعه کتاب‌خانه‌ی از پیش تعیین شده‌ای بهره می‌برد که در حال حاضر شامل الگوریتم‌های داخلی متعدد، برای کاربردهای مختلف است. bdbanalytic bdbanalytic Mon, 18 Mar 2019 21:07:17 +0330 معرفی ابزار آپاچی کافکا https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-%D8%A2%D9%BE%D8%A7%DA%86%DB%8C-%DA%A9%D8%A7%D9%81%DA%A9%D8%A7-jpzabehd5gmb تاریخچهآپاچی کافکا در ابتدا توسط لینکدین توسعه یافت و در اوایل سال 2011 بصورت نرم افزار متن باز در آمد. در نوامبر ۲۰۱۴ ، چندین مهندس که در لینکدین بر روی کافکا کار می‌کردند یک شرکت جدید به نام Confluent ایجاد کرده و به صورت انحصاری بر روی توسعه کافکا کار کردند. بر اساس یک پست در سال 2014 به نظر می رسد که جی کربس نام این برنامه را از نام فرانتس کافکا نویسنده آلمانی برداشت کرده است.آپاچی کافکا چیست؟آپاچی کافکا یک پلتفرم توزیع‌شده برای پردازش داده های جریانی بوده و قادر به رسیدگی و پردازش چندین تریلیون رویداد است به صورت همزمان است. کافکا در ابتدا به عنوان یک ابزار برای ارسال پیامهایی با تعداد بالا بکار برده می شد. کافکا از زمان ایجاد و منبع باز شدن توسط لینکدین در سال ۲۰۱۱ ، به سرعت از ارسال پیام به یک پلتفرم پردازش توزیعی کامل تبدیل شده است.آپاچی کافکا، به عنوان یک پلتفرم داده های در جریان، دارای قابلیتهایی ازقبیل زمان پاسخ کوتاه، کارایی بالاو تحمل خطا بوده و قادر به پردازش جریانهایی سریع از رویدادها می باشد. کافکا، برای پشتیبانی از برنامه های کاربردی مشتری و اتصال سیستم های پایین دست با داده های زمان واقعی پاسخ های در حد میلی ثانیه فراهم می کند.کاربرد های کافکادو مورد از اصلی ترین کاربردهای کافکا شامل موارد ذیل می شود:1. ایجاد خطوط انتقال داده های جریانی و به هنگام که داده ها را میان سیستمها و برنامه ها بصورت قابل اطمینانی انتقال داده و رد و بدل می کند2. ایجاد برنامه های کاربردی برای داده های جریانی و به هنگام که به موقع نسبت به جریانی از داده ها واکنش نشان داده و آنها را انتقال می دهدساختار و نحوه کار کافکاقبل از اینکه به ساختار کافکا بپردازیم ابتدا چند اصطلاح را توضیح می دهیم:· کافکا به صورت خوشه ای بر روی یک یا چند سرور کار می کند· کافکا جریان داده ها و رکورد ها را در ساختارهایی به نام تاپیک( topics) ذخیره می کند· هر رکوردی دارای یک کلید، یک مقدار و یک برچسب زمانی می باشد تا بصورت مجزا از سایر رکورد ها مشخص باشدکافکا دارای 4 رابط کاربری برای برنامه خود می باشد که هر کدام نقشی در مجموعه فعالیتهای کافکا دارند. این رابطها شامل:· رابط تولید کننده (Producer) که به یک برنامه اجازه می دهد رشته هایی از رکورد ها را بر روی یک یا چند تاپیک کافکا منتشر کند· رابط مصرف کننده(Consumer) که به یک برنامه اجازه می دهد به یک یا چند تاپیک متصل شده و رکورهای موجود را پردازش کند· رابط جریانی (Streams) که به یک برنامه اجازه می دهد بصورت پردازشگر داده های جریانی عمل کرده و داده های ورودی موجود بر یک یا چند تاپیک را مصرف کرده و خروجی آن نیز تولید جریانی از داده ها بر روی تاپیکهای خروجی بوده و بصورت موثری جریانهای ورودی را به خروجی تبدیل می کند.· رابط اتصال دهنده(Connector) که اجازه ساخت و اجرای تولید کننده ها و مصرف کننده هایی با قابلیت استفاده مجدد را می دهد که تاپیکهای کافکا را به برنامه ها و سیستمهای داده ای موجود متصل می کند. مثلا یک اتصال دهنده به یک پایگاه داده رابطه ای می تواند هر نوع تغییری که بر روی یک جدول اعمال شده را ثبت و ضبط کند. شکل زیر رابط های کاربری و نحوه کار کافکا را بصورت شماتیک نشان می دهد.بطور کلی نحوه کار کافکا بصورت ذیل است:کافکا پیامهایی را که از بسیاری از "تولید کنندگان" دریافت می کند را ذخیره کرده و داده ها بدین صورت بر روی پارتیشن های گوناگونی در "تاپیکهای" مختلف توزیع شده و پارتیشن بندی می شوند. در هر پارتیشن پیامها با هم شاخص گذاری شده و با یک برچسب زمانی ذخیره می شوند. سایر فرایندها مثل "مصرف کنندگان" می توانند پیامها را از پارتیشنها دریافت کرده و اطلاعات مورد نظر خود را درخواست کنند. کافکا بر روی خوشه هایی از یک یا چند سرور اجرا می شود و پارتیشنها می توانند بر روی چندین نود مختلف توزیع شوند.آپاچی کافکا هنگامی که همراه با آپاچی استورم، اچ بیس و اسپارک استفاده شود به طور موثری می تواند داده‌های بلادرنگ و جریان را پردازش کند. اگر کافکا به عنوان یک خوشه روی چندین سرور پیکر بندی و اجرا شود در اینصورت به کمک 4 رابط کاربری خود براحتی عملیات انتشار و دریافت و پردازش اطلاعات را به سرعت و با کارایی بالا انجام می دهد.توانایی کافکا برای ارایه جریان‌های عظیم داده و پیام ،همراه با تحمل خطای بالا ، آن را جایگزین برخی از سیستم‌های پیام‌رسانی مرسوم مانند JMS ، AMQPو غیره کرده است.http://www.bdbanalytics.ir@BigData_BusinessAnalytics bdbanalytic bdbanalytic Wed, 25 Jul 2018 23:56:09 +0430 معرفی ابزار آپاچی استورم (Apache Storm) https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-%D8%A2%D9%BE%D8%A7%DA%86%DB%8C-%D8%A7%D8%B3%D8%AA%D9%88%D8%B1%D9%85-apache-storm-jkjr1h6idyhy تاریخچه:آپاچی استورم یک چارچوب پردازشی توزیعی برای پردازش داده های در جریان می باشد که به زبان برنامه نویسی clojure نوشته شده است. این برنامه در ابتدا توسط ناتان مارتس و همکارانش در موسسه بکتایپ ایجاد شده و بعد از تصاحب آن توسط تویتر به صورت نرم افزاری منبع باز درآمد.کاربردها:استورم یک سیستم محاسبات زمان واقعی توزیع شده برای پردازش حجم زیاد از داده ها با نرخ تولید بالا است. استورم بسیار سریع بوده و قادر است بیش از یک میلیون رکورد در ثانیه را برای هر گره در یک خوشه با اندازه متوسط پردازش کند. شرکت ها این سرعت را کنترل کرده و آن را با دیگر برنامه های دسترسی داده در هدوپ ترکیب می کنند تا از وقایع نامطلوب جلوگیری کرده یا نتایج مثبت را بهینه سازند.برخی از فرصت های تجاری جدید و ویژه در استفاده از استورم عبارتند از: مدیریت خدمات مشتری در زمان واقعی، کسب درآمد از داده ها، داشبورد های عملیاتی، تجزیه و تحلیل امنیت سایبری و تشخیص تهدید.استورم ساده بوده و توسعه دهندگان می توانند توپولوژیهای استورم را با استفاده از هر زبان برنامه نویسی ایجاد کنند.ویژگیها:5 ویژگی زیر استورم را انتخابی ایده آل برای پردازش داده های بهنگام نموده است:· سرعت بالا – قدرت پردازش یک میلیون پیغام 100 بایتی در هر ثانیه و بر روی هر نود· مقیاس پذیری خوب – محاسبات موازی بر روی خوشه ای از ماشینها· تحمل خطا – هنگامی که عوامل پردازشی بر روی هر نود از کار بیافتند استورم آنها را بصورت خودکار راه اندازی می کند و زمانی که خود نود از کار بیافتد استورم عامل پردازش مربوطه را بر روی نودی دیگر راه اندازی می کند· قابلیت اطمینان – استورم اطمینان می دهد که هر واحد داده دقیقا یکبار پردازش می شود.· کاربری آسان – پیکره بندی استاندارد سیستم یکبار و در روز اول انجام شده و زمانی که تنظیم گردید براحتی می توان از آن استفاده کردنحوه کار:یک خوشه استورم شامل سه مجموعه نود به قرار زیر است:1. نود Nimbus( نود اصلی ):· محاسبات را جهت اجرا آپلود می کند· کدها را بر روی خوشه ها توزیع می کند· عوامل پردازشی را بر روی خوشه ها راه اندازی می کند· محاسبات را مانیتور کرده و در صورت نیاز عوامل پردازشی جدیدی را به نود ها اختصاص می دهد2. نودهای Zookeeper - خوشه های استورم را هماهنگ می کند3. نودهای ناظر(Supervisor) – از طریق نود زوکیپر با نود های نیمبوس ارتباط برقرار کرده و با توجه به سیگنالهای دریافتی عوامل پردازشی را راه اندازی یا متوقف می کند.در شکل زیر ارتباط میان نود ها نشان داده شده است:5 اصطلاح کلیدی برای توصیف نحوه کار استورم شامل موارد زیر می باشد:· ستون داده ها (Tuples) : لیستی منظم از عناصر. بطور مثال "4 ستون" می تواند بصورت (1,5,6,2) نشان داده شود· جریان داده ها (Streams): یک توالی نامحدود از ستونها· ورودی داده (Spouts) : منابعی از جریان داده ها در یک محاسبه ( مثلا یک API توییتر)· پردازش داده (Bolts): جریان داده های ورودی را پردازش کرده و جریانی از داده های خروجی ایجاد می کند. پردازش می تواند شامل این موارد باشد: اجرای تابع، فیلتر داده، تجمیع داده، ترکیب داده ها و ارتباط با پایگاه داده· توپولوژیها ( Topologies): نوع محاسبات عمومی که بصورت ترکبیی از نقاط ورودی و پردازش نشان داده می شود.در شکل زیر می توان ارتباط میان واحدهای ورودی و پردازش را مشاهده کرد.کاربران استورم نوع توپولوژی مربوطه را به هنگام دریافت جریان داده ها از منابع ورودی تعریف می کنند و بعد از پردازش داده ها نتیجه را وارد هدوپ می کنند.همچنین در شکل زیر شمایی کلی ازجریان ورودی داده ها (Twitter API) و سپس پردازش این داده های جریانی در استورم با استفاده از بستر هدوپ و در نهایت خروجی این پردازش را مشاهده می کنید که یا در پایگاه داده ذخیره می شود و یا دوباره به وب باز می گردد. همانطور که می بینید استورم در کنار ویژگیهای نگاشت - کاهش هدوپ بستری قدرتمند برای پردازش سریع داده های جریانی فراهم میکند. گروه تحلیلگری عظیم داده و کسب و کار https://t.me/BigData_BusinessAnalytics bdbanalytic bdbanalytic Sat, 09 Jun 2018 10:01:35 +0430 معرفی ابزار آپاچی اسپارک https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A7%D8%A8%D8%B2%D8%A7%D8%B1-%D8%A2%D9%BE%D8%A7%DA%86%DB%8C-%D8%A7%D8%B3%D9%BE%D8%A7%D8%B1%DA%A9-sgworjskh5ki تاریخچه:اسپارک یک موتور پردازش داده است که اولین بار در سال 2009 به عنوان یک پروژه در آزمایشگاه ای ام پی دانشگاه کالیفرنیا، برکلی طراحی شد. سپس در سال 2013 به یک پروژه انحصاری از بنیاد نرم‌افزاری آپاچی تبدیل شده و در اوایل سال 2014 میلادی به یکی از پروژه‌های برتر بنیاد ارتقا یافت.ویژگی‌ها:برخی ویژگی‌های منحصر بفرد اسپارک موجب شده است که این برنامه نسبت به برخی دیگر از گزینه‌های مشابه هدوپ برای پردازش داده‌ها مانند برنامه نگاشت-کاهش بهتر عمل کند. در واقع می‌توان گفت که اسپارک از همان ابتدا به گونه‌ای طراحی و بهینه شده بود که عملیات پردازش را در حافظه انجام دهد و این مزیت نسبت به برنامه نگاشت – کاهش که داده‌ها را بر روی دیسک نوشته و از روی دیسک نیز برای پردازش فراخوانی می‌کند موجب سرعت فوق‌العاده بالاتری شده است. طرفداران اسپارک معتقدند که سرعت پردازش اسپارک 10 تا 100 برابر از نگاشت – کاهش بالاتر است.اسپارک قادر است چندین پتابایت داده را که بر روی خوشه‌هایی از هزاران سرور فیزیکی یا مجازی توزیع شده‌اند پردازش نماید. چندین زبان برنامه‌نویسی مانند جاوا، پایتون، آر و اسکالا را پشتیبانی نموده و علاوه بر بستر ذخیرهسازی داده‌های هدوپ (HDFS) قادر است با سایر منابع ذخیره‌سازی مانند HBase، کاساندرا، مونگو و S3 آمازون نیز کار کند.?موارد کاربرد:· پردازش داده‌های در جریان: امروزه با داده‌هایی مواجه هستیم که مدام در حال تولید و تغییر هستند. اگرچه میتوان این داده‌ها را ذخیره نموده و بعد پردازش کنیم اما گاهی اوقات مانند داده‌های مالی و داده‌های حاصل از حسگرهای دستگاه‌ها را میبایست به‌هنگام پردازش نمود تا بتوان به موقع به ارزش موجود در آنها دست یافت. اسپارک این قابلیت را به خوبی ایفا می‌کند.· یادگیری ماشین:توانایی اسپارک برای ذخیره داده‌ها در حافظه موقت و اجرای پردازش‌ها و جستارهای تکراری آن را برای پیکربندی الگوریتم‌های یادگیری ماشین مناسب ساخته تا بتوان مجموعه فعالیت‌های تکراری را به راحتی و با سرعت بالا بر روی داده‌های جدید و عظیم نیز اجرا کرد.· تجزیه و تحلیل تعاملی داده‌های در جریان:سیستمی مانند اسپارک با ویژگی پاسخ سریع به تغییرات آن را قادر ساخته که بجای یک سری داده‌ها و جستارهای ثابت و تکراری که نمودارهای مربوطه را بر روی داشبوردها نمایش می دهد بتوان تغییراتی به دلخواه در این جستارها اعمال کرده و پاسخ این تغییرات را به سرعت بر روی داشبورد مشاهده کرد.· یکپارچه‌سازی داده‌ها: داده‌های کسب‌وکار معمولا از منابع مختلف و با انواع گوناگون تولید میشوند و نیازمند پاکسازی برای استفاده مناسب هستند. در واقع اسپارک با ویژگی‌های فوق‌العاده خود هزینه عملیات استخراج، تبدیل و بارگذاری و استفاده از این داده‌ها را کاهش داده و سرعت این عملیات را نیز افزایش داده است.چرا از اسپارک استفاده می‌کنیم؟دلایل زیادی برای استفاده و ترجیح اسپارک وجود دارد که به برخی از مهمترین آنها اشاره می‌کنیم:1. سرعت: اسپارک با داشتن موتور اجرای بسیار پیشرفته خود از جریان غیرخطی داده‌ها و پردازش درون حافظه‌ای پشتیبانی می‌کند و بدین ترتیب سرعت عملیات افزایش می‌یابد.2. راحتی کاربرد: اسپارک بیش از 80 عملگر گوناگون را معرفی میکند که فرایند ساخت برنامه‌های موازی را امکانپذیر می‌نماید. شما می‌توانید بصورت تعاملی از پوسته‌های اسکالا، پایتون و آر به راحتی استفاده کنید.3. عمومیت: اسپارک مجموعه‌های از کتابخانه‌های SQL، DataFrame، MLlib برای یادگیری ماشین، GraphX و Spark Streaming را فعال میکند. می‌توان تمامی این کتابخانه‌ها را در یک برنامه بصورت یکپارچه ترکیب کرد.4. قابلیت اجرای همگانی: اسپارک بر بسترهای گوناگونی مانند مزوس، هدوپ، بصورت مستقل و در ابر بکار می رود. این ابزار می‌تواند به منابع داده‌ای گوناگون ازجمله فایل سیستم هدوپ، کاساندرا، اچ بیس و S3 دسترسی داشته باشد.گروه تحلیلگری عظیم داده و کسب و کارhttps://t.me/BigData_BusinessAnalytics bdbanalytic bdbanalytic Thu, 24 May 2018 18:41:07 +0430 معرفی آپاچی Hbase https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D8%A2%D9%BE%D8%A7%DA%86%DB%8C-hbase-fqlxcgerneuu آپاچی HBase یک سیستم مدیریت پایگاه داده ستونی می باشد که بر روی فایل سیستم هدوپ کار می کند. این پایگاه داده برای مجموعه داده های پراکنده که در عظیم داده امری متداول است مناسب می باشد. HBase بر خلاف پایگاه داده های رابطه ای از زبان SQL پشتیبانی نمی کند. در واقع HBase به هیچ عنوان یک پایگاه داده رابطه ای نیست. برنامه های تحت HBase مانند MapReduceبه زبان جاوا نوشته می شوند. HBase زبانهای دیگری مانند Avro, REST و Thrift را نیز پشتیبانی می کند. پایگاه داده HBase شامل مجموعه ای از جداول می باشد که هر جدول همانند یک پایگاه داده رابطه ای در بردارنده ردیف و ستون می باشد. هر جدولی باید یک ستون به عنوان کلید اولیه داشته باشد و تمامی اتصالات به جداول HBase باید با استفاده از این کلیدها صورت گیرد. معماری پایگاه داده HBase:پایگاه داده HBase یک نوع از پایگاههای داده "NoSQL" است. "NoSQL" .یک اصطلاح عمومی است به این معنی که پایگاه داده یک سیستم پایگاه داده رابطه ای نیست که بتواند از SQL به عنوان زبان دسترسی اولیه اش پشتیبانی کند. انواع زیادی از پایگاه داده های NoSQL وجود دارد مثلا BerkeleyDB نمونه ای از یک پایگاه داده محلی NoSQL است، در حالی که HBase یک پایگاه داده توزیع شده است. از لحاظ فنی، HBase در واقع بیشتر یک " محل ذخیره سازی داده ها"است تا اینکه بخواهد یک "پایگاه داده" باشد زیرا بسیاری از ویژگی های یک سیستم (پایگاه داده رابطه ای) RDBMS از جمله ستون های تایپ شده، ایندکسهای ثانویه، راه انداز و زبان های پرس و جوی پیشرفته را ندارد.با این حال، HBase ویژگی های بسیاری دارد که ازگسترش خطی و مدولار سرورها و ماشینها و سخت افزارها پشتیبانی می کند. خوشه بندی HBase با افزودن RegionServers ها که توسط سرورهای نسبتا ارزان قیمت میزبانی می شوند، گسترش می یابد. برای مثال، اگر یک خوشه از 10 تا 20 RegionServers گسترش یابد، از نظر ذخیره سازی و همچنین ظرفیت پردازش، دو برابر می شود. یک پایگاه داده رابطه ای نیز می تواند به خوبی مقیاس پذیر بوده و گسترش یابد اما محدودیت داشته و برای بهتر شدن کارایی و سرعت خود نیازمند سخت افزارهای خاص و گران قیمت است در حالیکه HBase را می توان با استفاده از سخت افزار های ارزان گسترش داد. برخی از ویژگیهای HBase شامل موارد ذیل می شود:· خواندن و نوشتن بسیار پایدار داده ها: HBase یک منبع ذخیره سازی پایدار است. این ویژگی آن را برای جمع آوری داده هایی با سرعت بالا بسیار مناسب کرده است.· تقسیم خودکار داده ها: جداول HBase بر روی خوشه ها توزیع شده اند و این جداول بصورت خودکار با رشد مقدار داده ها بر روی خوشه ها مجددا توزیع می شوند.· یکپارچگی Hadoop و HBase: HBase از فایل سیستم هدوپ به عنوان فایل سیستم توزیعی خود پشتیبانی می کند.· نگاشت – کاهش(MapReduce): HBase از پردازش موازی برنامه نگاشت – کاهش هدوپ بطور کامل پشتیبانی می کند.· رابط برنامه جاوا(Java API): HBase از یک رابط کاربری ساده برای مقاصد برنامه نویسی جاوا در پایگاه داده خود پشتیبانی می کند. برای درک بهتر ساختار و نحوه کار HBase به شکل زیر توجه نمایید:همانطور که در شکل بالا ملاحظه می کنید ساختار HBase بر روی فایل سیستم هدوپ (HDFS) قرار دارد و با آن در حال تعامل است بطوری که با استفاده از مکانیسمهای این فایل سیستم، داده ها را ذخیره و بازیابی می نماید. سرورهای کلاستر(Region Server) یا خوشه های HBase متعدد بوده و داده ها بر روی آنها توزیع می شوند. حال هر کلاینت که بخواهد به داده ها بر روی این سرورها دسترسی داشته باشد با در نظر گرفتن نوع مجوز دسترسی یا می تواند بصورت مستقیم به هر کدام از سرورها متصل شده و فعالیت مورد نظر خود را اجرا کند و اینکه به Zookeeper متصل شود تا مکان داده های مورد نظر خود را شناسایی کرده و سپس به سرور مربوطه هدایت شود. در واقع Zookeeper اطلاعات و متا دیتای کل سیستم را نگهداری می کند و می تواند بصورت یک مسیریاب درخواستها را به سرور مورد نظر ارسال کند. چه زمانی باید از HBase استفاده کنیم؟پایگاه داده HBsase برای تمام مسائل و اهداف مناسب نیست. بدین منظور به نکات زیر توجه کنید:ابتدا مطمئن شوید که به اندازه کافی داده در اختیار دارید. اگر صدها میلیون یا میلیارد رکورد دارید در این صورت HBase یک گزینه مناسب برای کار شماست. اگر تنها چندین هزار یا میلیون ردیف داده دارید در این صورت پایگاه های داده رابطه ای انتخاب مناسبتری هستند زیرا ممکن است داده های شما بر روی یک ( یا دو) نود یا ماشین جای گرفته و باقی سرورهای خوشه بدون مصرف بمانند. مثلا در صورتی که یک رابط برای اتصال به فیسبوک و جمع آوری حجم بسیار زیادی داده و با سرعت بالا در اختیار دارید HBase می تواند یکی از گزینه های شما باشد.دوم اینکه مطمئن شوید می توانید بدون بکارگیری ویژگیهای پایگاه های داده رابطه ای مانند ستونهای نامگذاری شده، انواع ایندکسها بر روی جداول، تراکنشها، و زبانهای پرس و جوی پیشرفته به کار خود ادامه دهید. یک برنامه که برای تعامل با محیط پایگاه داده رابطه ای طراحی شده نمی تواند براحتی و تنها با تغییر درایور ارتباطی خود به یک پایگاه داده غیر رابطه ای مانند HBase متصل شود.سوم اینکه باید مطمئن شوید سخت افزار کافی در اختیار دارید. حتی فایل سیستم هدوپ نیز با تعداد نودهای کمتر از 5 معمولا نمی تواند بخوبی کار کند. پایگاه داده HBsase را می توان بخوبی و براحتی بر روی یک لپ تاپ نیز بکار گرفت اما این امر فقط جهت کاربردهای تستی و توسعه ای کاربرد دارد.گروه تحلیلگری عظیم داده و کسب و کار https://t.me/BigData_BusinessAnalytics bdbanalytic bdbanalytic Mon, 21 May 2018 22:18:27 +0430 معرفی پایگاه داده "هدوپ" https://virgool.io/@bdbanalytic/%D9%85%D8%B9%D8%B1%D9%81%DB%8C-%D9%BE%D8%A7%DB%8C%DA%AF%D8%A7%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-%D9%87%D8%AF%D9%88%D9%BE-itjeqgvznixf آپاچی هدوپ یک چارچوب نرم افزاری منبع باز است که برای ذخیره‌سازی و پردازش توزیع شده مجموعه داده‌های عظیم با استفاده از مدل برنامه ریزی MapReduce استفاده می‌شود. این چارچوب شامل خوشه‌ها یا نودهای کامپیوتری می‌باشد که از سخت‌افزارهای ارزان قیمت ساخته می‌شوند. همه ماژول‌ها در هدوپ با این فرض اساسی طراحی شده‌اند که خرابی‌های سخت‌افزاری رخ می دهند و سیستم باید به گونه‌ای طراحی شود که در صورت خرابی بتواند به صورت خودکار مشکل را برطرف کند تا مجموعه سیستم همیشه در حال خدمات دهی باقی بماند.هدوپ شامل دو بخش اصلی می‌باشد : 1. بخش ذخیره سازی داده‌ها با عنوان فایل سیستم توزیعی هدوپ (HDFS)2. بخش پردازشی داده‌ها که یک مدل برنامه ریزی نگاشت – کاهشی می‌باشد (MapReduce). هدوپ تنها به ماژولهای اصلی فوق الذکر محدود نمی‌شود بلکه بصورت یک اکوسیستم شامل چندین نرم‌افزار و ابزار دیگر است که بر روی ماژولها یا در کنار آنها نصب شده و کارایی سیستم را بهبود می‌بخشند. تعدادی از این ابزارها که همگی زیرمجموعه‌ای از آپاچی می‌باشند شامل موارد زیر می‌شوند:Apache PigApache HiveApache HBaseApache PhoenixApache SparkApache ZooKeeperApache FlumeApache SqoopApache OozieApache Stormابزارهای فوق جهت مقاصد و اهداف گوناگونی بکار می روند. برخی بعنوان پایگاه داده، تعدادی برای پردازش و مقاصد دیگر استفاده می‌گردند. قصد داریم در مجموعه پست‌های آینده به معرفی این ابزارها پرداخته و مورد استفاده هر کدام را توضیح دهیم. همانطور که گفته شد، بخش ذخیره سازی هدوپ یا HDFS، یکی از ارکان اصلی این اکوسیستم می‌باشد. این بخش جهت ذخیره عظیم‌داده (معمولا داده‌هایی در اندازه‌های ترابایت و پتابایت) بر روی چندین ماشین و سرور استفاده می‌شود. یکی از این ابزارهای ذخیره سازی که بر روی HDFS نصب می‌شود پایگاه داده Hbase می‌باشد. گروه تحلیلگری عظیم داده و کسب و کار @BigData_BusinessAnalytics bdbanalytic bdbanalytic Sat, 19 May 2018 13:10:43 +0430