خواندن ۴ دقیقه·۶ سال پیش

چه مواردی در پنل مانیتورینگ مهم است؟

برای هر سیستم در حال سرویس‌دهی و حتا سرویس‌هایی که در مرحله‌ی راه‌اندازی هستند، مانیتورینگ از اهمیت ویژه‌ای برخوردار است.
مانیتورینگ در چند لایه و توسط ابزارهای مختلف انجام می‌شود، اما در بخش NOC چه مواردی باید مانیتور شود؟ بزرگترین دغدغه‌ی مدیران در تیم‌های نگهداری ابتدا این است که سامانه‌های پایش توانایی شناخت درست مشکل را داشته باشند و نفرات تیم درک درستی از اتفاق‌ها و پیشامدها داشته باشند. در صورتی که پنل مانیتورینگ شلوغ و پر از موارد سطح یک باشد، عملا بعد از مدتی نیروهایی که باید اولین حرکت را پس از اتفاق انجام بدهند، نسبت به اتفاق‌ها بی‌حس و پس از مدتی دچار عادت به شرایط همیشه ویژه خواهند شد.
در این مقاله قصد دارم با توجه به تجربیات نه‌چندان خوشایند خودم در مدیریت تیم‌های نگهداری، این موارد را تبین کنم.

سطح‌بندی وقایع
قطعا هر واقعه یا حادثه‌ی پیش‌آمده حیاتی نیست! پس از مدتی با ازدیاد موارد حیاتی سیستم مانیتورینگ از کار می‌افتد. عملا SLA و OLA نقض خواهد شد و کارها با پیچیده‌شدن در یکدیگر عملا غیر قابل حل خواهند شد. از طرفی اکثر وقایع توسط یک‌نفر یا یک تخصص مورد بررسی نیست و باید توسط چند تخصص مختلف بازبینی شود و این موارد را پیچیده‌تر می‌کند.
شناخت مواردی که ممکن‌است پیش‌بیاید و سطح‌بندی آن‌ها این امکان را می‌دهد که ابتدا موارد را از نظر اهمیت دسته‌بندی و مدت زمان مورد نیاز برای حل آن‌ها را پیش‌بینی کنیم.
در اکثر سیستم‌های سطح‌بندی در نظر گرفتن چهار یا پنج سطح توصیه می‌شود.
جداسازی زیرساخت از سرویس
باید بپذیریم که زیرساخت از سرویس جدا نیست، اما نحوه‌ی نگرش به آن‌ها مهم است. به عنوان نمونه اگر سوییچ هسته‌ی یک زیرساخت از مدار خارج یا دچار مشکل شود، عملا هیچ سرویسی در کار نخواهد بود. برای همین منظور ایجاد افزونگی یا همان Redundancy در لایه‌ی زیرساخت در همه‌ی سطوح توصیه می‌شود. عملا از هر المان در زیرساخت باید دو مورد داشته باشیم با درنظر گرفتن تمام موارد شامل برق، پوپی‌اس، تابلوی مجزا، رک مجزا، حتا دیتاسنترهای موازی برای پوشش سرویس. در این صورت با این جداسازی، نگرش تیم مانیتورینگ نسبت به وقایع پیشامده‌ی زیرساختی با سرویسی متفاوت خواهد بود.
پنل‌های اختصاصی برای نیروی پایش
صفحه‌های اختصاصی در نرم‌افزار‌های مانیتورینگ باید در نگاه اول باید به فرد پایشگر بگوید که در سیستم (اعم از زیرساخت و سرویس) مشکلی وجود دارد یا خیر. به همین سادگی! خیلی واضح وضعیت کلی سرویس را با علامت سبز و موراد مشکل را با رنگ قرمز نشان دهد. آلارم‌های صوتی در صورت رخداد حادثه نیز می‌تواند تکمیل کننده‌ی این نگاه اول باشد.
اما چه چیزهای دیگری مورد نیاز است؟
صفحه‌ای از تمام وقایع مهم، لیست اتفاق‌ها باید با ذکر ساعت وقوع در جلوی چشم نیروی مانیتورینگ باشد. همچنین در صورتی که نیروی مانیتورینگ واقعه را می‌بیند، باید در بخش Acknowledge هر واقعه موارد پیگیری شده را بنویسد تا موارد دیده نشده یا پیش‌آمده در زمان پیگیری موارد قبلی از قلم نیوفتند. همچنین یادداشت در این بخش می‌تواند برای بررسی موضوع راهگشا باشد.
صفحه‌ای برای نمایش ابزارهایی که زیرساخت و سرویس را در زمان‌های منظم تست می‌کنند نیز باید وجود داشته باشد تا سیستم نقص‌های منطقی سرویس را نیز مشخص کند.
تیکت‌شدن هر واقعه
درست است که هر موضوعی باید تیکت شود، اما با فرض اینکه در بالاترین لایه‌ی زیرساخت می‌تواند منجر به ایجاد هزاران تیکت شود. ارتباط دادن این حجم از تیکت با موضوع عملا غیر ممکن است. برای همین در این بخش زنجیره‌ی اهمیت و سطح‌بندی اهمیت ویژه‌ای پیدا می‌کند.
اما تیکت شدن دستی هر اتفاق با وجود اینکه خالی از عیب نیست، اما در شروع راه‌حل مناسب‌تری است.
بررسی روزانه و هفتگی تیکت‌ها باعث فهمیدن نقص در طراحی و جلوگیری از پیشامدهای یکسان می‌شود.
ایجاد پایگاه دانش
پس از هر رخداد، باید در پی رفع آن ایراد بود. پس از آن باید در پی یافتن علت بود و سپس ایجاد راهکارهای موقت و قطعی برای جلوگیری از پیشامد یا حل کردن آن مساله بایستی انجام شود. در صورتی که سیستم اصلاح نشود، یک اتفاق بارها و بارها بلای جان سرویس می‌شود. با رفت و آمد نیروها هم معمولا دانش و تجربه به درستی منتقل نمی‌شود. ایجاد پایگاه دانش مبتنی بر تیکت‌ها و قراردادن علت و راهکاری حل مساله می‌تواند کمک شایانی به حل مسائل در موراد بعدی باشد. همچنین کار را برای فرآیند جانشینی و آموزش نیروهای جدید هموار می‌کند.
آموزش، آموزش و آموزش
تمامی ابزارها، تست‌ها و تجارب دنیا هیچ تاثیری در سرویس‌دهی بهتر ندارند اگر نیروی مانیتورینگ درک درستی از تصویر کلی زیرساخت و نحوه‌ی عملکرد سرویس نداشته باشد. تشخیص درست در زمان کم مهمترین دستاورد یک تیم نگهداری خوب است. این مهم بدون آموزش مداوم به دست نخواهد آمد.

مانیتورینگپنلزیرساخت

Conformist

یک‌نفر سرگردان می‌نویسد

شاید از این پست‌ها خوشتان بیاید

Conformist

خواندن ۴ دقیقه·۶ سال پیش

چه مواردی در پنل مانیتورینگ مهم است؟

سطح‌بندی وقایع
قطعا هر واقعه یا حادثه‌ی پیش‌آمده حیاتی نیست! پس از مدتی با ازدیاد موارد حیاتی سیستم مانیتورینگ از کار می‌افتد. عملا SLA و OLA نقض خواهد شد و کارها با پیچیده‌شدن در یکدیگر عملا غیر قابل حل خواهند شد. از طرفی اکثر وقایع توسط یک‌نفر یا یک تخصص مورد بررسی نیست و باید توسط چند تخصص مختلف بازبینی شود و این موارد را پیچیده‌تر می‌کند.
شناخت مواردی که ممکن‌است پیش‌بیاید و سطح‌بندی آن‌ها این امکان را می‌دهد که ابتدا موارد را از نظر اهمیت دسته‌بندی و مدت زمان مورد نیاز برای حل آن‌ها را پیش‌بینی کنیم.
در اکثر سیستم‌های سطح‌بندی در نظر گرفتن چهار یا پنج سطح توصیه می‌شود.
جداسازی زیرساخت از سرویس
باید بپذیریم که زیرساخت از سرویس جدا نیست، اما نحوه‌ی نگرش به آن‌ها مهم است. به عنوان نمونه اگر سوییچ هسته‌ی یک زیرساخت از مدار خارج یا دچار مشکل شود، عملا هیچ سرویسی در کار نخواهد بود. برای همین منظور ایجاد افزونگی یا همان Redundancy در لایه‌ی زیرساخت در همه‌ی سطوح توصیه می‌شود. عملا از هر المان در زیرساخت باید دو مورد داشته باشیم با درنظر گرفتن تمام موارد شامل برق، پوپی‌اس، تابلوی مجزا، رک مجزا، حتا دیتاسنترهای موازی برای پوشش سرویس. در این صورت با این جداسازی، نگرش تیم مانیتورینگ نسبت به وقایع پیشامده‌ی زیرساختی با سرویسی متفاوت خواهد بود.
پنل‌های اختصاصی برای نیروی پایش
صفحه‌های اختصاصی در نرم‌افزار‌های مانیتورینگ باید در نگاه اول باید به فرد پایشگر بگوید که در سیستم (اعم از زیرساخت و سرویس) مشکلی وجود دارد یا خیر. به همین سادگی! خیلی واضح وضعیت کلی سرویس را با علامت سبز و موراد مشکل را با رنگ قرمز نشان دهد. آلارم‌های صوتی در صورت رخداد حادثه نیز می‌تواند تکمیل کننده‌ی این نگاه اول باشد.
اما چه چیزهای دیگری مورد نیاز است؟
صفحه‌ای از تمام وقایع مهم، لیست اتفاق‌ها باید با ذکر ساعت وقوع در جلوی چشم نیروی مانیتورینگ باشد. همچنین در صورتی که نیروی مانیتورینگ واقعه را می‌بیند، باید در بخش Acknowledge هر واقعه موارد پیگیری شده را بنویسد تا موارد دیده نشده یا پیش‌آمده در زمان پیگیری موارد قبلی از قلم نیوفتند. همچنین یادداشت در این بخش می‌تواند برای بررسی موضوع راهگشا باشد.
صفحه‌ای برای نمایش ابزارهایی که زیرساخت و سرویس را در زمان‌های منظم تست می‌کنند نیز باید وجود داشته باشد تا سیستم نقص‌های منطقی سرویس را نیز مشخص کند.
تیکت‌شدن هر واقعه
درست است که هر موضوعی باید تیکت شود، اما با فرض اینکه در بالاترین لایه‌ی زیرساخت می‌تواند منجر به ایجاد هزاران تیکت شود. ارتباط دادن این حجم از تیکت با موضوع عملا غیر ممکن است. برای همین در این بخش زنجیره‌ی اهمیت و سطح‌بندی اهمیت ویژه‌ای پیدا می‌کند.
اما تیکت شدن دستی هر اتفاق با وجود اینکه خالی از عیب نیست، اما در شروع راه‌حل مناسب‌تری است.
بررسی روزانه و هفتگی تیکت‌ها باعث فهمیدن نقص در طراحی و جلوگیری از پیشامدهای یکسان می‌شود.
ایجاد پایگاه دانش
پس از هر رخداد، باید در پی رفع آن ایراد بود. پس از آن باید در پی یافتن علت بود و سپس ایجاد راهکارهای موقت و قطعی برای جلوگیری از پیشامد یا حل کردن آن مساله بایستی انجام شود. در صورتی که سیستم اصلاح نشود، یک اتفاق بارها و بارها بلای جان سرویس می‌شود. با رفت و آمد نیروها هم معمولا دانش و تجربه به درستی منتقل نمی‌شود. ایجاد پایگاه دانش مبتنی بر تیکت‌ها و قراردادن علت و راهکاری حل مساله می‌تواند کمک شایانی به حل مسائل در موراد بعدی باشد. همچنین کار را برای فرآیند جانشینی و آموزش نیروهای جدید هموار می‌کند.
آموزش، آموزش و آموزش
تمامی ابزارها، تست‌ها و تجارب دنیا هیچ تاثیری در سرویس‌دهی بهتر ندارند اگر نیروی مانیتورینگ درک درستی از تصویر کلی زیرساخت و نحوه‌ی عملکرد سرویس نداشته باشد. تشخیص درست در زمان کم مهمترین دستاورد یک تیم نگهداری خوب است. این مهم بدون آموزش مداوم به دست نخواهد آمد.

مانیتورینگپنلزیرساخت

Conformist

یک‌نفر سرگردان می‌نویسد

شاید از این پست‌ها خوشتان بیاید