خواندن ۲ دقیقه·۷ سال پیش

داستان کوتاهی در مورد I/O Error

خرابی سخت افزار یک اتفاق عجیب نیست و امری عادی در رویه عمر قطعات الکتریکی و الکترونیکی محسوب می شود. مستعدترین قطعه از نظر خرابی هارد دیسک ها هستند و این دلیلی است برای استفاده از RAID به منظور کاهش خسارت ناشی از این رخداد.

در تئوری داده های بر روی دیسک عضو RAID می تواند در برابر خرابی مصون باشد و RAID هارد دیسک جدید را بازسازی می کند.
اما این امر متاسفانه همیشه رخ نمی دهد. در برخی از موارد ممکن است سیستم عامل با خطای I/O مواجه شود و حتی بدتر از آن: سرور از سرویس دهی باز بماند. دقیقاً شبیه به این مشکل برای سرور ما رخ داد. در یک صبح زیبای چهارشنبه متوجه یک مشکل وحشتناک شدیم: یکی از سرورها در دسترس نبود و حتی پینگ آن را نیز از دست داده بودیم.
بنابراین مجبور شدیم سرور را ابتدا بصورت سخت افزاری خاموش کرده -Power Off- و سپس آن را روشن نماییم؛ صحنه ی جالبی نبود، با RAID کج خلقی مواجه بودیم و سیستم عامل Boot نمی شد. خوشبختانه در Reboot بعدی سیستم عامل بالا آمد. اولین کاری که انجام دادیم تهیه Backup جدید از SQL Application Database بود. نرم افزار بخوبی کار می کرد بنابراین تصمیم گرفتیم تا با همین شرایط ادامه دهیم تا چند ساعت بعد بازسازی RAID را انجام دهیم.
متاسفانه بعد از چند ساعت سرور مجدداً هنگ کرد. این بار سرور پینگ داشت اما کنسول و SQL Application هیچ حرکتی را انجام نمی داد. بعد از خاموش کردن سرور هارد دیسک معیوب را از سرور جدا کردیم و سرور را بدون هارد دیسک معیوب روشن نمودیم سرور بدون هیچ گونه مشکلی بالا آمد.
بنابراین هارد دیسک معیوب در جایگاهی قرار داشت که موجب هنگ کردن سرور می شد. با توجه به تجربه ی شخصی من این اتفاق با هرگونه برندی می توانست رخ دهد. و از فروشنده ی این دست قطعات نمی توان گله ی زیادی داشت.
آدرس این مشکل را در راهکارهای iSCSI and NAS (NFS) Failover قرار داده ایم.
اگر به تداوم کسب و کار (Business Continuity) احتیاج دارید لطفاً به سیستم های HA Cluster نیز توجه ویژه ای داشته باشید. از داده ها با استفاده از سیستم ها و راهکارهای پشتیبانگیری حرفه ای حفاظت کنید و به یاد داشته باشید: از دست رفتن سخت افزار امر غیرعادی و عجیبی نیست و یک پروسه ی طبیعی است.

منبع