اکثر گرفتاری شغلی من سال ها پیش در هنرستان شروع شد درست زمانی که از معلممان (آقای عباسی) اسم وسیله ای را پرسیدم که درمورد آن کنجکاو بودم و کار آن را نمیدانستم و او به من گفت: " آفش جان این یک سوئیچه که کامپیوتر هارو به همدیگه وصل کرده " آنجا بود که اولین بار مفهوم شبکه برای من شکل گرفت و حالا پس از سال ها زیر کولر گازی درحال یخ زدن کنار سرور های HP و روتربرد میکروتیک هستم و اگر آن روز سوال دیگری را از معلممان میپرسیدم احتمالا الان هم شغل دیگری داشتم .
چند وقت پیش مدیر مالی شرکتی که در آن به عنوان توسعه دهنده وب مشغول به کار بودم با من تماس گرفت و به من خبر پنیک آمیزی را داد! سروری که شامل اطلاعات مالی و مهم شرکت بود از دسترس خارج شده بود (همینی که در تصویر مشاهده میکنید) و از من درخواست کرد که مشکل را بررسی و رفع کنم.
در اینجا خیلی مختصر و نه خیلی تخصصی توضیح میدهم که اگر شماهم به عنوان آی تی من دچار همچین مشکلی شده اید و یا دچار همچین مشکلی نشوید چه اقداماتی را باید انجام دهید. این مطلب نه فقط برای آی تی من ها بلکه به عنوان اطلاعات تکمیلی میتواند برای توسعه دهنده ها و گیک ها و علاقه مندان به تکنولوژی شبکه مفید باشد.
خب وضعیت به وجود آمده از این قرار بود:
موعد محاسبه کارکرد و پرداخت حقوق کارمندان و کارگران کارخانه بود ولی این کار امکان پذیر نبود و کسی نمیتوانست موجودی های انبار کارخانه و بارنامه هارا بررسی کند چرا که سرور از دسترس خارج شده بود!
کسی نمیدانست که برنامه های مالی روی کدام سرور قرار دارد و آی تی من قبلی این اطلاعات را به شرکت تحویل نداده بود!
هیچ نقشه ای از کابل کشی ها و نود های قرار گرفته در طبقات مختلف ساختمان دفتر مرکزی موجود نبود و این کابل ها خیلی قدیمی و نا منظم در تمام طبقات پراکنده بودند.
آخرین بک آپ از برنامه مالی هم مربوط به تاریخ یک ماه قبل از این اتفاق بود.
و حالا مدیران شرکت از من انتظار داشتند که این اوضاع را درست کنم چون در رزومه ام نوشته بودم " آشنا با شبکه های کامپیوتری ”.
من دنبال مشکل گشتم و آی پی سرور پینگ نداشت و نمیدانستم این مشکل مربوط به کابل ها یا یکی از نود ها بود یا از خود سرور ولی وقتی وارد اتاق سرور شدم به نظرم همه چیز نرمال میآمد (چراغ های سبز برای من یعنی هیچ مشکلی وجود نداره!) اما هرچند دقیقه یکبار صدای فن های یکی از سرور ها بلند میشد و این به معنای ریبوت شدن سرور بود من از روی همین صدا احتمال دادم که سرور مالی را پیدا کردم البته بقیه سرور هارا چک کردم و مشکلی نداشتند پس مطمئن شدم که سرور مالی همان DL360 نسل ۹ بود و بعد از بوت شدن این اروری که در تصویر زیر میبینید را داشتیم.
این ارور مربوط به Vmware ESXI است که به دلایل فنی ممکن است هنگام نصب یا هنگام اجرای مجازی ساز پیش بیاید دلیل آن هم خرابی یا از دست رفتن فایلی هست که CRC (Cyclic Redundancy check) را میخواند و این برای بوت شدن سرور الزامیست اما دچار خطا شده بود. اگر شماهم موقع نصب مجازی ساز همچین اروری را مشاهده کردید احتمالا دیوایسی که فایل ایزوی مجازی ساز بر روی آن قرار دارد درست بوتیبل نشده است اما در اینجا بعد از چندسال بی وقفه کارکردن این سرور دچار این مشکل شده و احتمالا دلیل سخت افزاری دارد. در این موقعیت اول هاردی که بر روی آن مجازی ساز نصب شده و دارای فلگ بوت هست را باید چک میکردم که ببینم آیا سالم است یا نه اما هارد ها مشکلی نداشتن ( چراغ سبز درحال گردش! ) در همچین موقعیتی معمولا اگر یک ورژن بالا تر از ورژن فعلی مجازی ساز را روی سرور نصب کنید احتمالا بعد از بوت شدن تنظیمات RAID و ماشین های مجازی مجدد قابل شناسایی و استفاده باشد پس من هم یک ورژن بالا تر از ورژن فعلی مجازی ساز را دانلود کردم و با دستور dd در لینوکس ایزوی فایل را روی فلش مموری کلون کردم تا از نو آن را نصب کنم اما موقع فرایند نصب باز با همان ارور CRC برخورد کردم پس مجبور شدم سرور را باز کنم و دنبال مشکل بگردم درواقع داخل سرور بر روی مادربرد یک اسلات برای مموری کارت و دو پورت یو اس بی هم وجود دارد. متوجه شدم که مجازی ساز به جای نصب روی دیسک ها بر روی مموری سامسونگی که روی مادربرد سرور بود نصب شده است که تصویر آن را در زیر مشاهده میکنید و مشکل سوختن مموری کارت بود و دیگر غیر قابل استفاده بود و مجازی ساز هم روی این مموری نصب شده بود.
درواقع ما امکان این را داریم که مجازی ساز را یا روی مموری کارت نصب کنیم یا روی هارد سرور یا حالا بلاک دیوایس های دیگر مثل فلش مموری و این کار به تشخیص و صلاح دید آی تی من بستگی دارد که هر روش مزایا و معایب خودش را هم دارد. نصب مجازی ساز روی هارد دیسک سرور روش آسان و معمول تری هست و خیلی فضای زیادی هم اشغال نمیکند و مشکل خاصی هم به لحاظ فنی و امنیتی ندارد اما امکان نصب بر روی مموری کارت هم وجود دارد که روش جدید تر و پیشرفته تری نسبت به قدیم هاست در این روش باید مموری کارت مناسب و خوب که سازگاری داشته باشد را انتخاب کنیم ولی به لحاظ امنیت اطلاعات این روش ممکن است مشکلاتی داشته باشد از جمله همین مشکل ما که مموری کارت سوخته بود!
من یک فلش مموری تهیه کردم و به همان پورت داخل سرور که روی مادربرد هست وصل کردم و مجازی ساز را روی آن نصب کردم که خیلی کار ساده ای بود و پیچیدگی خاصی نداشت با یک سرچ ساده همه چیز درمورد آن پیدا میشود. یک کار خوبی که آی تی من میتواند بکند این است که همیشه یک فلش بوتیبل ESXI همیشه در دسترس داشته باشد تا در مواقع ضروری از آن استفاده کند. در اینجا پس از نصب به دلیل اینکه تنظیمات بر روی آن مموری کارت سوخته قرار داشت متاسفانه ماشین مجازی های قبلی و تنظیمات RAID قابلیت دسترسی نداشتند پس مجازی ساز را روی هارد نصب کردم و از نو ماشین ها را ساختم و سیستم عامل جدید تری را نصب کردم چون ماشین قبلی ویندوز سرور ۲۰۰۸ بود!
بعد از نصب هم باید از این قسمت که در عکس زیر مشاهده میکنید فلگ بوت رو برای هارد ست کنیم
در نهایت مشکل رفع شد اما هم من و هم بچه های حسابداری تا دیروقت مشغول کار شدیم چون آخرین بک آپ مربوط به سی روز قبل تر از این اتفاق بود و همه مجبور به دوباره کاری شدند!
در اینجا چند نکته وجود دارد یکی از مهم ترین آن ها ضعف مدیریتیست چرا که مدیریت باید تمام اطلاعات فنی لازم را به صورت داکیومنت از آی تی من قبلی تحویل میگرفت تا آن را به نفر بعد منتقل کند. نکته دیگر پیاده سازی نرم افزار و راه اندازی غیر اصولی سرور ها بود که هیچ سرور بک آپی در نظر گرفته نشده بود.
خلاصه اینکه اگر شما آی تی من هستید وضعیت سرور ها و ماشین های مجازی را بررسی کنید تا از به وجود آمدن همچین مشکلی پیشگیری کنید یا آمادگی آن را داشته باشید :)