گزارش مشکل پیش آمده در ۱۳ به در
سرویس باهمتا در روز های ۱۲ و ۱۳ فروردین ۹۷ به مدت ۲۶ ساعت از کار افتاد. گزارشی از اتفاق رخ داده را در این نوشته آوردهایم تا هم کاربران از آن باخبر باشند و هم درسی باشد برای جلوگیری از تکرار این اتفاق.
ظهر ۱۲ فروردین متوجه شدیم که هیچ کدام از سرویس های باهمتا کار نمیکنند. چیزی که عجیب بود این بود که به سرورها دسترسی داشتیم ولی سرویسها کار نمیکردند. با ورود به بخش کنترل پنل سرویس میزبانی، پیامی دیدیم که بخشی از دیتاسنتر با مشکل روبرو شده است. مشکل از سیستم ذخیره سازی بود. یعنی دیسکهای سخت که برای ذخیره سازی به کار میروند کلا با مشکل روبرو شده بودند و امکان ذخیرهی هیچ چیزی وجود نداشت.
این یعنی سرویس دهندهها، وب سرورها، دیتابیسها و دیگر بخشها هیچ کدام امکان دسترسی به دیسک و ذخیره سازی و یا بازیابی اطلاعات را نداشتند. جملهی پیش یعنی یک فاجعه رخ داده و دسترسی به همه چیز را از دست دادهایم ولی چون به سیستم پشتیبان گیری خودمان اطمینان داشتیم، خیلی نگران نشدیم.
در باهمتا برای سرویس دهی، چندین سرور راه اندازی کردهایم تا اگر یکی از آنها از کار افتاد، بتوانیم به سرعت به سراغ سرور دیگری برویم و سرویس دهی ادامه پیدا کند. وقتی چند دیتابیس داشته باشید، برای اینکه بتوانید به سرعت به سراغ سرور بعدی بروید، این سرورها همیشه باید با هم هماهنگ و همگام باشند. اگر چیزی روی یکی از آنها نوشته میشود باید روی دیگری هم نوشته شود. اگر این کار انجام نشود، نمیتوان سرورها را با هم جایگزین کرد. وقتی قرار است هر چیزی همزمان روی چند جا نوشته شود، اگر فاصلهی فیزیکی میان آنها زیاد باشد، با کندی روبرو میشوید.
ما برای جلوگیری از کندی، همهی سرویس دهندههای دیتابیس را در یک دیتاسنتر گذاشته بودیم تا فاصلهی فیزیکی میان آنها کم باشد و سرعت کاهش پیدا نکند. آمادگی ما برای موقعیتی بود که یکی از سرورها مشکل پیدا کند و اینکه یک دیتاسنتر مشکل پیدا کند خیلی دور از ذهن بود. ولی برای اینکه اگر دیتاسنتر هم مشکلی پیدا کرد اطلاعات کاربران از میان نرود، یک سرور پشتیبان هم در یک دیتاسنتر دیگر داشتیم.
سرویس میزبانی هم هر چند ساعت یکبار اعلام میکرد که در حال کار روی مشکل هستند. ما هم گمان میکردیم که بزودی مشکل حل میشود. مشکلی که کل یک دیتاسنتر را از کار انداخته، احتمالا باید خیلی سریع حل شود چون سرویسهای بسیار زیادی روی آن هستند. از سوی دیگر، راه اندازی همهی سرویسهای باهمتا روی یک دیتاسنترِ دیگر، کار بسیار طولانی و زمانبری هست و حدس میزدیم که پیش از راه اندازی در دیتاسنتر دیگر، مشکل دیتاسنتر فعلی حل میشود. از اینرو تصمیم گرفتیم تا صبر کنیم. این تصمیم خطایی بود که گرفتیم.
روی کانال باهمتا در تلگرام هم پیامی گذاشتیم و اطلاع دادیم که سرویس باهمتا به دلیل خرابی دیتاسنتر با مشکل روبرو شده است. جالب اینکه روز ۱۲ فروردین امسال برابر با ۱ آوریل بود، و از آنجا که معمولاً یک خبر دروغ در این روز منتشر میشود، یکی از کاربران پیام زیر را برایمان فرستاده بود:
«اینو دیدم تقریبا مطمئن بودم دروغ ۱ آوریله، ولی نبود ? آخه ۱ آوریل وقت خرابی دیتاسنتره؟؟»
ساعت ۲۱:۰۰ شده بود و همچنان سرویس میزبانی نتوانسته بود کاری بکند. کمی بعد اعلام کرد که کار راه اندازی دیسکها آغاز شده ولی به کندی پیش میرود. خوشحال بودیم از این که فرآیند راهاندازی آغاز شده ولی این که به کندی پیش میرفت، مشخص نمیکرد که چه زمانی راه اندازی کامل میشود. باز هم صبر کردیم.
نیمه شب دیگر صبر نکردیم و فرایند انتقال به یک دیتاسنتر دیگر را آغاز کردیم. حدس میزدیم که شاید ۴ ساعت زمان ببرد. به سراغ سرور پشتیبان دیتابیس رفتیم و تازه متوجه عمق فاجعه شدیم. حدود ۶ ساعت از دادهها در سرور پشتیبانی نیامده بودند. این بدترین اتفاق ممکن بود. از آنجا که نمیتوانیم هیچ دادهای را از دست بدهیم، مجبور شدیم راهکار دیگری را انجام بدهیم که وارد کردن دستی دادهها از لاگها به سرور دیتابیس بود. لاگها در جای دیگری ذخیره میشدند بنابراین به آنها دسترسی داشتیم. این فرایند دستی بسیار زمان بر بود و خود به تنهایی نزدیک به ۵ ساعت زمان برد.
ساعت ۹:۰۰ سرانجام به یک وضعیت مناسب در دیتابیس رسیدیم و به سراغ راه اندازی دیگر سرورها رفتیم. این فرایند هم هر چند زمانبر بود اما سرانجام در ساعت ۱۴:۰۵به پایان رسید و سرویس دهی آغاز شد.
در تمام این مدت ما همچنان منتظر بودیم تا مشکل دیتاسنتر اصلی برطرف شود، اما این اتفاق ۱۲ ساعت پس از راهاندازی دیتاسنتر جایگزین صورت گرفت. خوشبختانه بااین جایگزینی توانستیم زمان پایین بودن سرویس را ۱۲ ساعت کاهش دهیم.
از وضعیت پیش آمده بسیار ناراحت بودیم ولی درسی شد برای ادامهی راه باهمتا. امیدواریم این درسها برای دیگران هم سودمند باشند:
- دیتاسنترها هم علاوه بر سرورها به مشکل میخورند. همهی تخم مرغها را در یک سبد و همهی سرورها را در یک دیتاسنتر نگذارید.
- کمی کندی بهتر از ۲۶ ساعت پایین بودن سرویس است.
- از همان آغاز، فرض را به بدترین حالت بگذارید و فرآیند جایگزین را آغاز کنید. ما اگر این کار را کرده بودیم، میتوانستیم ۱۲ ساعت دیگر را صرفه جویی کنیم.
- نسخههای پشتیبان را به صورت پیوسته کنترل کنید.
همیشه بروز چند مشکل با هم، باعث پیش آمدن یک فاجعه می شوند. در این مورد، نگهداری همهی سرورها بر روی یک دیتاسنتر، خرابی همان دیتاسنتر، مشکل در پشتیبانگیری از دادهها، و تصمیم خطا برای انتظار، همه دست به دست هم دادند تا سرویس برای زمان زیادی از دسترس کاربران خارج باشد. هر کدام از اینها اگر نبودند اندازهی این مشکل به شدت کاهش پیدا میکرد.
کاربران ما اگر نتوانند به سرویس ما اعتماد کنند، ما را ترک خواهند کرد. تصمیم گرفتیم تا بهتر از پیش باشیم و بزودی تغییراتی خواهیم داد تا چنین مشکلاتی دیگر پیش نیایند و هدف ما این است که سرویس باهمتا همیشه در دسترس باشد.
باز هم به دلیل این مشکل از شما پوزش میخواهیم و سپاسگزاریم که از سرویس ما استفاده میکنید.
Photo by NordWood Themes on Unsplash
مطلبی دیگر از این انتشارات
چگونه از دیگران پول خود را می گیرید
مطلبی دیگر از این انتشارات
تغییر زمان تسویه
مطلبی دیگر از این انتشارات
تجربه همکاری با پادکست بیپلاس