قطعی فاجعهبار ۷ساعتهٔ فیسبوک از دیدگاهی تراژدی است. چون دلیل طولکشیدنش روشهایی است که برای حفاظت از امنیت اطلاعات کاربران به کار برده است.
برای موفقبودن کسبوکارهای آنلاین، سه نکته اهمیت دارد: یکی اجتماعی، یکی نرمافزاری، یکی سختافزاری. نکتهٔ اجتماعی آن جلب اعتماد عمومی است. داشتن این اولی، بسیار وابسته به دومی است که فراهمکردن امنیت برای اطلاعات خصوصی مردم باشد. کاربران باید مطمئن باشند که اطلاعات خصوصیشان نزد خدماتدهنده محفوظ است. فراهمساختن امنیت اطلاعات نیز به سومین نکته وابسته است که سختافزاری است. یعنی کارآمد بودن مراکزدادهای (Data Center) که همهٔ نرمافزارها و تمام اطلاعات کاربران را در پشت صحنهٔ خدماتِ آنلاین میگردانند.
از ویژگیهای مهم نرمافزار و سختافزار کارآمد یکی داشتن پایایی (Availability) است. پایایی بهزبان ساده یعنی سیستم از کار نیفتد، قطع نشود. با این مقدمه حادثهٔ ازکارافتادگی بزرگ فیسبوک در روز دوشنبه (۲۱ مهر ۱۴۰۰) افتضاح بود. زیرا همهٔ خدمات این شرکت از جمله سه شبکهٔ اجتماعی فیسبوک و واتساپ و اینستاگرام، در یک روز بهمدت ۷ ساعت یعنی ۴۲۰ دقیقه قطع بودند. این مدت از قطعی خدمات، ۴ برابر بیشتر از میانگین خرابی تأسیسات مراکزدادهٔ آمریکای شمالی در سال است. اخبار میگوید فیسبوک در این ۷ ساعت نزدیک به ۷۰ میلیون نفر از کاربرانش را به تلگرام باخت.
اما وقتی به دلایل فنی این حادثه نگاه میکنیم، در آن تراژدی میبینیم. زیرا چنانکه فیسبوک خودش میگوید، دلیل طولانیشدن این ازکارافتادگی احتیاطهایی بوده است که برای افزایش امنیت اطلاعات کاربران، در طراحی سیستمهای نرمافزاری و سختافزاری به کار برده است. مانند این شد که کسی دروپیکر خانهاش را برای جلوگیری از دزدی ششقفله کند؛ بعد دچار آتشسوزی بشود و خودش از داخل پشت همان درهای ششقفله گرفتار شود.
هنگام عملیات نگهداری و تعمیر، دستوری اشتباه باعث میشود ارتباط کل فیسبوک با اینترنت قطع شود. فیسبوک در سیستمهایش ابزاری دارد که جلوی چنین خطاهایی را میگیرد. اما در آن حادثه این ابزار درست کار نمیکند و جلوی فرمان اشتباه را نمیگیرد. نتیجه اینکه ستون فقرات شبکهٔ جهانیِ (Backbone Network) فیسبوک قطع میشود.
ویژگی طراحی شبکهٔ فیسبوک کار را پیچیدهتر میکند؛ چنانکه هیچ شکل از ارتباط با سرورها ممکن نمیشود و مهندسان نمیتوانند مشکل را از راه دور و بدون حضور فیزیکی در مراکزداده حل کنند.
فیسبوک مهندسانش را برای واردشدن به تأسیسات میفرستد. ولی این قطعی شبکه، عبور از سیستمهای حفاظت فیزیکی را نیز دشوار کرده است و داخلکردن مهندسان به مراکزداده طول میکشد.
پس از واردشدن به تأسیسات، باید مشکل دیگری را حل میکردند. طراحی سرورها و سختافزارهای فیسبوک بهگونهای است که کارکردن و تغییردادن آنها بهشکل مستقیم و با حضور پشت کامپیوترها دشوار است.
سرانجام پس از رفع اشکال شبکه، آنها میبایست برای غول آخر چارهای مییافتند. مشکل این بود که در هنگام قطعی شبکه، مصرف برق تأسیسات بسیار کم شده بود. اگر ناگهان وصل میشدند، هجوم کاربران و افزایش ترافیک چنان ناگهانی مصرف برق را افزایش میداد که آن را سیستمها و سختافزارها و تجهیزات تحمل نمیکردند و بهسرعت خراب میشدند. چنین ازکارافتادگیای سختافزاری و بسیار بدتر و درستکردن آن دشوارتر از اولی بود. بنابراین برای اینکه از چاله به چاه نیفتند، ناچار شدند کمکم به شبکه بیایند تا گرفتار این تخریب گسترده نشوند.
«ما سخت کار کردهایم تا سیستممان مقاوم باشد و از دسترسیهای غیرمجاز جلوگیری کرده باشیم. در این حادثه جالب بود که دیدیم آن مقاومکردنِ سیستم چگونه سرعت تلاش ما را برای برطرفکردن ازکارافتادگی کُند کرد؛ آنهم اشکالی که دلیلش خرابکاری نبود. من معتقدم امنیت روزافزونی که فراهم میکنیم، به این کندشدنِ بازیابی پس از ازکارافتادگی میارزد. البته که امیدواریم چنین رویدادی نادر باشد.» (سانتوش جاناردان، معاون زیرساخت فیسبوک)
متن خبری را که به این حادثه با جزئیات فنی پرداخته است، به فارسی برگرداندهام. علاقهمندان میتوانند آن را در نشانی این عنوان بخوانند: «ازکارافتادگی خدمات مرکزدادهای فیسبوک چگونه رخ داد و چرا طول کشید»