ویرگول
ورودثبت نام
صابر طباطبائی یزدی
صابر طباطبائی یزدیبرنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
صابر طباطبائی یزدی
صابر طباطبائی یزدی
خواندن ۹ دقیقه·۲ ماه پیش

شش درس شگفت‌انگیز از Netflix و Google که نگاه شما را به استقرار نرم‌افزار تغییر می‌دهد.

مقدمه: پایان کابوس‌های روز استقرار

برای بسیاری از مهندسان نرم‌افزار، روز استقرار با استرس و نگرانی همراه است. چه اتفاقی می‌افتد اگر یک باگ پنهان، زیرساخت را از کار بیندازد و باعث یک قطعی بزرگ شود؟ این کابوسی است که بسیاری از تیم‌ها با آن زندگی می‌کنند. اما شرکت‌هایی مانند Netflix و Google این فرآیند پرخطر را با استفاده از استراتژی‌های تحویل مستمر (Continuous Delivery)، به یک عملیات روتین، ایمن و حتی «خسته‌کننده» تبدیل کرده‌اند. آن‌ها به نقطه‌ای رسیده‌اند که استقرار نرم‌افزار جدید نه یک رویداد بزرگ، بلکه یک فعالیت روزمره است. در این مقاله، شش مورد از تأثیرگذارترین و شگفت‌انگیزترین درس‌هایی را که از شیوه‌های آن‌ها می‌توان آموخت، بررسی خواهیم کرد تا شما هم بتوانید استقرار را از یک کابوس به یک مزیت رقابتی تبدیل کنید.

--------------------------------------------------------------------------------

۱. داستان واقعی و تلخ «قناری» در معدن زغال‌سنگ

چرا یک استراتژی استقرار پیشرفته در دنیای نرم‌افزار به نام یک پرنده زرد کوچک و زیبا نام‌گذاری شده است؟ پاسخ در یک داستان تاریخی و غم‌انگیز نهفته است.

در دهه ۱۹۲۰، معدنچیان زغال‌سنگ قناری‌ها را در قفس به داخل معادن می‌بردند. این پرندگان کوچک به دلیل حساسیت بالای سیستم تنفسی‌شان، به عنوان یک سیستم هشدار اولیه برای گازهای سمی مانند مونوکسید کربن عمل می‌کردند. اگر غلظت گازهای سمی در هوا افزایش می‌یافت، قناری قبل از انسان‌ها از پا در می‌آمد و مرگ ناگهانی آن به معدنچیان هشدار می‌داد که هوا سمی است و باید فوراً آنجا را تخلیه کنند.

این داستان تلخ، الهام‌بخش یکی از هوشمندانه‌ترین استراتژی‌های استقرار نرم‌افزار شده است. در استقرار قناری (Canary Deployment)، نسخه جدید نرم‌افزار ابتدا فقط روی یک سرور یا بخش کوچکی از کاربران منتشر می‌شود. این سرور نقش همان قناری را بازی می‌کند و به عنوان یک «شاخص هشدار اولیه» عمل می‌کند. اگر مشکلی در عملکرد، مصرف منابع یا خطاهای آن مشاهده شود، تیم متوجه می‌شود که نسخه جدید سمی است و از انتشار آن برای همه کاربران (یک فاجعه بزرگتر) جلوگیری می‌کند.

«مرگ قناری نشان می‌داد که سمیت هوا بالاست و به معدنچیان هشدار می‌داد که فوراً محل را تخلیه کنند... در استقرار قناری ما، آن یک سروری که انتخاب کرده‌ایم نقش همان قناری را ایفا می‌کند که به ما می‌گوید آیا همه چیز خوب است یا مشکلی وجود دارد.»

--------------------------------------------------------------------------------

۲. چرا بهترین استقرار، یک استقرار «خسته‌کننده» است

مدل سنتی انتشار نرم‌افزار، معروف به «انتشار بزرگ» (big bang release)، یک رویداد پرهیجان و پراسترس است. هفته‌ها یا حتی ماه‌ها برنامه‌ریزی، فریز کردن کد، تست‌های فشرده و در نهایت، یک شب پر از نگرانی برای استقرار نسخه جدید. اما در دنیای تحویل مستمر، هدف دقیقاً برعکس است: تبدیل کردن فرآیند استقرار به یک اتفاق کاملاً روتین و عادی.

در کتاب "Continuous Delivery with Spinnaker" که بر اساس تجربیات Netflix نوشته شده، این فلسفه به زیبایی بیان شده است:

«در عوض، انتشار نرم‌افزار جدید برای کاربران باید روتین، خسته‌کننده و آنقدر آسان باشد که بتواند چندین بار در روز اتفاق بیفتد.»

«خسته‌کننده» بودن در اینجا یک مزیت بزرگ است. وقتی استقرارها کوچک، مکرر و خودکار هستند، ریسک به شدت کاهش می‌یابد. به جای انتشار صدها تغییر به یکباره، شما تغییرات کوچک را یکی‌یکی منتشر می‌کنید. این رویکرد حلقه‌های بازخورد را سریع‌تر می‌کند؛ اگر مشکلی پیش بیاید، دقیقاً می‌دانید کدام تغییر کوچک باعث آن شده است. در نتیجه، توسعه‌دهندگان به جای نگرانی در مورد روز استقرار، می‌توانند تمام انرژی خود را بر روی نوآوری و بهبود محصول متمرکز کنند.

--------------------------------------------------------------------------------

۳. درس گوگل: قدرت مدل اعلانی و ارکستراسیون بومی

در حالی که Netflix با ابزاری مانند Spinnaker بر روی ساخت پایپ‌لاین‌های استقرار قدرتمند (روش دستوری یا Imperative) تمرکز کرده، گوگل با معرفی Kubernetes یک درس متفاوت و به همان اندازه مهم را به دنیا آموخت: قدرت ارکستراسیون بومی و مدل اعلانی (Declarative).

این ایده ریشه در سیستم داخلی گوگل به نام Borg دارد؛ سیستمی که سال‌ها برای مدیریت و زمان‌بندی تمام سرویس‌های گوگل (از جستجو تا Gmail) که در کانتینرها اجرا می‌شوند، استفاده می‌شد. Kubernetes در واقع نسخه تکامل‌یافته و متن‌باز Borg است.

درس کلیدی در اینجا یک تغییر پارادایم است: به جای اینکه به سیستم بگوییم «چگونه» یک نرم‌افزار را قدم به قدم مستقر کند (مثلاً سرور بساز، کد را کپی کن، سرویس را ری‌استارت کن)، ما فقط «وضعیت مطلوب نهایی» را در یک فایل مانیفست تعریف می‌کنیم. برای مثال، می‌گوییم: «من سه نسخه از این کانتینر را می‌خواهم که همیشه در حال اجرا باشند و از طریق این Load Balancer در دسترس باشند».

این وظیفه Kubernetes است که به طور مداوم واقعیت را با این تعریف تطبیق دهد. اگر یک کانتینر از کار بیفتد، Kubernetes به طور خودکار یکی دیگر را جایگزین می‌کند. اگر نیاز به آپدیت باشد، Kubernetes خودش فرآیند جایگزینی تدریجی (rolling update) را مدیریت می‌کند. این رویکرد بسیاری از پیچیدگی‌های عملیاتی مانند کشف سرویس (service discovery)، خودترمیمی (auto-healing) و مقیاس‌پذیری خودکار (auto-scaling) را به بخشی ذاتی از پلتفرم تبدیل می‌کند و سردردهای تیم‌های دواپس را به شدت کاهش می‌دهد.

--------------------------------------------------------------------------------

۴. خرد نامتعارف: تست در پروداکشن، یک استراتژی هوشمندانه است

ایده «تست در پروداکشن» برای بسیاری از مهندسان یک تابو و معادل بی‌احتیاطی محض است. اما استقرار قناری این تابو را به یک استراتژی هوشمندانه و کنترل‌شده تبدیل می‌کند. این روش به شما اجازه می‌دهد تا تغییرات را «در محیط پروداکشن با کاربران واقعی و ترافیک واقعی» آزمایش کنید.

مزیت این رویکرد چیست؟ هیچ محیط تستی، هر چقدر هم که دقیق باشد، نمی‌تواند پیچیدگی‌های محیط پروداکشن را به طور کامل شبیه‌سازی کند. تست‌های واحد، یکپارچه‌سازی یا QA ممکن است تمام موارد استثنایی (edge cases) را پوشش ندهند. استقرار قناری به شما اجازه می‌دهد عملکرد واقعی کد را تحت بار واقعی و در تعامل با کاربران واقعی بسنجید و مشکلات عملکردی یا باگ‌هایی را کشف کنید که در هیچ محیط دیگری قابل شناسایی نبودند.

نکته کلیدی، ایمنی این روش است. از آنجایی که نسخه جدید فقط برای درصد کمی از کاربران (مثلاً ۵٪) فعال می‌شود، در صورت بروز مشکل، «شعاع انفجار» (blast radius) بسیار محدود است. ۹۵٪ کاربران هرگز متوجه وجود مشکل نمی‌شوند و تیم می‌تواند به سرعت نسخه معیوب را از دسترس خارج کند.

البته این رویکرد یک نقطه ضعف نیز دارد: اگر این کار به طور مکرر و بدون نظم انجام شود، ممکن است مهندسان به تست در پروداکشن «عادت» کنند و از شیوه‌های مهندسی صحیح و تست‌های کافی در محیط‌های توسعه غافل شوند. بنابراین، استقرار قناری باید مکمل تست‌های پیش از تولید باشد، نه جایگزین آن.

--------------------------------------------------------------------------------

۵. نگاهی عمیق به استراتژی پیشرفته Netflix: مدل سه‌خوشه‌ای قناری

ایده اصلی استقرار قناری ساده به نظر می‌رسد، اما پیاده‌سازی آن در مقیاس عظیم Netflix پیچیدگی‌های جالبی دارد. Netflix برای تحلیل قناری خودکار (Automated Canary Analysis - ACA) از یک مدل پیشرفته سه‌خوشه‌ای استفاده می‌کند که دقت تحلیل را به حداکثر می‌رساند. این سه خوشه عبارتند از:

  • خوشه پروداکشن (Production cluster): نسخه پایدار فعلی که اکثر ترافیک کاربران را دریافت می‌کند.

  • خوشه پایه (Baseline cluster): یک کپی دقیق از نسخه پروداکشن که به تازگی مستقر شده و بخش کوچکی از ترافیک را برای مقایسه دریافت می‌کند.

  • خوشه قناری (Canary cluster): نسخه جدید نرم‌افزار که بخش کوچک دیگری از ترافیک را برای ارزیابی عملکرد دریافت می‌کند.

[Diagram: A simple block diagram showing traffic splitting. A main arrow of "User Traffic" splits. The largest portion (e.g., 98%) goes to a block labeled "Production Cluster (Stable Version)". Two smaller, equal portions (e.g., 1% each) go to a "Baseline Cluster (Stable Version)" and a "Canary Cluster (New Version)". Arrows from Baseline and Canary point to a box labeled "Automated Canary Analysis (ACA)" for comparison.]

اما چرا به یک خوشه «پایه» جداگانه نیاز است؟ چرا قناری مستقیماً با خوشه اصلی پروداکشن مقایسه نمی‌شود؟ پاسخ در جزئیات فنی نهفته است:

«مقایسه یک خوشه قناری تازه ایجاد شده با یک خوشه پروداکشن که مدت‌هاست در حال اجراست، می‌تواند نتایج غیرقابل اعتمادی به همراه داشته باشد. ایجاد یک خوشه پایه کاملاً جدید تضمین می‌کند که معیارهای تولید شده عاری از هرگونه تأثیر ناشی از فرآیندهای طولانی‌مدت هستند.»

یک سروری که مدت‌ها در حال کار بوده ممکن است به دلیل نشت حافظه جزئی یا فرآیندهای پس‌زمینه، رفتار متفاوتی نسبت به یک سرور تازه راه‌اندازی شده داشته باشد. با مقایسه دو خوشه کاملاً جدید (پایه و قناری)، Netflix می‌تواند تأثیرات جانبی را حذف کرده و با مقایسه دقیق معیارهایی مانند مصرف CPU، خطاها و تأخیر (latency)، تصمیمات بسیار دقیقی در مورد موفقیت یا شکست نسخه جدید بگیرد.

--------------------------------------------------------------------------------

۶. سریع‌ترین بازگشت (Rollback) تنها یک تغییر در تنظیمات است

فرآیندهای بازگشت (rollback) سنتی اغلب پیچیده، دستی، پراسترس و زمان‌بر هستند. اما در معماری استقرار قناری، بازگشت به یک عملیات بسیار سریع و ساده تبدیل می‌شود.

در این معماری، یک لایه پروکسی، مانند Load Balancer، API Gateway یا روتر، در جلوی سرورها قرار دارد. این لایه مسئول تقسیم ترافیک بین ناوگان سرورهای قدیمی (که نسخه پایدار را اجرا می‌کنند) و سرور قناری (که نسخه جدید را اجرا می‌کند) است. برای مثال، این پروکسی ممکن است ۹۵٪ ترافیک را به سرورهای قدیمی و ۵٪ را به سرور جدید هدایت کند.

[Diagram: A simple diagram showing traffic routing for rollback. Part 1 (Normal Operation): A "Load Balancer / Proxy" block receives "User Traffic". It routes 95% of traffic to a "Stable Version Servers" block and 5% to a "Canary Version Server" block. Part 2 (Rollback): The same "Load Balancer / Proxy" block now routes 100% of traffic to the "Stable Version Servers" block and 0% to the "Canary Version Server" block, which is shown as inactive or greyed out.]

اگر تیم مانیتورینگ متوجه شود که نسخه جدید مشکل دارد (مثلاً نرخ خطا افزایش یافته یا مصرف حافظه به شدت بالا رفته است)، تنها کاری که برای بازگشت لازم است، تغییر تنظیمات پروکسی است. با یک تغییر ساده، پروکسی طوری تنظیم می‌شود که ۰٪ ترافیک به نسخه جدید و ۱۰۰٪ ترافیک به نسخه قدیمی هدایت شود. این کار تقریباً آنی است و تأثیر منفی بر روی کاربران را به حداقل می‌رساند.

همانطور که در منبع اشاره شده است، سادگی این فرآیند شگفت‌انگیز است: «بازگشت‌ها آنقدر ساده هستند که ... فقط یک تغییر ساده در تنظیمات بود و مشکل حل شد.» این توانایی برای واکنش سریع، یکی از بزرگترین مزایای استقرارهای مدرن است.

--------------------------------------------------------------------------------

نتیجه‌گیری: استقرار به عنوان یک مزیت، نه یک مانع

درس‌هایی که از غول‌های فناوری مانند Netflix و Google می‌آموزیم، یک پیام مشترک دارند: استقرار نرم‌افزار نباید یک رویداد ترسناک باشد. با تبدیل کردن استقرار به یک فرآیند «خسته‌کننده» اما ایمن، استفاده از قدرت مدل‌های اعلانی برای ارکستراسیون خودکار، به کارگیری تست کنترل‌شده در پروداکشن برای کشف مشکلات واقعی، و طراحی معماری‌هایی که بازگشت‌های سریع و آنی را ممکن می‌سازند، می‌توان ریسک را به حداقل و سرعت نوآوری را به حداکثر رساند.

اکنون این سوال را از خود بپرسید: اگر تیم شما بتواند هر استقرار را به جای یک رویداد پرخطر، به یک عملیات روتین و قابل پیش‌بینی تبدیل کند، چه فرصت‌های جدیدی برای نوآوری و بهبود محصول پیش روی شما قرار خواهد گرفت؟

تغییرnetflixgoogle
۱
۰
صابر طباطبائی یزدی
صابر طباطبائی یزدی
برنامه نویس۴۴ساله. از مدرک MCSD دات نت سال 2002 شروع کردم البته بعد از لیسانس و تمام عمرم رو در مدیریت با ابزار های شیرپوینت و MSPS و CRM و غیره گذراندم. https://zil.ink/sabert
شاید از این پست‌ها خوشتان بیاید