سجاد غفاریان
سجاد غفاریان
خواندن ۴ دقیقه·۱ سال پیش

تلفیق OKR و رویکردهای SRE - بخش سوم(پیاده‌سازی موثر)

در ادامه پست قبلی(تلفیق OKR و رویکردهای SRE - بخش دوم)، در این مقاله ما به بررسی نحوه تعیین اهداف و نتایج کلیدی (OKRs) موثر و مخصوص تیم‌های SRE می‌پردازیم؛ نکته‌ای که باید بهش توجه داشته باشیم اینه که باید اهدافی تعیین کنیم که نه تنها به چالش‌ها و مسئولیت‌های منحصر به فرد حوزه SRE مربوط باشن، بلکه دقیق، قابل سنجش و قابل دستیابی هم باشن... که در ادامه بیشتر درمورد این مسائل صحبت میکنیم.


نکته مهم اول: تیم‌های SRE با ثبات سیستم، بهینه‌سازی عملکرد و پاسخ به Incidentها سروکار دارن، اهداف باید این مسئولیت‌های اصلی رو منعکس کنن.
نکته مهم دوم: حوزه SRE یک حوزه پویاست و با فناوری‌های در حال تکامل و چالش‌های غیرقابل پیش‌بینی همراهه، OKRها باید قابل تطبیق و هماهنگ با این شرایط متغیر باشن.

تدوین OKR بر محوریت SRE

  • دقیق بودن اهداف: اهداف باید واضح و دقیق باشن؛ به جای تعیین هدفی مبهم مثل «بهبود قابلیت اطمینان سیستم»، یک هدف مشخص‌تر می‌تواند «کاهش زمان توقف سیستم به میزان ۱۵% در سه ماه آینده» باشد.
  • نتایج کلیدی قابل سنجش: نتایج کلیدی باید قابل سنجش باشن تا پیشرفت به طور موثری ردیابی شن؛ با استفاده از مثال قبلی، نتایج کلیدی قابل سنجش می‌توانند شامل «کاهش میانگین زمان توقف در هر Incident» یا «افزایش تعداد استقرارهای موفق بدون مشکل(successful deployments without incidents)» باشد.
  • دست‌یافتنی و واقع‌بینانه بودن: اهداف باید چالش‌برانگیز اما دست‌یافتنی باشن؛ تعیین اهداف غیر واقعی می‌تونه تیم رو ناامید کنه، به عنوان مثال هدف‌گذاری Zero Downtime تقریبا غیرممکنه... در عوض، هدف‌گذاری برای کاهش قابل توجه Downtime میتونه یک هدف منطقی باشه.
  • هماهنگی با اهداف گسترده‌تر: OKRها باید با اهداف گسترده‌تر سازمانی هماهنگ باشن، اگر شرکت به دنبال افزایش رضایت مشتری است، OKRهای SRE می‌تواند روی بهبود تجربه کاربر نهایی از طریق عملکرد بهتر سیستم تمرکز کند.
  • بررسی و تطبیق مداوم: با توجه به طبیعت پویای کار، باید به طور منظم بازبینی و بررسی و با شرایط تطبیق داده شوند. این انعطاف‌پذیری به تیم اجازه می‌ده تا در پاسخ به چالش‌های جدید یا فناوری‌ها، استراتژی‌های مناسبی را پیاده‌سازی کند.

تلفیق بازخورد(Feedback) در OKRها

یادگیری از Incident: تجزیه و تحلیل حوادث گذشته و تلفیق درس‌های آموخته شده در OKRها می‌تواند به اهداف مستحکم‌تر و موثرتر منجر شود؛ این فرآیند تکراری به بهبود مداوم OKRها کمک می‌کند.

تحلیل حوادث گذشته

  • تحلیل مبتنی بر داده‌ها: بعد از یه حادثه، تیم‌های SRE معمولاً تحلیل پس از واقعه (post-mortem analysis) انجام می‌دن، این موضوع شامل جمع‌آوری داده‌های مربوط به حادثه مثل علل، تاثیرات و... هستش که برای درس گرفتن از اشتباهاتمون و برنامه‌ریزی اهداف بعدیمون مهمن.
  • شناسایی الگوها: با تجزیه و تحلیل چندین حادثه در طول زمان، تیم‌ها می‌تونن روندها و الگوها رو شناسایی کنن... به عنوان مثال، اگر چندین Incident به خاطر یه نوع خاص از System Failure اتفاق افتاده باشه، این موضوع می‌تونه منجر به بهبودهای هدفمند(targeted improvements) بشه که به شکل بنیادی اون مشکل رو حل میکنه.

تلفیق تجربیات و آموزه‌ها در OKR

  • تصحیح اهداف: تجربیات به دست آمده از تحلیل حوادث می‌تونه برای تصحیح اهداف موجود استفاده شه، به عنوان مثال، اگر داده‌های حادثه نشون دهنده مشکل تکراری یک سرویس خاص در سیستم باشه، می‌شه هدفی رو برای رفع و بهبود اون بخش تعیین کرد.
  • تعیین نتایج کلیدی مرتبط: نتایج کلیدی باید با تجربیات به دست آمده هماهنگ باشن، مثلا یک نتیجه کلیدی مرتبط می‌تونه کاهش Downtime یا کاهش failure rate آن سرویس به یک درصد خاص باشه.
  • اقدامات پیشگیرانه: یادگیری از حوادث اغلب به شناسایی اقدامات پیشگیرانه منجر می‌شه، مثل پیاده‌سازی ابزارهای مانیتورینگ جدید یا بازبینی روش‌های عملیاتی برای جلوگیری از حوادث مشابه در آینده.

تلفیق بازخورد در OKRها روش قدرتمندی برای اطمینان از اینه که اهداف SRE به طور مداوم پالایش شده و هماهنگ با چالش‌های عملیاتی واقعی باقی بمونه؛ این روش پاسخ به Incidentها رو از یک استراتژی واکنشی به یک استراتژی پیشگیرانه تبدیل می‌کنه و هر حادثه فرصتی برای بهبود و رشد می‌شه.


نتیجه‌گیری

تعیین اهداف درست برای تیم‌های SRE نیاز به تعادل دقیقی از دقیق بودن، قابل سنجش بودن، دست‌یافتنی بودن و هماهنگی با اهداف سازمانی داره؛ تلاشمون اینه که اهدافی ایجاد کنیم که مستقیماً به جنبه‌های منحصر به فرد SRE پرداخته و به اندازه کافی انعطاف‌پذیر باشن تا با طبیعت پویا و گاهی غیرقابل پیش‌بینی چالش‌های Reliability و Stability سیستم سازگار باشن. با انجام این کار، تیم‌های SRE می‌تونن تلاش‌های خودشون رو موثرتر و متمرکزتر کنن و به طور قابل توجهی به اهداف گسترده‌تر سازمان کمک کنن..


امیدوارم این مقاله واستون مفید واقع شده باشه.

سجاد غفاریان - با کمک از یکسری منابع آنلاین!

sreokrfeedback
SRE at Asa Co. / Agah Group
شاید از این پست‌ها خوشتان بیاید