Dash 1 – Funnel سفارش: تعداد و نرخ موفقیت در مراحل: OrderPlaced → ReserveStock → Charge → Confirm.
Dash 2 – کارایی: E2E latency p50/p95، response_time_ms به تفکیک سرویس.
Dash 3 – خطاها: توزیع error_code، top endpoints برحسب خطا.
Dash 4 – پایداری: queue depth, retry_count, نرخ timeouts Gateway.
Trace Explorer: جستجو بر اساس trace_id/order_id برای RCA.
آلارمهای کلیدی هم براساس SLOهای بند 2.2.
استانداردسازی اسکیمای لاگ (همان JSON بالایی) + JSON schema/contract.
Propagation هدر Trace در همه سرویسها و ثبت trace_id اجباری.
نمونهبرداری هوشمند: ۱۰۰٪ برای ERROR/WARN، ۵–۱۰٪ برای INFO در پرترافیک.
Log Level Hygiene: خطای کاربر (۴xx) = WARN با error_code, خطای سیستم (۵xx) = ERROR.
Retention & Privacy: نگهداری ۳۰–۹۰ روز؛ ماسککردن PII (GDPR/PII).
Alert Tuning: آستانهها با baseline 7روزه، جلوگیری از آلارم کاذب.
RCA Template: Five Whys + Trace screenshot + لاگ/متریک مرتبط، ظرف <24h.