خواندن ۴ دقیقه·۲ ماه پیش

تجمیع و انتقال لاگ‌ها در اکوسیستم Kubernetes توسط Splunk

در پاسخ به پرسش بنیادین پیرامون الگوی تعامل پلتفرم Splunk با لایه ارکستراسیون کانتینری (Container Orchestration Layer)، لازم است بر این اصل معماری تأکید شود که Splunk به عنوان یک سیستم پردازش داده خارجی، هیچ‌گونه اتصال مستقیم (Direct Coupling) به فضای کانتینرهای زودگذر (Ephemeral Containers) ندارد. تلاش برای استخراج لاگ از داخل Pod (Sidecar Pattern) اگرچه ممکن است، اما به دلیل مصرف منابع بالا و پیچیدگی مدیریت، در مقیاس‌های بزرگ “Anti-Pattern” محسوب می‌شود.

رویکرد استاندارد صنعتی، Node-Level Logging Agent Pattern است؛ راهکاری که در آن داده‌ها از لایه زیرساخت (Host) برداشت می‌شوند تا اصل جداسازی دغدغه‌ها (Separation of Concerns) و پایداری داده‌ها (Data Persistence) مستقل از چرخه حیات ناپایدار Pod تضمین گردد.

در ادامه، معماری این فرآیند در پنج فاز عملیاتی به تفصیل و با جزئیات فنی سطح پایین (Low-Level) تشریح شده است:

فاز ۱: تولید و هدایت جریان داده (Application Stream Redirection)

بر اساس اصول Twelve-Factor App (فاکتور یازدهم: Logs)، اپلیکیشن نباید خود را درگیر مدیریت فایل‌های لاگ یا روت کردن آن‌ها کند.

مکانیزم فنی: هر فرآیند در حال اجرا در کانتینر (PID 1)، استریم‌های داده خود را به دو کانال استاندارد لینوکس ارسال می‌کند:

stdout (Standard Output): برای لاگ‌های اطلاعاتی و عمومی.

stderr (Standard Error): برای لاگ‌های خطا و هشدارها.

مزیت معماری: این انتزاع (Abstraction) باعث می‌شود توسعه‌دهنده نیازی به دانستن مقصد نهایی لاگ‌ها (مانند Splunk, ELK, etc.) نداشته باشد و تغییر در زیرساخت لاگینگ نیازمند تغییر کد اپلیکیشن نخواهد بود.

فاز ۲: مدیریت سطح نود توسط Container Runtime (Node-Level Log Retention)

در این مرحله، نقش Container Runtime Interface (CRI) حیاتی می‌شود. کانتینر انجین (مانند Docker Engine در نسخه‌های قدیمی یا Containerd/CRI-O در نسخه‌های مدرن) مسئولیت دریافت این استریم‌ها را بر عهده دارد.

نقش درایور لاگینگ (Logging Driver): به طور پیش‌فرض، درایور json-file یا local استفاده می‌شود که خروجی‌ها را در فرمت JSON یا باینری روی دیسک نود ذخیره می‌کند.

ساختار دایرکتوری‌ها (FileSystem Hierarchy): کوبرنتیز (Kubelet) برای دسترسی یکپارچه به این فایل‌ها، ساختار منظمی ایجاد می‌کند:

/var/log/pods/<namespace>_<pod_name>_<pod_id>/<container_name>/<restart_count>.log: مسیر فیزیکی و واقعی ذخیره فایل‌ها.

/var/log/containers/*.log: این مسیر صرفاً شامل Symlinkهایی است که به فایل‌های واقعی در مسیر /var/log/pods اشاره می‌کنند. متادیتای نام‌گذاری فایل در اینجا شامل Pod Name، Namespace، Container Name و Container ID است که برای پارس کردن حیاتی است.

نکته حیاتی: این فایل‌ها دارای سیاست بازنویسی (Log Rotation) هستند. اگر ایجنت جمع‌آوری‌کننده کندتر از سرعت تولید لاگ عمل کند، با چرخش فایل‌ها، داده‌ها از دست خواهند رفت.

فاز ۳: لایه جمع‌آوری و غنی‌سازی داده (Collection & Enrichment Layer)

ابزار Splunk Connect for Kubernetes (SCK) یا نسخه جدیدتر آن Splunk OpenTelemetry Collector، قلب تپنده این معماری است که معمولاً به صورت DaemonSet پیاده‌سازی می‌شود (تضمین اجرای یک نسخه از ایجنت روی هر نود).

موتور پردازش (The Engine): معمولاً از Fluentd یا Fluent Bit استفاده می‌شود که بسیار سبک (Lightweight) بوده و با زبان C (در مورد Fluent Bit) نوشته شده‌اند تا سربار (Overhead) روی CPU/Memory نود به حداقل برسد.

فرآیند عملیاتی:

Tailing: ایجنت به صورت بلادرنگ (Real-time) انتهای فایل‌های موجود در /var/log/containers/*.log را می‌خواند.

Parsing: تبدیل خطوط خام متنی به ساختار ساخت‌یافته (Structured Data/JSON). در این مرحله فرمت‌های خاص اپلیکیشن (مانند لاگ‌های Java Stacktrace که چندخطی هستند) تجمیع و هندل می‌شوند.

Kubernetes Metadata Enrichment: این مهم‌ترین گام است. ایجنت با کوئری زدن به API Server یا کش کردن متادیتاهای نود، اطلاعات حیاتی زیر را به هر رکورد لاگ اضافه می‌کند:

pod_labels: برای فیلتر کردن در جستجوهای Splunk.

container_image: برای ردیابی ورژن‌های مختلف اپلیکیشن.

node_name: برای عیب‌یابی مشکلات سخت‌افزاری.

فاز ۴: بافرینگ و ارسال امن (Buffering & Secure Transmission)

برای جلوگیری از فشار ناگهانی به Splunk (Backpressure) و از دست رفتن داده‌ها در زمان قطعی شبکه، مکانیزم‌های بافرینگ حیاتی هستند.

Buffering Strategy: ایجنت‌ها داده‌ها را در حافظه (RAM) یا فایل (Disk Buffer) نگهداری می‌کنند و به صورت دسته‌ای (Batch) ارسال می‌کنند. (مثلاً هر ۵ ثانیه یا هر ۵ مگابایت).

HEC Protocol: ارسال داده‌ها به Splunk از طریق HTTP Event Collector (HEC) صورت می‌گیرد. این پروتکل بر پایه HTTP/S است و از سیستم احراز هویت مبتنی بر توکن (Token-Based Authentication) استفاده می‌کند.

Load Balancing: اگر کلاستر Splunk توزیع شده باشد (Indexer Clustering)، ایجنت می‌تواند ترافیک را بین چندین Indexer توزیع کند تا کارایی افزایش یابد.

فاز ۵: ایندکس و آنالیز در Splunk (Ingestion & Indexing)

داده‌ها پس از رسیدن به Splunk، وارد خط لوله پردازش (Processing Pipeline) می‌شوند.

SourceType Definition: نوع داده مشخص می‌شود (مثلاً kube:container:json).

Timestamp Extraction: زمان وقوع لاگ (Event Time) از درون پیام استخراج می‌شود، نه زمان رسیدن به Splunk (Ingestion Time)، تا توالی وقایع دقیق باشد.

Storage: داده‌ها نهایتاً در ایندکس‌های اختصاصی (مانند idx_k8s_logs) ذخیره شده و آماده جستجو با زبان SPL می‌شوند.

تحلیل مزایا و سناریوی شکست (Failure Handling)

چرا این معماری برای محیط‌های Cloud-Native حیاتی است؟

۱. تاب‌آوری در برابر ناپایداری (Volatility Resilience):

کانتینرها ذاتاً میرا هستند. وقتی یک پاد Crash می‌کند یا توسط Kubernetes Evict می‌شود، فایل‌سیستم داخلی آن از بین می‌رود. با انتقال لاگ به فایل‌سیستم نود (که پایدارتر است)، لاگ‌های لحظات آخر قبل از کرش (Last Breath Logs) که برای دیباگ حیاتی هستند، حفظ می‌شوند.

۲. عدم تداخل عملکردی (Performance Isolation):

فرآیند لاگینگ به صورت Asynchronous (غیرهمگام) توسط کانتینر ران‌تایم انجام می‌شود. اگر Splunk کند شود یا شبکه قطع شود، اپلیکیشن اصلی متوقف نمی‌شود (برخلاف لاگینگ مستقیم TCP/UDP از اپلیکیشن).

۳. امنیت و کنترل دسترسی (Security):

دسترسی به لاگ‌ها از طریق Splunk مدیریت می‌شود و نیازی نیست به توسعه‌دهندگان دسترسی مستقیم kubectl logs یا دسترسی SSH به سرورها داده شود.