Skip to content

مدیریت رخداد

ماژول اصلیتعریف ماژولتوضیحات
Incident Managementسامانه مدیریت رخدادها و پاسخ به حوادثشناسایی، ثبت، اولویت‌بندی و پیگیری رخدادهای فنی و عملیاتی با هدف کاهش زمان پاسخ‌گویی و جلوگیری از تکرار مشکلات.

فیچرلیست:

ردیفدسته‌بندیعنوانمسیر پیشنهادیداستان کاربر (User Story)
1مدیریت سرویس‌ها و وابستگی‌هاتعریف کاتالوگ سرویس‌هاPOST /servicesبه عنوان مدیر فنی، می‌خواهم تمام میکروسرویس‌های سازمان (مانند سرویس پرداخت، سرویس کاربران) را در یک کاتالوگ مرکزی تعریف کنم.
2ترسیم نقشه وابستگی سرویس‌هاPOST /services/{id}/dependenciesبه عنوان مهندس SRE، می‌خواهم تعریف کنم که «سرویس پرداخت» به «سرویس کاربران» وابسته است تا در زمان رخداد، تأثیرات آن مشخص باشد.
3شناسایی و پیش‌بینی رخدادایجاد رخداد از طریق یکپارچه‌سازیPOST /incidents/webhookبه عنوان یک ابزار مانیتورینگ، می‌خواهم در صورت مشاهده افزایش خطا، به صورت خودکار یک رخداد در سیستم ایجاد کنم.
4همبستگی با رویدادهای تغییر (Deployments)POST /events/changeبه عنوان سیستم، می‌خواهم به طور خودکار تشخیص دهم که یک رخداد جدید، ۵ دقیقه پس از یک استقرار (Deploy) جدید اتفاق افتاده است تا به یافتن علت کمک کنم.
5هشدار پیش‌بینی‌کننده (Predictive Alerting)GET /predictions/incidentsبه عنوان مهندس آنکال، می‌خواهم یک هشدار با اولویت پایین دریافت کنم وقتی سیستم پیش‌بینی می‌کند که حافظه یک سرور تا ۲ ساعت آینده پر خواهد شد.
6اتوماسیون و پاسخ خودکارتعریف کتابچه راهنما (Runbooks)POST /runbooksبه عنوان مهندس DevOps، می‌خواهم یک کتابچه راهنمای گام‌به‌گام برای حل مشکل «پر شدن دیسک» تعریف کنم.
7اجرای خودکار RunbookPOST /incidents/{id}/run-actionبه عنوان سیستم، می‌خواهم در زمان وقوع رخداد «پر شدن دیسک»، به طور خودکار Runbook مربوطه (مثلاً: اسکریپت پاک‌سازی فایل‌های موقت) را اجرا کنم.
8مدیریت هشدار و آنکالتعریف شیفت‌های آنکال (On-Call)POST /schedulesبه عنوان مدیر تیم، می‌خواهم یک برنامه زمان‌بندی آنکال هفتگی برای مهندسان تیمم تعریف کنم.
9تعریف سیاست‌های تشدید (Escalation)POST /escalation-policiesبه عنوان مدیر، می‌خواهم قانونی تعریف کنم که اگر مهندس آنکال تا ۵ دقیقه به هشدار پاسخ نداد، هشدار برای من نیز ارسال شود.
10اجرای رزمایش و تمرین‌های شبیه‌سازی شدهPOST /drillsبه عنوان مدیر تیم، می‌خواهم یک رزمایش «قطعی دیتابیس» را برای هفته آینده شبیه‌سازی کنم تا آمادگی تیم را بسنجم.
11مدیریت و پیگیری رخدادتأیید دریافت هشدار (Acknowledge)POST /incidents/{id}/ackبه عنوان مهندس آنکال، پس از دریافت هشدار، می‌خواهم آن را تأیید کنم تا سیستم بداند من در حال بررسی موضوع هستم.
12تغییر وضعیت و شدت رخدادPUT /incidents/{id}/statusبه عنوان فرمانده رخداد، می‌خواهم شدت یک رخداد را به «بحرانی» (Critical) تغییر دهم.
13ثبت وقایع در تایم‌لاین رخدادPOST /incidents/{id}/timelineبه عنوان یک مهندس، می‌خواهم یافته‌های خود را در تایم‌لاین رخداد ثبت کنم تا همه در جریان قرار گیرند.
تخصیص پویای نقش‌ها حین رخدادPOST /incidents/{id}/rolesبه عنوان مدیر رخداد، می‌خواهم در لحظه شروع یک بحران، به صورت رسمی نقش‌هایی مانند «فرمانده رخداد»، «مسئول ارتباطات» و «متخصص فنی» را به افراد مختلف اختصاص دهم تا وظایف و مسئولیت‌ها کاملاً شفاف باشد.
یکپارچه‌سازی دوطرفه با سیستم‌های تیکتینگ (Jira, etc)POST /integrations/jiraبه عنوان یک توسعه‌دهنده، می‌خواهم وقتی یک آیتم اقدام (Action Item) در سند Postmortem به من اختصاص داده می‌شود، به صورت خودکار یک تیکت در Jira برای من ساخته شود و با حل شدن آن تیکت، وضعیت آیتم اقدام نیز در اینجا به‌روز شود.
14ارتباطات و هماهنگیایجاد اتاق جنگ (War Room)POST /incidents/{id}/war-roomبه عنوان فرمانده رخداد، می‌خواهم با یک کلیک یک کانال اسلک و یک لینک تماس ویدئویی برای هماهنگی سریع تیم ایجاد کنم.
15مدیریت صفحه وضعیت (Status Page)POST /status-pages/updatesبه عنوان مدیر ارتباطات، می‌خواهم در صفحه وضعیت عمومی سایت، به مشتریان اطلاع‌رسانی کنم.
16ارسال به‌روزرسانی به ذی‌نفعانPOST /incidents/{id}/stakeholders/notifyبه عنوان فرمانده رخداد، می‌خواهم یک ایمیل با قالب آماده برای تیم مدیریت ارسال کرده و آخرین وضعیت را به آن‌ها اطلاع دهم.
17تحلیل پس از رخدادایجاد سند تحلیل ریشه‌ای (RCA)POST /postmortemsبه عنوان مدیر تیم، پس از حل مشکل، می‌خواهم یک سند Postmortem برای تحلیل دلایل وقوع آن ایجاد کنم.
18ایجاد و پیگیری آیتم‌های اقدام (Action Items)POST /postmortems/{id}/actionsدر جلسه تحلیل، می‌خواهم یک آیتم اقدام با عنوان «افزایش مانیتورینگ» ایجاد و آن را به یک توسعه‌دهنده اختصاص دهم.
20گزارش‌گیری و معیارهامشاهده داشبورد معیارهای کلیدیGET /reports/dashboardبه عنوان مدیر فنی، می‌خواهم نمودار معیارهایی مانند MTTA (میانگین زمان تا پاسخ) و MTTR (میانگین زمان تا حل مشکل) را ببینم.
21گزارش پایداری سرویس (Reliability)GET /reports/reliabilityبه عنوان مدیر SRE، می‌خواهم گزارش آپ‌تایم سرویس‌ها را در فصل گذشته استخراج کرده و با اهداف تعیین شده (SLO) مقایسه کنم.
22تحلیل و یادگیریپایگاه دانش از رخدادهای گذشتهGET /knowledge-base/searchبه عنوان یک مهندس آنکال جدید، وقتی با یک هشدار مواجه می‌شوم، می‌خواهم بتوانم در پایگاه دانش جستجو کنم و ببینم آیا این مشکل قبلاً رخ داده و چگونه حل شده است تا از راه‌حل‌های گذشته استفاده کنم.
23تحلیل روند و خوشه‌بندی رخدادهاGET /analytics/trendsبه عنوان مدیر فنی، می‌خواهم گزارشی ببینم که به صورت خودکار رخدادهای تکراری را خوشه‌بندی کرده و نشان دهد که مثلاً ۲۰٪ از کل مشکلات ما در ماه گذشته، مربوط به «خطای اتصال به دیتابیس» بوده است.