مدیریت رخداد

ماژول اصلی	تعریف ماژول	توضیحات
Incident Management	سامانه مدیریت رخدادها و پاسخ به حوادث	شناسایی، ثبت، اولویت‌بندی و پیگیری رخدادهای فنی و عملیاتی با هدف کاهش زمان پاسخ‌گویی و جلوگیری از تکرار مشکلات.

فیچرلیست:

ردیف	دسته‌بندی	عنوان	مسیر پیشنهادی	داستان کاربر (User Story)
1	مدیریت سرویس‌ها و وابستگی‌ها	تعریف کاتالوگ سرویس‌ها	POST /services	به عنوان مدیر فنی، می‌خواهم تمام میکروسرویس‌های سازمان (مانند سرویس پرداخت، سرویس کاربران) را در یک کاتالوگ مرکزی تعریف کنم.
2		ترسیم نقشه وابستگی سرویس‌ها	POST /services/{id}/dependencies	به عنوان مهندس SRE، می‌خواهم تعریف کنم که «سرویس پرداخت» به «سرویس کاربران» وابسته است تا در زمان رخداد، تأثیرات آن مشخص باشد.
3	شناسایی و پیش‌بینی رخداد	ایجاد رخداد از طریق یکپارچه‌سازی	POST /incidents/webhook	به عنوان یک ابزار مانیتورینگ، می‌خواهم در صورت مشاهده افزایش خطا، به صورت خودکار یک رخداد در سیستم ایجاد کنم.
4		همبستگی با رویدادهای تغییر (Deployments)	POST /events/change	به عنوان سیستم، می‌خواهم به طور خودکار تشخیص دهم که یک رخداد جدید، ۵ دقیقه پس از یک استقرار (Deploy) جدید اتفاق افتاده است تا به یافتن علت کمک کنم.
5		هشدار پیش‌بینی‌کننده (Predictive Alerting)	GET /predictions/incidents	به عنوان مهندس آنکال، می‌خواهم یک هشدار با اولویت پایین دریافت کنم وقتی سیستم پیش‌بینی می‌کند که حافظه یک سرور تا ۲ ساعت آینده پر خواهد شد.
6	اتوماسیون و پاسخ خودکار	تعریف کتابچه راهنما (Runbooks)	POST /runbooks	به عنوان مهندس DevOps، می‌خواهم یک کتابچه راهنمای گام‌به‌گام برای حل مشکل «پر شدن دیسک» تعریف کنم.
7		اجرای خودکار Runbook	POST /incidents/{id}/run-action	به عنوان سیستم، می‌خواهم در زمان وقوع رخداد «پر شدن دیسک»، به طور خودکار Runbook مربوطه (مثلاً: اسکریپت پاک‌سازی فایل‌های موقت) را اجرا کنم.
8	مدیریت هشدار و آنکال	تعریف شیفت‌های آنکال (On-Call)	POST /schedules	به عنوان مدیر تیم، می‌خواهم یک برنامه زمان‌بندی آنکال هفتگی برای مهندسان تیمم تعریف کنم.
9		تعریف سیاست‌های تشدید (Escalation)	POST /escalation-policies	به عنوان مدیر، می‌خواهم قانونی تعریف کنم که اگر مهندس آنکال تا ۵ دقیقه به هشدار پاسخ نداد، هشدار برای من نیز ارسال شود.
10		اجرای رزمایش و تمرین‌های شبیه‌سازی شده	POST /drills	به عنوان مدیر تیم، می‌خواهم یک رزمایش «قطعی دیتابیس» را برای هفته آینده شبیه‌سازی کنم تا آمادگی تیم را بسنجم.
11	مدیریت و پیگیری رخداد	تأیید دریافت هشدار (Acknowledge)	POST /incidents/{id}/ack	به عنوان مهندس آنکال، پس از دریافت هشدار، می‌خواهم آن را تأیید کنم تا سیستم بداند من در حال بررسی موضوع هستم.
12		تغییر وضعیت و شدت رخداد	PUT /incidents/{id}/status	به عنوان فرمانده رخداد، می‌خواهم شدت یک رخداد را به «بحرانی» (Critical) تغییر دهم.
13		ثبت وقایع در تایم‌لاین رخداد	POST /incidents/{id}/timeline	به عنوان یک مهندس، می‌خواهم یافته‌های خود را در تایم‌لاین رخداد ثبت کنم تا همه در جریان قرار گیرند.
		تخصیص پویای نقش‌ها حین رخداد	`POST /incidents/{id}/roles`	به عنوان مدیر رخداد، می‌خواهم در لحظه شروع یک بحران، به صورت رسمی نقش‌هایی مانند «فرمانده رخداد»، «مسئول ارتباطات» و «متخصص فنی» را به افراد مختلف اختصاص دهم تا وظایف و مسئولیت‌ها کاملاً شفاف باشد.
		یکپارچه‌سازی دوطرفه با سیستم‌های تیکتینگ (Jira, etc)	`POST /integrations/jira`	به عنوان یک توسعه‌دهنده، می‌خواهم وقتی یک آیتم اقدام (Action Item) در سند Postmortem به من اختصاص داده می‌شود، به صورت خودکار یک تیکت در Jira برای من ساخته شود و با حل شدن آن تیکت، وضعیت آیتم اقدام نیز در اینجا به‌روز شود.
14	ارتباطات و هماهنگی	ایجاد اتاق جنگ (War Room)	POST /incidents/{id}/war-room	به عنوان فرمانده رخداد، می‌خواهم با یک کلیک یک کانال اسلک و یک لینک تماس ویدئویی برای هماهنگی سریع تیم ایجاد کنم.
15		مدیریت صفحه وضعیت (Status Page)	POST /status-pages/updates	به عنوان مدیر ارتباطات، می‌خواهم در صفحه وضعیت عمومی سایت، به مشتریان اطلاع‌رسانی کنم.
16		ارسال به‌روزرسانی به ذی‌نفعان	POST /incidents/{id}/stakeholders/notify	به عنوان فرمانده رخداد، می‌خواهم یک ایمیل با قالب آماده برای تیم مدیریت ارسال کرده و آخرین وضعیت را به آن‌ها اطلاع دهم.
17	تحلیل پس از رخداد	ایجاد سند تحلیل ریشه‌ای (RCA)	POST /postmortems	به عنوان مدیر تیم، پس از حل مشکل، می‌خواهم یک سند Postmortem برای تحلیل دلایل وقوع آن ایجاد کنم.
18		ایجاد و پیگیری آیتم‌های اقدام (Action Items)	POST /postmortems/{id}/actions	در جلسه تحلیل، می‌خواهم یک آیتم اقدام با عنوان «افزایش مانیتورینگ» ایجاد و آن را به یک توسعه‌دهنده اختصاص دهم.
20	گزارش‌گیری و معیارها	مشاهده داشبورد معیارهای کلیدی	GET /reports/dashboard	به عنوان مدیر فنی، می‌خواهم نمودار معیارهایی مانند MTTA (میانگین زمان تا پاسخ) و MTTR (میانگین زمان تا حل مشکل) را ببینم.
21		گزارش پایداری سرویس (Reliability)	GET /reports/reliability	به عنوان مدیر SRE، می‌خواهم گزارش آپ‌تایم سرویس‌ها را در فصل گذشته استخراج کرده و با اهداف تعیین شده (SLO) مقایسه کنم.
22	تحلیل و یادگیری	پایگاه دانش از رخدادهای گذشته	`GET /knowledge-base/search`	به عنوان یک مهندس آنکال جدید، وقتی با یک هشدار مواجه می‌شوم، می‌خواهم بتوانم در پایگاه دانش جستجو کنم و ببینم آیا این مشکل قبلاً رخ داده و چگونه حل شده است تا از راه‌حل‌های گذشته استفاده کنم.
23		تحلیل روند و خوشه‌بندی رخدادها	`GET /analytics/trends`	به عنوان مدیر فنی، می‌خواهم گزارشی ببینم که به صورت خودکار رخدادهای تکراری را خوشه‌بندی کرده و نشان دهد که مثلاً ۲۰٪ از کل مشکلات ما در ماه گذشته، مربوط به «خطای اتصال به دیتابیس» بوده است.

مدیریت رخداد ​

مدیریت رخداد