Appearance
مدیریت رخداد
| ماژول اصلی | تعریف ماژول | توضیحات |
|---|---|---|
| Incident Management | سامانه مدیریت رخدادها و پاسخ به حوادث | شناسایی، ثبت، اولویتبندی و پیگیری رخدادهای فنی و عملیاتی با هدف کاهش زمان پاسخگویی و جلوگیری از تکرار مشکلات. |
فیچرلیست:
| ردیف | دستهبندی | عنوان | مسیر پیشنهادی | داستان کاربر (User Story) |
|---|---|---|---|---|
| 1 | مدیریت سرویسها و وابستگیها | تعریف کاتالوگ سرویسها | POST /services | به عنوان مدیر فنی، میخواهم تمام میکروسرویسهای سازمان (مانند سرویس پرداخت، سرویس کاربران) را در یک کاتالوگ مرکزی تعریف کنم. |
| 2 | ترسیم نقشه وابستگی سرویسها | POST /services/{id}/dependencies | به عنوان مهندس SRE، میخواهم تعریف کنم که «سرویس پرداخت» به «سرویس کاربران» وابسته است تا در زمان رخداد، تأثیرات آن مشخص باشد. | |
| 3 | شناسایی و پیشبینی رخداد | ایجاد رخداد از طریق یکپارچهسازی | POST /incidents/webhook | به عنوان یک ابزار مانیتورینگ، میخواهم در صورت مشاهده افزایش خطا، به صورت خودکار یک رخداد در سیستم ایجاد کنم. |
| 4 | همبستگی با رویدادهای تغییر (Deployments) | POST /events/change | به عنوان سیستم، میخواهم به طور خودکار تشخیص دهم که یک رخداد جدید، ۵ دقیقه پس از یک استقرار (Deploy) جدید اتفاق افتاده است تا به یافتن علت کمک کنم. | |
| 5 | هشدار پیشبینیکننده (Predictive Alerting) | GET /predictions/incidents | به عنوان مهندس آنکال، میخواهم یک هشدار با اولویت پایین دریافت کنم وقتی سیستم پیشبینی میکند که حافظه یک سرور تا ۲ ساعت آینده پر خواهد شد. | |
| 6 | اتوماسیون و پاسخ خودکار | تعریف کتابچه راهنما (Runbooks) | POST /runbooks | به عنوان مهندس DevOps، میخواهم یک کتابچه راهنمای گامبهگام برای حل مشکل «پر شدن دیسک» تعریف کنم. |
| 7 | اجرای خودکار Runbook | POST /incidents/{id}/run-action | به عنوان سیستم، میخواهم در زمان وقوع رخداد «پر شدن دیسک»، به طور خودکار Runbook مربوطه (مثلاً: اسکریپت پاکسازی فایلهای موقت) را اجرا کنم. | |
| 8 | مدیریت هشدار و آنکال | تعریف شیفتهای آنکال (On-Call) | POST /schedules | به عنوان مدیر تیم، میخواهم یک برنامه زمانبندی آنکال هفتگی برای مهندسان تیمم تعریف کنم. |
| 9 | تعریف سیاستهای تشدید (Escalation) | POST /escalation-policies | به عنوان مدیر، میخواهم قانونی تعریف کنم که اگر مهندس آنکال تا ۵ دقیقه به هشدار پاسخ نداد، هشدار برای من نیز ارسال شود. | |
| 10 | اجرای رزمایش و تمرینهای شبیهسازی شده | POST /drills | به عنوان مدیر تیم، میخواهم یک رزمایش «قطعی دیتابیس» را برای هفته آینده شبیهسازی کنم تا آمادگی تیم را بسنجم. | |
| 11 | مدیریت و پیگیری رخداد | تأیید دریافت هشدار (Acknowledge) | POST /incidents/{id}/ack | به عنوان مهندس آنکال، پس از دریافت هشدار، میخواهم آن را تأیید کنم تا سیستم بداند من در حال بررسی موضوع هستم. |
| 12 | تغییر وضعیت و شدت رخداد | PUT /incidents/{id}/status | به عنوان فرمانده رخداد، میخواهم شدت یک رخداد را به «بحرانی» (Critical) تغییر دهم. | |
| 13 | ثبت وقایع در تایملاین رخداد | POST /incidents/{id}/timeline | به عنوان یک مهندس، میخواهم یافتههای خود را در تایملاین رخداد ثبت کنم تا همه در جریان قرار گیرند. | |
| تخصیص پویای نقشها حین رخداد | POST /incidents/{id}/roles | به عنوان مدیر رخداد، میخواهم در لحظه شروع یک بحران، به صورت رسمی نقشهایی مانند «فرمانده رخداد»، «مسئول ارتباطات» و «متخصص فنی» را به افراد مختلف اختصاص دهم تا وظایف و مسئولیتها کاملاً شفاف باشد. | ||
| یکپارچهسازی دوطرفه با سیستمهای تیکتینگ (Jira, etc) | POST /integrations/jira | به عنوان یک توسعهدهنده، میخواهم وقتی یک آیتم اقدام (Action Item) در سند Postmortem به من اختصاص داده میشود، به صورت خودکار یک تیکت در Jira برای من ساخته شود و با حل شدن آن تیکت، وضعیت آیتم اقدام نیز در اینجا بهروز شود. | ||
| 14 | ارتباطات و هماهنگی | ایجاد اتاق جنگ (War Room) | POST /incidents/{id}/war-room | به عنوان فرمانده رخداد، میخواهم با یک کلیک یک کانال اسلک و یک لینک تماس ویدئویی برای هماهنگی سریع تیم ایجاد کنم. |
| 15 | مدیریت صفحه وضعیت (Status Page) | POST /status-pages/updates | به عنوان مدیر ارتباطات، میخواهم در صفحه وضعیت عمومی سایت، به مشتریان اطلاعرسانی کنم. | |
| 16 | ارسال بهروزرسانی به ذینفعان | POST /incidents/{id}/stakeholders/notify | به عنوان فرمانده رخداد، میخواهم یک ایمیل با قالب آماده برای تیم مدیریت ارسال کرده و آخرین وضعیت را به آنها اطلاع دهم. | |
| 17 | تحلیل پس از رخداد | ایجاد سند تحلیل ریشهای (RCA) | POST /postmortems | به عنوان مدیر تیم، پس از حل مشکل، میخواهم یک سند Postmortem برای تحلیل دلایل وقوع آن ایجاد کنم. |
| 18 | ایجاد و پیگیری آیتمهای اقدام (Action Items) | POST /postmortems/{id}/actions | در جلسه تحلیل، میخواهم یک آیتم اقدام با عنوان «افزایش مانیتورینگ» ایجاد و آن را به یک توسعهدهنده اختصاص دهم. | |
| 20 | گزارشگیری و معیارها | مشاهده داشبورد معیارهای کلیدی | GET /reports/dashboard | به عنوان مدیر فنی، میخواهم نمودار معیارهایی مانند MTTA (میانگین زمان تا پاسخ) و MTTR (میانگین زمان تا حل مشکل) را ببینم. |
| 21 | گزارش پایداری سرویس (Reliability) | GET /reports/reliability | به عنوان مدیر SRE، میخواهم گزارش آپتایم سرویسها را در فصل گذشته استخراج کرده و با اهداف تعیین شده (SLO) مقایسه کنم. | |
| 22 | تحلیل و یادگیری | پایگاه دانش از رخدادهای گذشته | GET /knowledge-base/search | به عنوان یک مهندس آنکال جدید، وقتی با یک هشدار مواجه میشوم، میخواهم بتوانم در پایگاه دانش جستجو کنم و ببینم آیا این مشکل قبلاً رخ داده و چگونه حل شده است تا از راهحلهای گذشته استفاده کنم. |
| 23 | تحلیل روند و خوشهبندی رخدادها | GET /analytics/trends | به عنوان مدیر فنی، میخواهم گزارشی ببینم که به صورت خودکار رخدادهای تکراری را خوشهبندی کرده و نشان دهد که مثلاً ۲۰٪ از کل مشکلات ما در ماه گذشته، مربوط به «خطای اتصال به دیتابیس» بوده است. |