← 所有場景

事件處理 Runbook

runbook-incident

P0/P1 事件自動化步驟 + SLA 倒數 + 對外溝通

靈感: PagerDuty, incident.io, Grafana Oncall
同一場景 × 10 個產業上下文
餐飲連鎖
restaurant在組合器開啟 →
P0 ACTIVEINC-2026-0417
出餐流程 異常 · 餐飲連鎖
開始 8 分鐘 · 顧客 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-restaurant + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    阿明
  • T+5
    影響面評估
    受影響 顧客: 計算中 · 已知 6 筆訂單
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-restaurant · statuspage
診所醫療
clinic在組合器開啟 →
P0 ACTIVEINC-2026-0417
診療流程 異常 · 診所醫療
開始 8 分鐘 · 病患 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-clinic + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    李醫師
  • T+5
    影響面評估
    受影響 病患: 計算中 · 已知 6 筆掛號
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-clinic · statuspage
房仲物件
realestate在組合器開啟 →
P0 ACTIVEINC-2026-0417
成交流程 異常 · 房仲物件
開始 8 分鐘 · 買方 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-realestate + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    葉經理
  • T+5
    影響面評估
    受影響 買方: 計算中 · 已知 6 筆物件
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-realestate · statuspage
P0 ACTIVEINC-2026-0417
支援流程 異常 · B2B SaaS
開始 8 分鐘 · 客戶 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-saas + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    Sam
  • T+5
    影響面評估
    受影響 客戶: 計算中 · 已知 6 筆工單
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-saas · statuspage
電商品牌
ecommerce在組合器開啟 →
P0 ACTIVEINC-2026-0417
訂單履行 異常 · 電商品牌
開始 8 分鐘 · 買家 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-ecommerce + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    選品組
  • T+5
    影響面評估
    受影響 買家: 計算中 · 已知 6 筆商品
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-ecommerce · statuspage
補習教育
education在組合器開啟 →
P0 ACTIVEINC-2026-0417
學習進度 異常 · 補習教育
開始 8 分鐘 · 學生 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-education + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    林老師
  • T+5
    影響面評估
    受影響 學生: 計算中 · 已知 6 筆課程
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-education · statuspage
物流配送
logistics在組合器開啟 →
P0 ACTIVEINC-2026-0417
配送流程 異常 · 物流配送
開始 8 分鐘 · 收件人 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-logistics + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    王司機
  • T+5
    影響面評估
    受影響 收件人: 計算中 · 已知 6 筆包裹
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-logistics · statuspage
健身工作室
fitness在組合器開啟 →
P0 ACTIVEINC-2026-0417
會員旅程 異常 · 健身工作室
開始 8 分鐘 · 會員 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-fitness + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    Ken
  • T+5
    影響面評估
    受影響 會員: 計算中 · 已知 6 筆課程
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-fitness · statuspage
數位銀行
bank在組合器開啟 →
P0 ACTIVEINC-2026-0417
審核流程 異常 · 數位銀行
開始 8 分鐘 · 帳戶持有人 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-bank + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    系統
  • T+5
    影響面評估
    受影響 帳戶持有人: 計算中 · 已知 6 筆交易
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-bank · statuspage
飯店訂房
hospitality在組合器開啟 →
P0 ACTIVEINC-2026-0417
入住流程 異常 · 飯店訂房
開始 8 分鐘 · 旅客 影響面評估中
Runbook 執行進度
3 / 7
  • T+0
    自動偵測 + 告警
    規則引擎命中 → Slack #incident-hospitality + PagerDuty
    alertmgr
  • T+2
    建立事件 War Room
    建立頻道 · 指派 Incident Commander + Scribe
    櫃檯
  • T+5
    影響面評估
    受影響 旅客: 計算中 · 已知 6 筆訂房
    IC
  • T+84
    緩解動作
    (1) rollback 最近部署 (2) 切換備援節點 (3) rate limit
    SRE
  • T+?5
    對外溝通 (statuspage)
    每 30 分鐘更新 · 中英雙版
    Comms
  • T+?6
    根因定位 + 修復
    診斷 → 修復 → 驗證
    SRE
  • T+24h7
    事後回顧 (Blameless PM)
    時間軸 + 根因 + 行動項, 14 天內 follow-up
    IC
SLA 剩餘 22 分·狀態更新每 5 分鐘·Slack #incident-hospitality · statuspage