Incidents
Rootly는 사고 수명 주기의 각 단계에서 사용하기 쉽고 강력한 자동화를 통해 사고 대응 절차를 간소화하는 데 도움을 줍니다.
-
사고 감지: Rootly는 Datadog, Grafana, Sentry 등 다양한 관찰 가능성 애플리케이션과 통합되어 비정상적인 상황이나 잠재적인 문제가 발생할 때 팀에 경고를 보냅니다.
-
호출 및 알림: 잠재적인 문제가 감지되면 Rootly는 Slack, 이메일 또는 SMS와 같은 다양한 통신 채널을 통해 관련 이해관계자에게 알립니다.
-
사고 분류: 경고를 받으면 사고의 심각성과 조직 운영에 미치는 영향을 평가하기 위해 분류됩니다. Rootly는 팀원들이 잠재적인 사고에 대한 정보를 효율적으로 수집하고 협력할 수 있도록 중앙 집중식 인터페이스를 제공합니다.
-
사고 대응: Rootly는 수동 작업을 자동화하여 시스템 중단 시 인지 부하를 줄이는 데 도움을 주어 사고 대응 노력을 용이하게 합니다.
-
협업 및 의사소통: 사고 해결 과정 전반에 걸쳐 Rootly는 팀원들 간의 협업과 의사소통을 위한 허브 역할을 합니다. 실시간 의사소통, 파일 공유 및 상태 업데이트를 가능하게 하여 모든 사람이 사고 대응 노력에 대해 정보를 공유하고 조율할 수 있도록 합니다.
-
해결 및 사후 사고 분석: 사고가 해결되면 Rootly는 근본 원인, 학습된 교훈 및 개선 영역을 문서화하기 위한 사후 사고 분석을 용이하게 합니다.
-
사고 분석: Rootly는 모든 관련 사고 정보를 캡처하고 팀이 사고 데이터를 해석하는 데 도움이 되는 통찰력 있는 메트릭을 제공합니다.
사고 수명 주기
Rootly는 다음 단계를 통해 사고를 관리합니다. 각 단계는 사고status로 표시됩니다.
분류
triage 상태는 사고로 확인되지 않은 잠재적인 문제에 사용됩니다. 사고를 triage 상태로 설정하면 팀이 알림의 영향 범위를 제한하고 초기 조사를 소수의 대응자 그룹으로 유지할 수 있습니다.
사고는 triage 상태로 선언될 수 있으며, 이는 분류 중으로 표시 체크박스를 선택하여 수행됩니다.
triage 상태의 데이터 값은 in_triage입니다.
사고가 triage 상태일 때, {{ incident.in_triage_at }}
타임스탬프가 자동으로 기록됩니다.
사고가 분류되지 않았다면 이 타임스탬프는 기록되지 않습니다.
시작됨
사고가 started 상태가 되면 실제 사고로 확인되었음을 의미합니다.
사고를 직접 started 상태로 선언하려면 분류 중으로 표시 체크박스를 선택하지 않은 채로 두면 됩니다.
started 상태의 데이터 값은 started입니다.
사고가 started 상태일 때, {{ incident.started_at }}
타임스탬프가 자동으로 기록됩니다.
완화됨
사고는 그 영향이 억제되면 mitigated 상태로 이동합니다. 그러나 이는 사고가 공식적으로 해결되었다는 의미는 아닙니다.
사고는 mitigated 상태로 진행될 수 있으며, 이는 /rootly mitigate 명령어를 사용하거나 Mitigate 버튼을 통해 수행됩니다.
mitigated 상태의 데이터 값은 mitigated입니다.
사고가 mitigated 상태일 때, {{ incident.mitigated_at }}
타임스탬프가 자동으로 기록됩니다.
이 타임스탬프는 {{ incident.resolved_at }}
타임스탬프와 동일한 값으로 자동 설정되며, mitigated 상태를 건너뛰는 경우에 해당됩니다.
해결됨
사고는 resolved 상태로 간주되며, 이는 사고를 일으킨 문제가 해결되었을 때입니다.
사고는 resolved 상태로 진행될 수 있으며, 이는 /rootly resolve 명령어를 사용하거나 Resolve 버튼을 통해 수행됩니다.
resolved 상태의 데이터 값은 resolved입니다.
사고가 resolved 상태일 때, {{ incident.resolved_at }}
타임스탬프가 자동으로 기록됩니다.
취소됨
CANCELED - 사고가 실제 사고가 아니라고 판단되거나(거짓 양성) 다른 사고의 중복인 경우 취소될 수 있습니다. 이 상태의 데이터 값은 canceled입니다.
사고는 cancelled 상태로 간주되며, 이는 거짓 양성으로 판명되거나 기존 사고의 중복으로 확인되었을 때입니다.
사고는 cancelled 상태로 진행될 수 있으며, 이는 /rootly cancel 명령어를 사용하거나 Cancel Incident 버튼을 통해 수행됩니다.
Cancel Incident 버튼은 사고가 triage 상태일 때만 사용할 수 있습니다.
cancelled 상태의 데이터 값은 cancelled입니다.
사고가 cancelled 상태일 때, {{ incident.cancelled_at }}
타임스탬프가 자동으로 기록됩니다.
사고 속성
Rootly에서 생성된 모든 사고는 일련의 데이터 속성으로 특징지을 수 있습니다. 이러한 속성은 내장되어 있거나 사용자 정의일 수 있습니다.
사고 속성은 사고 관리 중에 중요한 역할을 하며 다음과 같은 기능을 수행할 수 있습니다
-
각 사고를 분류하는 데 도움을 줍니다 (예: 유형 = 보안, 고객 대면, 백엔드 등)
-
자동화를 위한 실행 조건으로 사용됩니다 (예: 상태 = 해결됨일 때 사고 회고를 생성, 심각도 = SEV0일 때 리더십에 알림)
-
통찰력 있는 사고 분석을 얻는 데 사용됩니다 (예: 영향을 받은 서비스별로 사고를 분류한 그래프 작성)
이러한 속성에 대해 더 자세히 알아보려면 전용 페이지 here를 참조하세요.
지원
이 페이지에 대해 도움이나 추가 정보가 필요하시면 다음으로 연락해 주세요support@rootly.com 또는 다음으로 이동하여 채팅을 시작하세요 Help > Chat with Us.