Chaos Engineering이란
프로덕션 환경에서 의도적으로 장애를 발생시켜 시스템의 복원력을 검증합니다.
핵심 원칙
- 정상 상태의 행동을 정의
- 가설 수립: "X 장애에도 정상 동작할 것"
- 실험 실행
- 결과 분석 및 개선
Kubernetes에서 Litmus
apiVersion: litmuschaos.io/v1alpha1
kind: ChaosEngine
metadata:
name: pod-kill-test
spec:
appinfo:
appns: production
applabel: "app=api-server"
experiments:
- name: pod-delete
spec:
components:
env:
- name: TOTAL_CHAOS_DURATION
value: "30"
댓글 0