Infra2025년 10월 28일1분 읽기

Chaos Engineering — 프로덕션 장애를 미리 경험하기

YS
YoungSam
조회 1976

Chaos Engineering이란

프로덕션 환경에서 의도적으로 장애를 발생시켜 시스템의 복원력을 검증합니다.

핵심 원칙

  1. 정상 상태의 행동을 정의
  2. 가설 수립: "X 장애에도 정상 동작할 것"
  3. 실험 실행
  4. 결과 분석 및 개선

Kubernetes에서 Litmus

apiVersion: litmuschaos.io/v1alpha1
kind: ChaosEngine
metadata:
  name: pod-kill-test
spec:
  appinfo:
    appns: production
    applabel: "app=api-server"
  experiments:
    - name: pod-delete
      spec:
        components:
          env:
            - name: TOTAL_CHAOS_DURATION
              value: "30"
Chaos EngineeringResilienceTesting

댓글 0

아직 댓글이 없습니다.