[2023 AWS re:Invent] Data protection and resilience with AWS storage

세션명

Data protection and resilience with AWS storage

강연자

Bisman Sethi, Palak Desai

핵심 내용 요약
  • 고객의 데이터 내구성 및 고가용성 강조
    • 데이터는 기업과 고객에게 가장 중요한 자산으로 안정적인 비즈니스 운영을 수행하기 위해서 고객의 데이터의 신뢰성을 확보하고 업무 연속성을 유지하기 위해는 기업은 비즈니스에 대해 고가용성, 재해 복구 등의 전략을 수립 해야 합니다.
  • 전략 수립을 위한 계획 수립
    • 비즈니스 운영을 유지하고 계획되지 않은 중단, 재해, 랜섬웨어와 같은 데이터 손실 이벤트로부터 복구할 수 있도록 목표에 따라 RPO(복원 시점 목표)와 RTO(복구 시간 목표)을 고려하여 재해 복구 및 내구성 계획을 수립해야 합니다.
키워드

AWS, 재해 복구 전략, Multi-Region Active-Active, 다운타임 최소화, AWS Backup, 중앙 집중화, 클라우드 네이티브 백업, 불변성, 비즈니스 연속성, RTO ,RPO, 가용성, 내구성

상세내용
1. 데이터 내구성과 가용성을 위한 전략 수립
  • 비즈니스의 신뢰성과 연속성을 유지하기 위해 데이터를 여러 전략을 사용할 수 있습니다.
  • 데이터는 세계에서 가장 귀중한 자원 중 하나입니다. 데이터 보호와 비즈니스의 성공을 위한 전략을 수립해야 합니다.
2. 전략 수립을 위한 고려 사항

재해 복구 및 고가용성 전략을 수립할 때 중요한 것은 무엇일까요?

  • 회복 지점 목표(RPO)와 회복 시간 목표(RTO)를 고려해야 합니다.
  • 복원 시점 목표(RPO)와 복구 시간 목표(RTO)를 고려하여 비즈니스가 감내할 수 있는 손실을 정의해야 합니다. 이에 따라 백업 및 복구, 버전 관리 혹은 재해복구(DR) 등 다양한 도구를 활용해야 합니다. 고가용성을 위해 애플리케이션을 디자인하고, 재해 복구를 위해 전략을 선택해야 합니다.
회복 시간 목표(RTO) 란
비즈니스 서비스가 중단된 시점으로부터 복구되어 가동될 때까지의 소요 시간을 의미 빠른 시간 내에 비즈니스 서비스를 다시 재개할수 있도록 계획되어야 합니다.
회복 지점 목표(RPO) 란
비즈니스 서비스가 중단된 시점으로부터 데이터를 복구할 수 있는 기준점을 의미로 적은 데이터 손실로 비즈니스 서비스를 복구 할 수 있도록 계획 되어야 합니다.
3. AWS의 공동 책임 모델 이해
  • AWS는 데이터 신뢰성을 위해 AWS와 고객 간의 공동 책임 모델에 따라 나누어진다.
  • AWS는 인프라와 관련된 내구성을 책임지며, 고객은 자체 애플리케이션 및 데이터의 내구성을 책임집니다.
  • AWS는 블록 스토리지, 객체 스토리지, 파일 등 다양한 저장소를 제공하고 AWS Backup과 같은 도구를 사용하여 데이터 내구성을 보장할 수 있도록 돕고 있습니다.
4. 데이터 내구성과 고가용성을 위한 전략 방법
  • AWS Backup 활용: 여러 AWS 리소스를 사용하는 경우, AWS Backup을 활용하여 응용 프로그램 내의 모든 데이터를 백업하는 정책을 구축할 수 있습니다.
  • 테스트 시나리오 중요성: 재해 대비 계획 만들 때 실제로 필요한 시점에 작동하는지 확인하기 위해 시나리오를 테스트하는 것이 중요합니다.
  • AWS Well-Architected Pillars 활용: AWS Well-Architected Pillars를 활용하여 응용 프로그램이 장애에 강한 구조로 설계할 수 있도록 지침을 따를 수 있습니다.
  • 고가용성 (High Availability): 구성 요소의 장애에 대해 응용 프로그램이 견딜 수 있어야 한다는 개념으로 AWS는 전 세계 32개 지역과 약 96개의 가용 영역을 프로비저닝하여 고 가용성을 제공합니다. 단일 장애 지점을 방지하고 여러 가용 영역 및 지역에 애플리케이션을 배포함으로써, 애플리케이션의 고가용성을 유지하기 위해 지원합니다.
  • 재해 복구: 전체 지역이 다운되는 등의 상황에 대비해 응용 프로그램이 정상적으로 복구되어야 하는 개념으로 클라우드에서는 여러 지역과 가용 영역을 활용하여 다양한 재해 복구 시나리오를 구현할 수 있습니다
5. 재해 복구 전략 소개

재해 복구를 위한  4가지 전략을 제시합니다. 기업은 회복 지점 목표(RPO)와 회복 시간 목표(RTO)를 고려하여 재해 복구 전략을 수립 해야 합니다.

Backup and restore 를 통한 재해 복구 전략
Backup and restore: 백업은 데이터를 다른 지역 또는 보호된 영역에 저장하여 재해 시 복원할 수 있는 방법을 제공합니다.복원은 데이터를 복원하는 것뿐만 아니라, 인프라를 설정하고 구성하고 애플리케이션을 연결하는 등의 추가 단계를 필요로 합니다.

  • 가장 비용 효율적인 전략
  • 데이터들을 백업해 두었다가 재해 발생 시점이 되었을 때 복원해야하는 DR 지역에 해당   
  • 리소스를 복원시켜서 재해 복구에 대응하는 전략입니다.
  • 복구시간까지 오랜시간소요되며 복구시점 또한 재해 발생 시점으로부터 이전 시점의 데이터로 손실되는 데이터의 양이 많을 수 있습니다.
  • 복구 지점 목표(RPO)가 길어질 수 있습니다.

특정 가용 영역에 장애가 발생했을때, 여러 개의 가용영역(AZ)에 복제본을 생성하는 아키텍처는 단일 리전(Region) 에서 시스템이 필요한 재해 복구 전략이 될 수 있습니다. 하지만 인적 오류와 소프트웨어 결함을 포함한 재해에는 비지니스에 필수적인 데이터를 변형 시킬 수 있고, 변형된 데이터를 다른 가용 영역(AZ)에 복제 할 수 있습니다

여러 AWS 리전을 활용한 백업

AWS Backup 은 중앙 집중적인 관리 기능을 제공할 뿐만 아니라,
여러 리전(Region)에 백업의 복제본을 생성 할 수 있습니다. 여러 리전(Region)에 백업 데이터를 복제하여, 특정 리전(Region) 전체의 장애와 같은 상황도 대비 할 수 있습니다. 그림과 같이 장애가 발생한 리전(Region)과 다른 리전(Region)의 백업 복제본을 이용하여, 시스템을 복구하고 운영 할 수 있습니다.

“Pilot Light” 를 통한 재해 복구 전략

Pilot Light: 데이터는 다른 지역에 복제되지만 응용 프로그램의 일부만 프로비저닝됩니다.
중요하지 않은 업무 애플리케이션에 적합하며, 복구 시간이 15분에서 1시간 정도 소요될 수 있습니다.비용 효율적이며, 비즈니스 영향이 크지 않는 경우에 적합합니다.

  • 클라우드 네이티브 재해 복구 전략 중 하나입니다.
  • 데이터를 다른 리전에 복제합니다.
  • 비즈니스 시스템에 영향이 적은 구성 요소는 제외합니다.
  • 복구 시간이 15분에서 1시간까지 소요될 애플리케이션에 적합합니다.

코어 서비스의 복사본을 별도의 복구할 리전에 프로비저닝합니다.
데이터 복제에 필요한 최소한 리소스들을 미리 생성하고 서비스는 유휴 상태를 유지합니다.

“Warm standby” 전략을 통한 재해 복구 전략

Warm standby: 파일럿 라이트와 유사하지만, 더 많은 응용 프로그램 구성 요소를 프로비저닝한 것으로, 복구 시간이 0분에서 10분 정도 소요될 수 있습니다. 핵심 응용 프로그램에 적합하며, 단시간의 다운타임이 큰 금전적 영향을 미치는 경우에 사용됩니다. 비용은 높지만 빠른 복구가 필요한 경우 적합합니다.

“Pilot Light”와 유사하지만 더 많은 응용 프로그램 구성 요소가 프로비저닝됩니다. 따라서 “Pilot Light”에 비해 더 높은 비용이 들지만,  복구 시간은 0에서 10분까지 단축됩니다.
Pilot Light 에 비해 인스턴스나 로드밸런서를 프로비저닝할 필요가 없습니다.
핵심 응용 프로그램이 적합하며, 특히 다운 타임이 큰 재해 상황에서도 빠른 회복이 필요한 경우에 사용됩니다.

  • 파일럿 라이트와 웜 대기 간의 차이

Pilot Light 의 경우 먼저 추가 조치를 취하지 않으면 요청을 처리할 수 없지만 Warm standby 는 축소된 용량 수준으로 트래픽을 즉시 처리할 수 있다는 점입니다.
파일럿 라이트를 사용하려면 서버를 실행해야 하고 코어 인프라가 아닌 인프라를 추가로 배포해야 할 수 있으며 스케일 업해야 합니다.
Warm standby 를 사용하려면 스케일 업만 하면 됩니다. 다른 것은 이미 모두 배포되고 실행되는 상태입니다

Multi-Region Active-Active 를 통한 재해 복구 전략

Multi-Region Active-Active: 가장 높은 비용의 재해 복구 전략으로, 두 지역에서 동시에 활동하는 액티브-패시브 전략을 사용합니다. 복구 시점 목표를 0으로 줄이며, 복잡하고 고비용입니다. 중요한 비즈니스 서비스의 경우 적합합니다.

  • 가장 높은 비용이 드는 전략,
  • 두 지역에서 데이터와 리소스가 활성화되어 있습니다. 
  • 트래픽은 일반적으로 본 지역으로 라우팅되고 재해 발생 시 이동이 필요할 때 대안 지역으로 즉시 전환할 수 있습니다. 
  • 다운 타임을 허용할 수 없는 매우 비즈니스 중요한 상황에서 사용됩니다.
  • AWS 멀리리전을 활용하여 액티브/액티브 아키텍처를 구현합니다.
  • 두 개의 리전(Region)이 사용되었으나, 더 많은 리전(Region)이 사용될 수도 있습니다.
  • 각 리전(Region)에는 고가용성을 위해 다중 가용영역(AZ)를 구성하여 워크로드를 처리 하였습니다.
  • DynamoDB 테이블을 AWS 리전 간에 자동으로 복제하여 사용할 수 있습니다.
  • 해당 구성은 RTO/RPO 가 0 으로 충족이 필요할때 적용할 수 있습니다.
6. AWS Backup의 핵심 역할과 장점

AWS Backup을 사용하면 백업 수명 주기 정책 및 일정을 관리할 수 있으며 백업의 분석 및 관리를 자동화할 수 있습니다. 

  • 정책 기반 백업 관리: AWS Backup은 사용자가 정의한 정책을 기반으로 자동으로 백업을 관리하며, 이는 AWS의 다양한 서비스와 리소스에 적용됩니다.
  • 데이터의 불변성: 백업된 데이터는 불변성을 유지하므로, 랜섬웨어 공격 등으로 인한 손상된 데이터에 대한 신속하고 신뢰할 수 있는 복구가 가능합니다.
  • 다양한 사용 사례 지원: AWS Backup은 클라우드 네이티브 백업부터 컴플라이언스 및 거버넌스를 위한 불변성 활용, 재해 복구까지 다양한 사용 사례를 지원합니다.
  • 중앙 집중화된 관리: 사용자는 AWS Backup을 통해 여러 AWS 리소스와 하이브리드 환경을 한 곳에서 중앙 집중화된 방식으로 관리할 수 있습니다.
  • 유연한 복구 옵션: AWS Backup은 데이터를 빠르게 복원하고 원하는 지점으로 롤백할 수 있는 유연한 복구 옵션을 제공합니다.
  • 이러한 특징들은 안정적이고 효율적인 데이터 보호 및 복구 솔루션을 제공합니다.

Bespin’s Comment

데이터는 기업과 고객에게 가장 중요한 자산입니다. 기업이 안정적인 비즈니스 서비스를 유지하기 위해서는 서비스에 대한 고 가용성과 내구성이 유지되어야 합니다.  기업은 예기치 못한 서비스의 중단이나 재해, 랜섬웨어와 같은 데이터 손실을 복구할 수 있도록 계획을 수립해야 합니다. 안정적인 서비스를 위해 재해복구시나리오를  RPO(복원 시점 목표)와 RTO(복구 시간 목표)을 고려하여 재해 복구 계획을 수립해야 합니다. 이를 통해 고객에게 안정적인 서비스를 제공할 수 있습니다.