1
지난 금요일에 발생한 역대급 IT 대란 MS 오류 이슈 관련 기사가 전 세계에서 계속해서 쏟아지고 있습니다. 이번 일로 전 세계가 연결되었다는 것을 새삼 실감하게 되었는데요. IT 서비스를 운영하고 있다면 장애에 대한 대비는 반드시 필요하다는 것을 다시 한번 느끼게 된 계기가 아닐까 싶습니다. 그럼 MS 장애 이슈 요약과 함께 IT 장애 대책에 대해 알아보겠습니다.
크라우드스트라이크의 복구 가이드에 따라 해결 방안은 공유되었습니다. 하지만 기기 사용 환경에 따라 개별적으로 하나씩 일일이 복구가 필요한 경우도 있기 때문에, 피해 기기의 복구에는 길게는 수 주가 소요될 수도 있겠습니다.
본론으로 들어가기 전에 IT 장애 대응 전략 요약부터 확인해 보겠습니다.
화재가 발생하면 아무리 빨리 진화하더라도 피해를 보게 마련입니다. 때문에 어느 사회든 화재 사고 예방에 대한 중요성을 강조하고 교육을 동반한 캠페인이 운영됩니다. IT 장애도 마찬가지입니다. 신속한 피해 복구도 중요하지만, 그보다 우선되어야 할 것은 예방입니다.
신뢰할 수 있는 IT 장애 예방을 위해선 두 가지를 기억해야 합니다. (1) 계획 실천과 (2) 지속성입니다. IT 서비스 운영 기업들은 다양한 상황에서의 장애 발생 사례 데이터를 기반으로 재발 방지를 위한 여러 Plan을 세우는데요. 안타깝게도 보고서 형태의 계획서에 그치는 경우가 많습니다.
▲하드웨어와 소프트웨어의 정기 점검과 유지 보수 ▲상시 모니터링에 기반한 이상 징후 탐지 ▲시스템 및 네트워크 취약점 정기 점검과 보안 강화 ▲장애 발생 시나리오 설계 및 모의 훈련 실시 등 안정적인 서비스 운영을 위해 지속적으로 점검하고 테스트하는 것이 최선의 IT 장애 예방책입니다.
화재 발생 시 가장 먼저 해야 할 조치는 큰 소리로 “불이야!”라고 외치는 것이죠. IT 장애가 발생하면 어떻게 소리쳐야 할까요? 바로 알림(notification)입니다. 장애 발생 시 초도 대응의 속도는 복구 시간에 큰 영향을 미치는데요. 초기에 신속하게 탐지하고 정확하게 전달해야 피해 범위를 최소화할 수 있는 것이죠.
IT 알림은 앱, 웹페이지, 이메일, SNS, 전화 등 정말 다양한 도구를 사용해 전파할 수 있습니다. 사안의 심각성에 따라서 전파에 사용되는 도구도 달라지게 됩니다. 그런데 IT 장애라는 것이 1년 365일 밤낮 구분 없이 발생할 수 있기 때문에 IT 관리자의 알림 피로도는 상당한 수준입니다. 피로도가 높아지게 되면 자연스럽게 휴먼에러도 증가하게 마련입니다. IT 모니터링 및 관리 자동화 솔루션은 장애 탐지 및 전파에 든든한 조력자입니다.
얼럿나우(AlertNow)는 통합 알림(notification) 관리 솔루션으로 재난 대응을 위한 거버넌스 실행에 꼭 필요한 요소입니다. 다양한 모니터링 도구에서 상시적으로 발생하는 소소한 IT 장애부터 서비스에 큰 피해를 끼치는 결함까지 전부 한곳에서 확인할 수 있는데요. 일단 알림이 발생하면 상위 레벨뿐만 아니라 팀 단위로까지 신속하게 알림을 전파해 줍니다. 1차 담당자가 부재중이면 2차 담당자 또는 팀에게 알림을 보내주는데 이메일, SMS, 푸시 알림, 전화까지 그 단계도 다양하죠. 여러 툴 볼 필요 없이, 얼럿나우 하나만 있으면 시간도 절약되고 업무 효율도 높아지니 알림 관리에는 이만한 게 없습니다.
장애 초도 대응이 완료되었다면, 이제 본격적으로 원인에 대해 규명하고 재발 방지를 위한 영구적 해결책을 도출해야 할 것입니다. 이번 MS OS 오류의 원인으로 꼽히는 단일 장애 지점(SPoF, Single point of failure) 사용으로 인한 IT 장애 발생을 예로 들어보겠습니다.
단일 장애 지점은 시스템이나 프로세스의 구성 요소 중 하나라도 작동하지 않으면 전체 시스템이 중단되는 지점을 의미합니다. 즉 단일 지점의 실패가 전체 시스템의 실패로 이어지는 취약한 부분이라고 할 수 있는데요. 이는 올바른 시스템 설계와 거버넌스(정책)를 통해 해결할 수 있습니다. IT 거버넌스(정책)는 IT 인프라와 시스템의 운영 및 변경 관리에 대한 명확한 정책과 절차를 의미합니다.
우리 기업의 IT 재해 예방 시스템의 수준은 어느 정도인지 가늠하기가 쉽지 않습니다. 베스핀글로벌에서는 이를 간단하게 스스로 점검해 볼 수 있는 자가 진단 지표를 제공하고 있는데요. 아래 문항을 살펴보시고 우리 기업은 점검이 필요하다 판단되시면 베스핀글로벌의 IT 재해 복구 서비스(DRaaS)에 문의해 주세요. 전문가들의 보다 심도 있는 컨설팅을 받으실 수 있습니다.
베스핀글로벌이 제안하는 IT 재해 예방 자가 진단
☑️ 비즈니스에서 중요한 시스템의 경우 Hot Site 방식의 DR 구축이 필요하다. 또한 비용 효과적인 운용을 위해 Sacle Out/Up이 유연한 클라우드 활용이 권장된다.
☑️ 비즈니스를 고려하여 RTO(Recovery Time Objective, 목표 복구 시간), RPO(Recovery Point Objective, 목표 복구 지점)를 산정하고 재해 복구 계획을 수립한다.
☑️ 정기적인 재해 복구 훈련을 수행한다.(평소에 훈련되어 있지 않으면, 긴급 복구 계획은 무용지물이다)
☑️ 비상 연락망 체계를 상시 구비하고, 파트너/벤더 사의 연락처를 수시로 업데이트하고 관리해야 한다.
☑️ 단일 장애 지점(SPoF)을 고려한 모니터링 체계 및 장애 대응 프로세스를 갖추어야 한다. 사례별 대응 방법을 기술해두는 것도 좋다.
☑️일괄 패치 방식보다는 반자동 패치 방식을 고려하고, 테스트 환경에 적용 후 Production에 적용하는 방식을 고려해야 한다.
☑️ 하나의 환경을 사용하기보다는 비용을 고려하여 멀티/하이브리드 클라우드 등을 활용하여 멀티 사이트(Multi-Site) 방식으로 전환하는 것도 고려할 점이다.
☑️ 비교가 가능하도록 다양한 솔루션을 보유한 파트너를 찾는 것도 필요하다.
오늘의 베스픽은 어떠셨나요? 유용한 정보를 받아 가셨나요?
IT 장애는 언제든지 발생할 수 있습니다. 꾸준한 예방 조치와 훈련만이 장애를 방지하고 신속한 복구를 이룰 수 있습니다. AI 활용이 더욱 고도화되면 IT 시스템의 중요성과 파급력으로 인해 IT 장애로 인한 피해 규모도 크게 확대될 것입니다. 경각심을 가지고 IT 재해 예방 정책을 철저히 수립하고 실천해야 하는 이유입니다.
언제든지 일어날 수 있는 IT 장애, 서비스 중단을 막고 피해를 최소화하려면? 베스핀글로벌의 재해 복구 서비스(DRaaS, Disaster Recovery as a Service)를 소개합니다.
베스핀글로벌의 재해 복구 서비스는…
✔️ DR 시스템 구축부터 재해 복구 모의 훈련까지 다각도로 지원합니다.
✔️ 철저한 정책 수립과 수행, 점검을 통해 IT 서비스 중단을 방지합니다.
✔️ 고객 피해 최소화를 위한 최적의 해결책을 제시합니다.
제공 사항
베스핀글로벌의 재해 복구 서비스는 클라우드 상에서 DR 시스템을 구축하여 비용 효율화는 물론, 거버넌스 체계 마련과 동시에 실질적인 방안을 통해 고객의 피해를 최소화하는 것이 특징입니다.
IT 장애 발생 시 자산 보호는 물론, 신속한 복구를 지원하는 재해 복구 서비스(DRaaS)가 궁금하시다면, 문의하기로 연락주세요!
Sources