남 일 아닌 ‘MS발 IT 대란’... IT 장애 대응 방안 전격 공개

👍베스픽의 원픽

지난 금요일에 발생한 역대급 IT 대란 MS 오류 이슈 관련 기사가 전 세계에서 계속해서 쏟아지고 있습니다. 이번 일로 전 세계가 연결되었다는 것을 새삼 실감하게 되었는데요. IT 서비스를 운영하고 있다면 장애에 대한 대비는 반드시 필요하다는 것을 다시 한번 느끼게 된 계기가 아닐까 싶습니다. 그럼 MS 장애 이슈 요약과 함께 IT 장애 대책에 대해 알아보겠습니다.

한날 한시에 지구🌏가 들썩인 IT 장애, 도대체 무슨 일?

7/19(금) 오전 4시(UTC 기준), 마이크로소프트 OS와 크라우드스트라이크(CrowdStrike) 팔콘(Falcon)의 충돌이 발생하며 MS 윈도우 OS 사용 기기에 블루 스크린(BSOD, Blue Screen of Death)이 뜨면서 작동 멈춤 장애 발생
윈도우 호스트용 팔콘 플랫폼의 센서 구성 업데이트의 오류로 인한 것으로 보안 사고나 사이버 공격이 아닌 것으로 크라우드스트라이크가 밝힘
피해 규모 약 850만 대(MS OS 사용 기기의 1% 미만)
Mac과 리눅스 호스트는 영향을 받지 않았음
윈도우 서버와 가상머신(VM), 엔드포인트 시스템 등에서 장애가 발생하였으며 MS Azure의 장애가 아님
단일 장애 지점(Single Point of Failure)의 문제로, 이전보다 강화된 글로벌 연결성으로 인해 전 세계적인 대란으로 규모가 확대됨
들이 새로운 지식을 습득하고 문제 해결에 도움이 되는 AI 기술을 학습한다.

이번 사태, 복구 방법은?

%WINDIR%\System32\drivers\CrowdStrike 디렉토리의 “C-00000291*.sys” 파일 삭제 후 재부팅하여 문제 해결
MS 비트로커(BitLocker) 사용자의 경우 암호 키 사용 또는 암호 키 복구 없이 비트로커 복구 안내 지침을 활용할 것

크라우드스트라이크의 복구 가이드에 따라 해결 방안은 공유되었습니다. 하지만 기기 사용 환경에 따라 개별적으로 하나씩 일일이 복구가 필요한 경우도 있기 때문에, 피해 기기의 복구에는 길게는 수 주가 소요될 수도 있겠습니다.

우리 회사에 IT 장애가 일어난다면 이렇게 해결해 보세요

본론으로 들어가기 전에 IT 장애 대응 전략 요약부터 확인해 보겠습니다.

IT 장애 사고 예방 조치: 장애 피해 최소화 설계 및 구축, DR 센터 구축, 재해 복구 계획 및 시나리오 수립, 모의 훈련 실시, 보안 시스템 구축 등 예방 조치를 취한다.
장애 감지 및 식별: 모니터링, 시스템 알림, 사용자 보고 등 여러 도구를 통해 장애를 감지하고 식별한다.
신속한 전파: 대내외 관계자에게 신속하게 상황을 전달하고 서비스 운영을 잠재적으로 중단한다.
문제 진단: 장애의 근본 원인 식별을 위한 심층 조사를 실시한다. 로그 분석, 시스템 테스트, 구성 및 변경 사항 등 여러 가능성을 검토한다.
즉각적 해결 방안 도출: 장애를 즉시 해결하고 시스템을 복구할 수 있는 방안을 도출해 조치를 취하고 이를 알린다.
영구적 해결책 구현: 식별된 근본 원인을 해결하기 위한 조치를 취하고, 재발 방지를 위한 예방책을 마련한다.
지속적인 개선 방안 관리: 장애 발생 및 해결 과정에 대한 리포트를 기반으로 예방책과 대응 프로세스를 지속적으로 검토하고 개선한다.
장애 발생 시나리오 수립 및 모의 테스트 수행: 장애 발생 및 복구 시나리오를 수립하고 정기적인 모의 훈련을 수행해 유사시에 대응할 수 있도록 준비를 철저히 한다.

🔥화재 예방 소방 훈련! ⚔️ IT 장애 예방 모의 훈련!

화재가 발생하면 아무리 빨리 진화하더라도 피해를 보게 마련입니다. 때문에 어느 사회든 화재 사고 예방에 대한 중요성을 강조하고 교육을 동반한 캠페인이 운영됩니다. IT 장애도 마찬가지입니다. 신속한 피해 복구도 중요하지만, 그보다 우선되어야 할 것은 예방입니다.

신뢰할 수 있는 IT 장애 예방을 위해선 두 가지를 기억해야 합니다. (1) 계획 실천과 (2) 지속성입니다. IT 서비스 운영 기업들은 다양한 상황에서의 장애 발생 사례 데이터를 기반으로 재발 방지를 위한 여러 Plan을 세우는데요. 안타깝게도 보고서 형태의 계획서에 그치는 경우가 많습니다.

▲하드웨어와 소프트웨어의 정기 점검과 유지 보수 ▲상시 모니터링에 기반한 이상 징후 탐지 ▲시스템 및 네트워크 취약점 정기 점검과 보안 강화 ▲장애 발생 시나리오 설계 및 모의 훈련 실시 등 안정적인 서비스 운영을 위해 지속적으로 점검하고 테스트하는 것이 최선의 IT 장애 예방책입니다.

누구보다 빠르게 무엇보다 정확하게🎯 ‘신속히 알림 전파’🚨

화재 발생 시 가장 먼저 해야 할 조치는 큰 소리로 “불이야!”라고 외치는 것이죠. IT 장애가 발생하면 어떻게 소리쳐야 할까요? 바로 알림(notification)입니다. 장애 발생 시 초도 대응의 속도는 복구 시간에 큰 영향을 미치는데요. 초기에 신속하게 탐지하고 정확하게 전달해야 피해 범위를 최소화할 수 있는 것이죠.

IT 알림은 앱, 웹페이지, 이메일, SNS, 전화 등 정말 다양한 도구를 사용해 전파할 수 있습니다. 사안의 심각성에 따라서 전파에 사용되는 도구도 달라지게 됩니다. 그런데 IT 장애라는 것이 1년 365일 밤낮 구분 없이 발생할 수 있기 때문에 IT 관리자의 알림 피로도는 상당한 수준입니다. 피로도가 높아지게 되면 자연스럽게 휴먼에러도 증가하게 마련입니다. IT 모니터링 및 관리 자동화 솔루션은 장애 탐지 및 전파에 든든한 조력자입니다.

얼럿나우(AlertNow)는 통합 알림(notification) 관리 솔루션으로 재난 대응을 위한 거버넌스 실행에 꼭 필요한 요소입니다. 다양한 모니터링 도구에서 상시적으로 발생하는 소소한 IT 장애부터 서비스에 큰 피해를 끼치는 결함까지 전부 한곳에서 확인할 수 있는데요. 일단 알림이 발생하면 상위 레벨뿐만 아니라 팀 단위로까지 신속하게 알림을 전파해 줍니다. 1차 담당자가 부재중이면 2차 담당자 또는 팀에게 알림을 보내주는데 이메일, SMS, 푸시 알림, 전화까지 그 단계도 다양하죠. 여러 툴 볼 필요 없이, 얼럿나우 하나만 있으면 시간도 절약되고 업무 효율도 높아지니 알림 관리에는 이만한 게 없습니다.

📥 AlertNow 상품소개서 다운로드하기

한 숨 돌렸으니, 🔬진짜 원인 찾아 재발 방지 대책 마련

장애 초도 대응이 완료되었다면, 이제 본격적으로 원인에 대해 규명하고 재발 방지를 위한 영구적 해결책을 도출해야 할 것입니다. 이번 MS OS 오류의 원인으로 꼽히는 단일 장애 지점(SPoF, Single point of failure) 사용으로 인한 IT 장애 발생을 예로 들어보겠습니다.

단일 장애 지점은 시스템이나 프로세스의 구성 요소 중 하나라도 작동하지 않으면 전체 시스템이 중단되는 지점을 의미합니다. 즉 단일 지점의 실패가 전체 시스템의 실패로 이어지는 취약한 부분이라고 할 수 있는데요. 이는 올바른 시스템 설계와 거버넌스(정책)를 통해 해결할 수 있습니다. IT 거버넌스(정책)는 IT 인프라와 시스템의 운영 및 변경 관리에 대한 명확한 정책과 절차를 의미합니다.

여분(Redundancy) 구축: 중요한 하드웨어, 소프트웨어, 프로세스 등에 대한 여분을 구축하여 하나의 구성 요소가 고장나도 다른 구성 요소로 대체하여 시스템을 계속 작동시킬 수 있도록 한다.
적절한 거버넌스 수립: 시스템 업데이트 및 변경 시 충분한 테스트 과정을 거치고 DR 센터 운영 시 업데이트 시간에 차등을 두는 등 각기 다른 거버넌스를 적용해 미연의 사고를 방지한다.
로드밸런싱: 트래픽을 여러 서버나 장치에 분산하여 특정 구성 요소에 과도한 부담이 집중되는 것을 방지한다.
교차 교육: 여러 직원이나 팀에게 시스템 운영 및 유지 보수에 대한 지식과 기술을 교육하여 특정 직원이나 팀에 대한 의존도를 줄인다.

📝그렇다면 현재 우리 기업의 ‘IT 장애 예방 수준’은 몇 점💯?

우리 기업의 IT 재해 예방 시스템의 수준은 어느 정도인지 가늠하기가 쉽지 않습니다. 베스핀글로벌에서는 이를 간단하게 스스로 점검해 볼 수 있는 자가 진단 지표를 제공하고 있는데요. 아래 문항을 살펴보시고 우리 기업은 점검이 필요하다 판단되시면 베스핀글로벌의 IT 재해 복구 서비스(DRaaS)에 문의해 주세요. 전문가들의 보다 심도 있는 컨설팅을 받으실 수 있습니다.

베스핀글로벌이 제안하는 IT 재해 예방 자가 진단

☑️ 비즈니스에서 중요한 시스템의 경우 Hot Site 방식의 DR 구축이 필요하다. 또한 비용 효과적인 운용을 위해 Sacle Out/Up이 유연한 클라우드 활용이 권장된다.

☑️ 비즈니스를 고려하여 RTO(Recovery Time Objective, 목표 복구 시간), RPO(Recovery Point Objective, 목표 복구 지점)를 산정하고 재해 복구 계획을 수립한다.

☑️ 정기적인 재해 복구 훈련을 수행한다.(평소에 훈련되어 있지 않으면, 긴급 복구 계획은 무용지물이다)

☑️ 비상 연락망 체계를 상시 구비하고, 파트너/벤더 사의 연락처를 수시로 업데이트하고 관리해야 한다.

☑️ 단일 장애 지점(SPoF)을 고려한 모니터링 체계 및 장애 대응 프로세스를 갖추어야 한다. 사례별 대응 방법을 기술해두는 것도 좋다.

☑️일괄 패치 방식보다는 반자동 패치 방식을 고려하고, 테스트 환경에 적용 후 Production에 적용하는 방식을 고려해야 한다.

☑️ 하나의 환경을 사용하기보다는 비용을 고려하여 멀티/하이브리드 클라우드 등을 활용하여 멀티 사이트(Multi-Site) 방식으로 전환하는 것도 고려할 점이다.

☑️ 비교가 가능하도록 다양한 솔루션을 보유한 파트너를 찾는 것도 필요하다.

오늘의 베스픽은 어떠셨나요? 유용한 정보를 받아 가셨나요?

IT 장애는 언제든지 발생할 수 있습니다. 꾸준한 예방 조치와 훈련만이 장애를 방지하고 신속한 복구를 이룰 수 있습니다. AI 활용이 더욱 고도화되면 IT 시스템의 중요성과 파급력으로 인해 IT 장애로 인한 피해 규모도 크게 확대될 것입니다. 경각심을 가지고 IT 재해 예방 정책을 철저히 수립하고 실천해야 하는 이유입니다.

⛅ 안쓰면 클나우

언제든지 일어날 수 있는 IT 장애, 서비스 중단을 막고 피해를 최소화하려면? 베스핀글로벌의 재해 복구 서비스(DRaaS, Disaster Recovery as a Service)를 소개합니다.

베스핀글로벌의 재해 복구 서비스는…

✔️ DR 시스템 구축부터 재해 복구 모의 훈련까지 다각도로 지원합니다.

✔️ 철저한 정책 수립과 수행, 점검을 통해 IT 서비스 중단을 방지합니다.

✔️ 고객 피해 최소화를 위한 최적의 해결책을 제시합니다.

제공 사항

핫 사이트(Hot Site) 방식을 포함한 다양한 DR 시스템 구축
재해 복구 계획 및 시나리오 수립
재해 복구 정기 모의 훈련 지원
단일 장애 지점을 고려한 모니터링 방안 제시
사례별 대응책 마련

베스핀글로벌의 재해 복구 서비스는 클라우드 상에서 DR 시스템을 구축하여 비용 효율화는 물론, 거버넌스 체계 마련과 동시에 실질적인 방안을 통해 고객의 피해를 최소화하는 것이 특징입니다.

IT 장애 발생 시 자산 보호는 물론, 신속한 복구를 지원하는 재해 복구 서비스(DRaaS)가 궁금하시다면, 문의하기로 연락주세요!

Sources