당신의 클라우드 ‘원픽’ 뉴스레터, 베스픽입니다 🙂
매주 새로운 소식으로 찾아뵙겠습니다.
👍 베스픽의 원픽
창고? 호수? 우리 회사 데이터는 어디에 있을까?
안녕하세요, 구독자 여러분. 어김없이 화요일에 찾아온 베스픽입니다. 오늘은 데이터 관리 이야기를 해보려고 합니다. AI 시대가 오면서 AI의 토양이 되는 데이터와 데이터 관리에 대한 중요성이 더욱 커지고 있죠. 아직 데이터 관리를 제대로 하고 있지 않으시다면 혹은 데이터 관리에 대해 궁금증이 있으시다면 오늘 베스픽을 참고하시기 바랍니다.
데이터 관리, 기본 개념 정리부터 💪
일단 가장 익숙한 데이터 관리 용어인 데이터 웨어하우스와 데이터 레이크의 기본 개념부터 짚어보겠습니다.
- 데이터 웨어하우스: 구조화된 데이터를 체계적이고 사전 처리된 형태로 저장
- 데이터 레이크: 정형/비정형에 상관없이 모든 유형의 데이터를 저장
차근차근 설명해 보자면 먼저, 저장하는 데이터의 유형부터 다른데요. 데이터 웨어하우스는 이름 그대로 ‘창고’처럼 사전 처리된 형태의 구조화된 데이터를 체계적으로 저장한다면, 데이터 레이크는 데이터를 미리 정리할 필요 없이 모든 유형의 데이터를 바로 저장할 수 있습니다. 정형 데이터든 이미지나 문서 파일 그대로와 같은 비정형 데이터든 간에 데이터 레이크에 넣으면 되기 때문에 매우 유연하고 확장성이 큽니다.
데이터 웨어하우스는 데이터가 이미 구조화되었기 때문에 BI(비즈니스 인사이트) 및 분석에 이상적이라는 장점을 갖고 있고요. 데이터 레이크는 사전 처리나 구성 없이 대용량의 데이터를 원시 형태로 저장하여 분석이 다소 어렵다는 단점이 있습니다. 장단점이 아주 명확하죠. 예를 들어 당장 구체적이고 명확한 목적을 가지고 필요한 형태로 가공하여 데이터를 저장한다면 데이터 웨어하우스를 쓰는 경우가 많겠죠. 이에 반해 어디에 사용할지 혹은 필요한 데이터인지 모르겠지만 향후 사용을 염두에 두고 데이터를 수집할 때에는 데이터 레이크를 이용할 수 있습니다.
하지만 관리가 잘되지 않으면 호수는 늪으로 변해버릴 수도 있습니다. 데이터 늪(Data Swamp)은 데이터의 품질과 거버넌스가 미흡하여 유용한 인사이트를 제공하기 어려운 상태를 뜻하는데요. 저장된 데이터가 명확한 목적 없이 무질서하게 쌓이게 되면, 필요한 데이터를 찾기 어렵고 신뢰성도 떨어지게 됩니다. 데이터 레이크를 효과적으로 활용하기 위해서는 강력한 데이터 거버넌스와 품질 관리 전략이 반드시 필요합니다.
그리고 데이터 레이크의 장점을 유지하면서, 데이터 관리와 분석이 어려운 단점을 보완한 신규 아키텍처 데이터 레이크하우스도 있습니다. 데이터 레이크하우스는 원시 데이터를 그대로 저장하면서도 데이터 웨어하우스처럼 구조화된 데이터에 대한 고급 분석, 데이터 관리, ACID 트랜잭션이 가능한 게 특징입니다. 데이터 레이크하우스에 대해 보다 자세한 기술적 설명이 궁금하시다면 아래 링크를 참고해 주세요.
👉 [베스핀글로벌 테크 블로그] 데이터 레이크하우스란?
여기서 잠깐! ACID 트랜잭션은?
트랜잭션은 데이터베이스에서 수행되는 모든 변경 사항(예: 데이터 추가, 수정, 삭제)을 포함하는 작업 단위를 의미합니다. ACID 트랜잭션이 가능하다는 것은 데이터베이스에서 실행되는 트랜잭션이 △Atomicity(원자성) △Consistency(일관성) △Isolation(독립성) △Durability(지속성)의 네 가지 속성을 모두 충족함을 뜻합니다. 복잡한 데이터 처리 과정에서 발생할 수 있는 여러 문제를 방지하며, 데이터의 안전성과 일관성을 보장한다는 것이죠.
또 다른 중요한 개념, 데이터 메시(data mesh)도 짤막히 소개해 드릴게요. 데이터 메시는 데이터를 특정 비즈니스 도메인(예: 마케팅, 판매, 고객 서비스 등)에 따라 조직하고 관리하는 분산 데이터 아키텍처입니다. 중앙 집중식 단일 시스템에서 발생할 수 있는 운영 병목 현상을 없애고, 다양한 팀이 데이터를 자율적으로 활용하여 데이터의 품질과 접근성을 높일 수 있죠.
쑥쑥 크는 데이터 레이크 산업, 비결은 ☁
데이터 레이크 시장은 2022년 기준으로 139억 달러(약 18조 원)에서 2032년까지 921억 달러(약 121조 원) 규모로 10년간 7배 가까이 성장할 것으로 예측되고 있습니다. 이처럼 데이터 레이크 시장이 커지는 이유 중 하나는 잘 아시다시피 데이터가 엄청나게 생성되고 있기 때문입니다. 소셜미디어부터 IoT 장치, 모바일 앱 등 다양한 소스에서 실시간으로 생성된 데이터를 모두 모아 비즈니스 인사이트를 도출할 필요성이 커진 거죠.
무엇보다 빼놓을 수 없는 것이 클라우드입니다. 클라우드 기술의 발전으로 데이터 레이크의 구축과 운영 비용이 대폭 줄어들었고, 퍼블릭 클라우드 스토리지나 컴퓨팅 자원을 자유롭게 활용하면서 대규모 데이터 저장소를 효율적으로 관리할 수 있게 된 것도 큰 영향을 미쳤습니다.
마지막으로 데이터 기반 의사 결정이 비즈니스 성공에 주효하다는 인식 변화를 들 수 있겠습니다. 사용자의 데이터를 기반으로 한 개인화 추천 시스템을 선보임으로써 매출 증가는 물론, 신규 가입자 확보와 고객 경험 개선, 생산성 향상과 같은 큰 성과를 거둔 넷플릭스, 아마존, 스타벅스, 코카콜라 등의 성공 사례를 다른 기업들도 확인한 것이죠.
미국의 통신사 T-모바일의 경우, 통합되지 않은 서로 다른 시스템 간에 분산되어 있던 데이터를 바탕으로 일일이 엑셀이나 파워포인트로 주간 보고서를 만들었어야 했는데요. 보고서 작성에 12시간 이상이 걸렸다고 합니다. 중앙 집중식 위치에서 보고서를 작성할 수 있는 시스템의 필요성을 느낀 T-모바일은 클라우드 컴퓨팅을 도입, 데이터 레이크 구축을 통해 보고서 작성에 소요되는 9시간을 절감할 수 있었습니다.
하지만 데이터 레이크로 성공적인 전환을 이루었음에도 불구하고, 중앙 집중식 저장소에 모든 데이터를 모으다 보니 시스템 통합 제어의 어려움, 작업량 충돌, 가이드 부재 등 여러 문제를 경험하게 됐죠. 이에 T-모바일은 두 번째 아키텍처 전환을 결심, 데이터 레이크하우스를 구축함으로써 데이터 접근성과 보안을 개선하고, 개발 및 테스트 환경을 구축하여 신뢰성을 향상시켰습니다. 또한 CI/CD 및 DevOps 관행을 도입하여 운영 부담을 줄이고 테스트 자동화를 강화할 수 있었죠.
조사에 따르면 약 64%의 기업이 혁신을 추진하기 위해 데이터를 활용한다고 답했고요. 데이터 분석을 이용하는 25%의 기업이 그렇지 않은 기업보다 더 빠른 혁신 주기를 경험한다고 응답했습니다. 더불어 93%의 조직이 잠재적인 경제적 불확실성에도 불구하고, 데이터에 대한 투자를 늘릴 계획이라고 밝혔다고 하니 데이터 관리에 대한 기업들의 관심은 더욱 커져갈 것으로 보입니다.
데이터 기반 전략, 당신도 필요하다면 💁
빅데이터의 관리와 분석, 전략 수립… 우리 회사도 해야 될 것 같긴 한데 막대한 비용과 시간이 들까 선뜻 나서기가 힘드시다구요? 그렇다면 전문가를 찾으시는 것이 가장 좋은 방법입니다. 데이터 분석과 운영 관리 전문가가 데이터 흐름과 프로세스를 분석, 가장 효율적인 방안을 제시할 테니까요.
베스핀글로벌은 B2D2 Modern Data Stack을 통해 기업이 이미 보유하고 있는 정형 혹은 비정형 데이터를 핵심 자산화할 수 있도록 지원합니다. B2D2 Modern Data Stack과 함께라면 데이터의 통합과 전환, 데이터 흐름 및 처리 프로세스를 자동화하여 기업의 데이터 활용을 극대화할 수 있죠.
AI 시대, 우리 회사에 이미 가득한 데이터로 가장 효율적인 의사결정을 원하시거나 또 새로운 비즈니스의 돌파구를 찾고자 하신다면 베스핀글로벌을 찾아주세요. 국내 최대 수준의 데이터 프로젝트 수행 경험과 전문 인력을 모두 갖춘 베스핀글로벌이 당신의 데이터 여정에 가장 믿음직한 동반자가 될 것입니다.
오늘의 베스픽은 이것으로 마치겠습니다. 다음 주에 뵐게요.
👉 [자세히 보기] B2D2 Modern Data Stack에 대해 더 알고 싶다면
👉 [연락하기] B2D2 Modern Data Stack과 바로 함께 하고 싶다면
Sources:
- Data Lake, Data Warehouse and Data Lakehouse: Unraveling the Power of Data Management
- Data Lake Market Analysis 2024-2033: Size, Trends, And Insights
- Data Strategy Program | Berkeley Executive Education
- Why we migrated to a Data Lakehouse on Delta Lake for T-Mobile Data Science and Analytics Team
- AWS를 통한 데이터 레이크 | Coca-Cola Andina 사례 연구