
👍베스픽의 원픽
얼마 전 Nvidia가 합성 데이터 스타트업 Gretel을 인수한 것이 알려졌습니다. 이에 전문가들은 Microsoft, Meta 등 빅테크 기업 또한 합성 데이터 활용에 많은 관심을 보이고 있다며 시의적절한 인수라고 평가했죠. 이 밖에도 합성 데이터 기업들의 투자와 인수가 계속되고 있습니다. 올해 1월 미국의 Rockfish가 400만 달러 규모의 투자를, 작년 5월 ScaleAI가 10억 달러 규모의 투자를 유치했고요. 같은 해 11월, Hazy는 SAS에 인수되기도 했습니다.
과연 합성 데이터가 무엇이길래 이렇게 많은 주목을 받는 것일까요? 오늘 베스픽에서는 합성 데이터의 개념부터 실제 활용 사례까지 구체적으로 살펴보겠습니다.
🗂️ 진짜 같은 가짜! 합성 데이터
합성 데이터(Synthetic data)는 알고리즘을 통해 실제 데이터와 유사하도록 인위적으로 만들어 낸 인공 데이터입니다. AI가 원본 데이터에 담긴 패턴이나 관계 등을 학습해 비슷한 구조의 데이터를 생성하는 것입니다.

예를 들어, 쇼핑몰에서 고객 데이터를 바탕으로 어떤 상품이 잘 팔릴지 AI 분석을 실시한다고 가정해 볼게요. 이때 실제 데이터를 사용하면 고객 정보가 외부에 노출될 위험이 있겠죠. 하지만 연령대, 소비 패턴, 구매 이력과 같은 특성은 유지하며 이름, 주소, 전화번호 등의 민감 정보는 포함되지 않은 가상의 데이터를 만들어 활용하면 어떨까요? 고객 정보를 보호하면서도 원하는 예측 결과를 얻을 수 있습니다. 이처럼 합성 데이터는 개인 정보나 기밀 유지의 제약 없이 안전하게 활용할 수 있다는 점에서 많은 관심을 받고 있습니다.
또한 합성 데이터는 AI 모델 학습이나 테스트에 필요한 데이터를 계속해서 생성해낼 수 있다는 장점이 있습니다. 원하는 조건에 맞춰 데이터를 무제한으로 만들 수 있기 때문에 데이터 수집과 정제에 드는 시간과 비용도 크게 줄일 수 있는데요. 한 AI 스타트업은 합성 데이터를 활용한 AI 모델의 개발 비용이 비슷한 규모의 빅테크 AI 모델의 개발 비용보다 6배 이상 저렴하다고 밝히기도 했습니다.
그렇다고 합성 데이터가 단순히 양을 늘리기만 하는 것은 아닙니다. 실제 데이터에는 존재하지 않는 다양한 조건을 고르게 반영해 균형 데이터 세트를 만들 수도 있고요. 자주 발생하지 않는 희귀한 케이스를 연구해야 하는 상황에서도 합성 데이터를 활용해 빠르게 프로젝트를 진행할 수 있습니다.
📈 합성 데이터, AI 비즈니스의 중심으로
이러한 특장점 덕분에 합성 데이터는 AI 업계의 데이터 문제를 해결할 방안으로 주목받고 있습니다. 최근 업계에서는 AI 모델 구축에 필요한 양질의 데이터를 비용 효율적으로 확보하는 것이 주요 과제였는데요. 합성 데이터를 통해 AI 모델 개발 방식이 변화하고 있으며 자원이 부족했던 기업들도 AI를 더욱 손쉽게 활용할 수 있게 되었습니다.

그 결과 합성 데이터 시장은 빠르게 성장하고 있습니다. 한 연구에 따르면 합성 데이터 시장은 2023년 3억 5,120만 달러에서 2030년 23억 3,980만 달러 규모(CAGR 31.1%)로 성장할 전망입니다. 또한 Gartner는 2028년까지 AI에 필요한 전체 데이터의 80%는 합성 데이터가 될 것이라고 예측했는데요.
합성 데이터가 단순히 부족한 데이터를 보완하는 것이 아니라 AI 비즈니스의 중심으로 자리 잡고 있다고 볼 수 있습니다. 더 나아가 합성 데이터가 진화한 형태인 초합성 데이터 역시 빠르게 늘어날 것이라고 하네요.
✍️ 산업별 합성 데이터 활용법은?
앞서 언급한 것처럼 빅테크 기업들은 이미 합성 데이터를 활용해 AI 모델을 훈련하고 있습니다. OpenAI는 최근 공개한 ‘Orion’ 개발 프로젝트 과정에서 대규모 합성 데이터를 수집했다고 밝혔는데요. 이 외에도 Anthropic의 Claude 3.5 Sonnet, Google의 Gemma, Microsoft의 Phi-4, Meta의 Llama 시리즈 등도 모두 실제 데이터와 함께 합성 데이터를 적극 활용했다고 합니다. 그렇다면 각 산업에서는 합성 데이터를 어떻게 활용하고 있을까요?
🚗 자율주행
Tesla는 자율주행 AI 모델에게 도로 위 다양한 상황을 훈련시키는 데 합성 데이터를 활용합니다. 실제로는 잘 발생하지 않는 사고 시나리오를 시뮬레이션하거나, 특정 센서가 고장이 났을 경우를 대비한 훈련을 진행하는 것이죠. 이 밖에도 날씨, 조명, 장애물 등 여러 주행 조건을 조합해 현실과 비슷한 합성 데이터를 대량으로 생성한다고 하네요.
🏛️ 국방 및 안보
미국 국토안보부는 합성 데이터 스타트업들과 협력해 자체 AI 모델을 훈련을 위한 합성 데이터 개발을 추진 중인데요. 안보 훈련 시나리오 개발, 사이버 및 물리적 환경 모델링 등에 합성 데이터를 활용 예정입니다. 또한 미 국방부, 육군 등에서도 확보가 어려운 전쟁 이미지를 합성 데이터로 생산해 군사 AI 모델 성능을 높이고 있다고 합니다.
🏥 의료
서울대치과병원은 환자의 구강 사진을 바탕으로 개별 치아를 조합해 구강 이미지 합성 데이터를 생성했습니다. 아주대병원은 배아의 현미경과 타임랩스 이미지를 기반으로 합성 데이터를 만들었는데요. 이 데이터들은 현재 누구나 자유롭게 활용할 수 있도록 공개되어 있습니다. 개인 정보와 윤리적 문제로 인해 외부 공유가 불가능한 일반 의료 데이터와 달리 합성 데이터이기 때문에 가능한 것이죠.
💰 금융
금융보안원은 이상 금융 거래를 탐지 시스템(FDS)에 활용하기 위해 합성 데이터 기반의 AI 모델을 개발 중입니다. 개별 금융사에서 가지고 있는 데이터만으로는 패턴이나 규칙성을 찾기 어려운데요. 그렇다고 실제 고객 데이터를 서로 공유하는 것은 불가능한 일이죠. 이에 여러 기관이 공동으로 활용할 수 있는 합성 데이터를 만들어 AI 모델의 성능을 높일 계획이라고 합니다.
🚀 AI 경쟁력, 결국 데이터에 있다
한편 합성 데이터에는 여전히 해결해야 할 과제들이 존재하는데요. 합성 데이터가 현실을 완전히 재현하기 어렵다는 점에서 AI 모델 성능이 왜곡될 수 있다는 우려가 있습니다. 실제 데이터의 핵심 패턴이 누락되거나 지나치게 단순화되면 모델의 정확도를 떨어뜨릴 수 있죠.
윤리적 측면에서도 생성 과정의 불투명성과 편향으로 인해 부정적인 영향을 미칠 수 있다고 하는데요. 이를 해결하기 위해 합성 데이터를 생성하는 과정에서 투명성을 높이고 품질을 정량적으로 평가하려는 시도들이 이어지고 있다고 합니다. 편향을 검출하고 개선하는 알고리즘 개발도 활발히 진행 중이라고 하네요.
지금까지 합성 데이터에 대해 알아보았는데요. AI 시대의 경쟁력은 얼마나 잘 설계된 데이터를 갖고 있느냐가 중요한 요소로 작용할 것으로 보입니다. 그리고 이제 데이터는 수집하는 것에서 만드는 것으로 바뀌고 있죠. 그동안 AI를 도입하고 싶어도 필요한 데이터를 확보하는 데 어려움을 겪어 왔던 기업이라면 합성 데이터는 현실적인 해결책이 될 것입니다.
이러한 기회를 통해 더 많은 기업들이 AI를 적극 활용하고 실질적인 혁신과 변화를 경험하길 기대하며 오늘 베스픽은 마치겠습니다.
⛅ 안쓰면 클나우
멀티 클라우드 관리 플랫폼 전문 기업 옵스나우가 클라우드 비용 최적화 전문 솔루션 ‘옵스나우 핀옵스 플러스(OpsNow FinOps Plus)’를 한국 시장에 공식 출시했습니다.
옵스나우 핀옵스 플러스는 옵스나우360의 핀옵스 운영 경험을 바탕으로 더욱 고도화된 구조와 실전 기능을 갖추었는데요. 또한 글로벌 표준 2025 핀옵스 프레임워크를 반영해 ▲예산 수립 ▲이상 비용 탐지 ▲정책 기반 거버넌스 ▲절감 인사이트 도출까지 모든 과정이 자동화되어, 실행 중심의 핀옵스를 실현할 수 있는 핀옵스 전문 솔루션입니다.

사람이 직접 클라우드 약정을 분석하거나 최적 시점을 판단하지 않아도 AI가 패턴을 분석해, 적정한 절감 전략을 자동 실행하는 ‘오토세이빙즈(AutoSavings)’를 함께 사용할 경우, 실질적인 비용 절감 효과를 장기적으로 유지할 수 있으며 성과 기반 요금제로 비용 걱정을 하지 않으셔도 됩니다.
이번 출시로 옵스나우는 복잡한 멀티 클라우드 환경에서도 기업들이 전략적 자산 배분과 실질적 비용 절감을 동시에 이룰 수 있도록 지원합니다.
현재 출시 기념 프리미엄 요금제 3개월 무료 체험 이벤트도 진행 중이니, 옵스나우 핀옵스 플러스가 제공하는 실질적인 비용 절감 효과를 직접 경험해보세요.
- Nvidia Bets Big on Synthetic DatAI4K12
- Synthetic Data Generation Market
- Synthetic Data: Revolutionizing Modern AI Development in 2025
- TSP 2025 Trends: The Future of Data Is Fake — Synthetic Data Is the New Reality
- Tesla Synthetic Data Patent Could Improve Self-Driving Models
- S&T Awards Contracts to Four Startups to Develop Privacy-Enhancing Synthetic Data Generation Capabilities
- 의료 합성데이터 적정성 검증 사례 연구
- 금융보안원, 국제학회에서 AI 기반 이상금융거래탐지 기술 연구 발표
- Examining synthetic data: The promise, risks and realities