ChatGPT가 처음 등장했을 때를 기억하시나요? 어떤 질문이든 술술 대답하는 생성형 AI의 등장은 정말 충격적이었죠. 하지만 이제 AI는 기술 혁신을 넘어 일상과 업무에 필수가 되었습니다. 작년까지 AI를 탐색하고 시범적으로 도입하던 기업들이 지금은 본격적으로 AI를 활용하며 생산성을 극대화하고 비즈니스를 빠르게 혁신하고 있습니다. 만약 아직 AI를 도입하지 않았다면 점점 뒤처질 수밖에 없는 현실입니다.
AI 기술도 계속 발전해 왔습니다. 초기 ChatGPT는 언어 능력은 뛰어났지만, 복잡한 수학 문제에서는 종종 틀린 답을 내놓곤 했죠. 하지만 최신 LLM들은 논리적 사고와 단계적 문제 해결 능력까지 갖추면서 더 탁월한 성과를 보이고 있습니다.
또한 ‘LLMflation(LLM + Inflation)’이라는 용어가 생길 정도로 AI 모델에 드는 비용도 급격히 감소하고 있습니다. a16z 보고서에 따르면, 동일한 성능의 LLM을 구현하기 위한 비용이 매년 10배씩 줄어들고 있고요. 주요 벤치마크 지표인 MMLU(언어 이해력) 42점 달성을 기준으로 보면 지난 3년간 LLM 비용이 무려 최대 1,000배나 감소했다고 하네요.
올해 1월, 이러한 트렌드를 모두 담은 초가성비 LLM이 등장하며 전 세계 AI 시장을 뒤흔들었습니다. 바로 지난주 베스픽에서도 소개했던 DeepSeek R1인데요. 특히, 오픈소스로 공개되면서 AI 시장의 패러다임이 변하고 있음을 보여주었습니다.
DeepSeek의 영향 때문일까요? 2월에는 주요 AI 기업들이 앞다투어 새로운 LLM 버전을 공개하며 경쟁이 더욱 치열해졌는데요. 그래서 오늘 베스픽에서는 최근 출시된 LLM 4개를 비교 분석하고, 여러분의 비즈니스에 AI를 도입할 때 기억해야 할 핵심 인사이트도 함께 살펴보겠습니다.
# Grok3, “지구 상에서 가장 똑똑한 AI”
Grok3는 일론 머스크가 운영하는 xAI에서 2월에 발표한 모델입니다. 사실 이전에도 Grok 시리즈가 있었지만 큰 주목을 받지는 못했는데요. Grok2 출시 후 6개월 만에 새로 선보인 Grok3는 약 20만 개 이상의 GPU를 사용해 훈련했고, Grok2보다 10배 이상 강력한 컴퓨팅 성능으로 개발했음을 강조하며 이목을 끌었습니다.
xAI의 발표 자료에 의하면 Grok3는 매우 뛰어난 성능을 지니고 있는데요. 특히 수학, 과학, 코딩에서 강점을 보였습니다. 가장 최신 모델과의 비교 자료도 공개했는데요. 수학 능력을 평가하는 가장 대표적인 벤치마크인 AIME 2025에서 OpenAI의 o3 mini는 87점을, DeepSeek R1은 75점을 받은 반면 Grok3의 추론 모델은 이보다 높은 93점을 얻었습니다.
또한 Grok3는 X(옛 트위터) 플랫폼과 웹 검색 기능을 통해 실시간 데이터를 훈련시키고 제공하는 것이 특징인데요. 실시간 정보를 반영한다는 강점이 있지만, 특정 플랫폼에 대한 의존도가 높아 편향성에 대한 우려도 제기되고 있습니다.
# Claude 3.7 Sonnet, “하나의 모델 안에서 선택적 추론”
뒤이어 Anthropic도 Claude 3.7 Sonnet을 발표했습니다. 사용자가 ‘사고 모드(Extended Thinking Mode)’ 선택했을 때만 추론 능력이 활성화되는 하이브리드 모델인데요. 사고 모드에서는 질문에 대한 답변뿐 아니라 추론 과정을 함께 제공합니다.
Anthropic은 이러한 방식을 채택한 이유에 대해 사람의 사고 과정과 유사한 접근법을 적용하기 위해서라고 설명합니다. 사람도 상황에 따라 일상적 사고와 추론적 사고를 유연하게 활용하듯이, LLM도 필요할 때만 사용할 수 있도록 설계한 것이죠.
특히 Claude 3.7 Sonnet은 특히 소프트웨어 개발에서 뛰어난 성능을 보였습니다. 소프트웨어 문제 해결 능력을 평가하는 벤치마크 SWE-bench Verified에서 OpenAI의 o 시리즈와 DeepSeek R1는 50% 미만의 점수를 기록했는데요. 반면 Claude 3.7 Sonnet은 70.3%에 달하며 큰 격차를 보여주었습니다.
# GPT-4.5, “사람과 협업 위한 감성 기능 탑재”
OpenAI에서도 GPT-4 이후 2년 만에 GPT-4.5를 출시했습니다. 이번 모델은 GPT-4보다 10배 많은 사전 훈련을 거쳤으며, 앞서 소개한 모델들과 다르게 비추론형 모델인데요. 공감, 창의력, 유머 감각 등 감성 지능(EQ)이 크게 향상된 것이 가장 큰 변화로 꼽힙니다.
예를 들어, “시험에 떨어져서 힘들어”라고 말하면 GPT-4는 해결책을 제시하는 반면 GPT-4.5는 공감과 격려의 말을 전하며 사용자에게 진짜 필요한 것은 무엇인지 먼저 묻는데요. 단순한 응답을 넘어 사용자의 의도와 뉘앙스를 정교하게 파악한다는 점에서 AI가 사람과 협업하는 존재로 변화하고 있음을 보여줍니다.
감성 지능의 발전은 창의적인 작업에서도 중요한 역할을 하죠. 따라서 GPT-4.5는 글쓰기, 디자인, 브레인스토밍 등에 강점을 보였습니다. 한편, OpenAI는 이미 추론형 모델인 o 시리즈를 선보여 왔는데요. 최근 공개한 로드맵에 따르면 앞으로는 GTP-5에 추론형 모델을 통합할 예정이라고 하네요.
# 최신 LLM 한번에 비교하기
# 핵심 인사이트! AI 활용 시 가장 중요한 것은?
앞으로도 LLM과 AI는 더 빠르고 혁신적으로 진화할 것으로 예상됩니다. 한번 도입하고 끝나는 것이 아니라 성능 개선, 기능 업데이트 등 지속적인 관리가 필요하기 때문이죠. 이러한 배경에서 LLMOps의 중요성이 더 커지고 있습니다. LLMOps는 LLM의 학습, 배포 등 운영 사이클을 체계적으로 관리하는 개념인데요. 특히나 변화에 발맞춰 다양한 LLM을 사용하려는 기업이라면 반드시 지녀야 할 전략이 되었습니다.
만약 직접 모델을 활용하는 것이 부담스럽다면 적절한 AI Agent를 찾는 것도 방법입니다. 예를 들어, 사내에서 사용할 AI 검색 엔진을 만들고 싶다면 대화형 AI Agnet 서비스를 도입하는 것이죠. AI Agent에는 여러 LLM이 협력해 복잡한 작업을 처리할 수 있는 멀티 모델형도 있으니 원하는 대로 선택하면 됩니다.
지금까지 최신 LLM과 기업이 알아야 할 인사이트까지 살펴보았습니다. 결국 가장 중요한 것은 LLM 그 자체보다는 ‘LLM을 어떤 목적으로 어떻게 활용하는지’입니다. 성공적인 AI 비즈니스를 위해 반드시 고민해 보시기를 바라며, 그 과정에서 AI 전문가의 도움이 필요하다면 언제든베스핀글로벌에 문의해 주세요.
안보면 클나우
2025년 AI 트렌드, LLM을 넘어 LMM과 LAM까지 확장됩니다. 2025년, AI는 텍스트를 넘어 더 직관적이고 인간 친화적인 방향으로 발전할 것은 자명한 사실인데요. 주목해야 할 것은 ‘오감을 자극하는 멀티모달 AI’과 ‘실제 행동을 수행하는 AI’, 즉 LMM(Large Multimodal Model)과 LAM(Large Action Model)의 부상입니다. AI 에이전트로 대표되는 AI의 역할과 파생되는 AI 관련 시장은 어떻게 진화하고 있는지 베스핀글로벌의 김동규 상무님의 인사이트를 통해 깊이 있게 탐색해 보세요!