안녕하세요, 구독자 여러분. 무엇이든 묻는 대로 척척 대답해 내는 사람을 의미하는 ‘척척박사’라는 단어, 알고 계시죠? 이렇게 박사는 학위의 종류이기도 하지만, 특정 분야의 전문가나 지식에 통달한 사람을 비유적으로 일컫는 말입니다. 이 ‘박사’를 인공지능이 이길 수 있을까요? 얼마 전에 박사 수준(PhD level)의 학자를 이긴 최초의 대규모 언어 모델이 등장했습니다. 바로 오픈AI가 내놓은 ‘o1’인데요. 오늘은 o1이 다른 모델과 어떻게 다른지 알아보겠습니다.
o1은 GPT-4o 같은 다른 오픈AI의 LLM 모델들과 주요 기반 기술은 비슷합니다. 하지만 논리적인 추론이 필요한 복잡한 작업이나 더 어려운 문제를 해결하는 성능이 더 우수한 것으로 평가되고 있는데요. 특히 수학, 코딩, 과학 문제처럼 옳고 그른 답변을 명확하게 정의할 수 있는 분야에서 그렇습니다. 실제로 GPT-4o는 국제 수학 올림피아드 문제를 13%만 올바르게 답한 반면에, o1은 전체 중 83%를 맞추었다고 하지요.
이렇게 논리적 추론이 탁월해진 것은 ‘Chain of Thought(CoT)’ 기법 덕분인데요. CoT는 복잡한 프롬프트에 바로 응답을 생성하는 것이 아닌, 요청한 작업을 여러 개의 더 간단한 단계로 나누어 응답하기 전에 단계별로 해결합니다. 응답을 서두르는 기존의 모델과 다르게, 응답하기 전에 정보를 처리하고 다양한 변수를 고려하여 최종적으로 합리적인 결론을 도출해 내기 위해 생각을 거듭하는 거죠. 사람이 실질적으로 문제를 해결하는 사고 과정과 비슷한 방식으로 작동합니다. 자연히 CoT 기법을 따르면, 프롬프트를 처리하는 데 시간이 더 걸릴 수밖에 없습니다.
GPT-4o는 텍스트뿐 아니라 이미지와 오디오도 처리할 수 있는 멀티 모달(multi-modal) 모델이죠. 일반적인 언어 처리 작업에 있어 효율적이고 속도와 비용 측면에서 강점이 있고요. o1은 텍스트 전용이면서 복잡한 추론 작업에 특화되어 수학이나 코딩, 과학 문제 해결 등 논리가 필요한 작업에 탁월합니다. 대신에 일반적인 지식에 대한 성능이나 처리 속도, 비용 효율성은 GPT-4o보단 조금 떨어진다고 하네요.
o1-mini는 o1-preview 보다 80% 가량 저렴한데요. 오픈AI는 추론이 필요하지만, 광범위한 지식이 필요하지는 않을 때 o1-mini를 사용하면 좋다고 설명합니다. API로 사용할 경우, GPT-4o는 입력 토큰 백만 개 당 5달러, 출력 토큰 백만 개일 때는 15달러인데요.
표에서 보시는 것처럼 o1-mini가 GPT-4o보다 조금 저렴합니다. 그리고 o1-preview는 o1-mini와 GPT-4o보다 3배에서 5배 가량 높은 비용이 듭니다. 현재 챗GPT 유료 구독자(ChatGPT Plus)라면 o1-mini는 하루에 50개, o1-preview는 일주일에 50개까지 사용할 수 있습니다.
오픈AI는 추론 중심의 다양한 기준으로 봤을 때, o1은 인간 전문가에 준하는 혹은 그 이상의 성과를 보였다고 밝혔는데요. 특히 화학, 물리, 생물학 분야의 전문성을 테스트하는 GPQA Diamond에서 박사 학위를 소지한 전문가의 성과를 능가하는 성적을 기록했습니다. 물론 이러한 성적이 박사 학위보다 o1이 더 똑똑하다는 의미는 아닙니다. 박사 학위 소지자가 해결할 수 있는 일부 문제에 있어, o1이 약간 더 능숙할 수 있다는 지표인 것이죠.
프롬프트를 쓸 때도 조금 다른데요. 다른 모델에선 ‘답을 설명해 주세요’, ‘그 계산 수식을 알려주세요’ 등 이용자가 원하는 지침을 제시해야 하지만 o1 모델에서는 스스로 추론하고 설명할 수 있는 능력이 이미 탑재되어 있기 때문에 이를 지시하는 프롬프트를 작성하지 않아도 된다고 합니다.
또한 속도의 측면에서도 차이를 보였는데요. 오픈AI가 GPT-4o와 o1-mini, o1-preview에게 같은 단어 추론 문제를 주자(‘3번째 자리에 A가 들어가는 나라 이름 다섯 개를 말해줘’) GPT-4o는 빠르게 대답했지만 완전히 틀린 답을 내놓았습니다. 하지만 o1-mini와 o1-preview는 모두 옳은 답을 이야기했고, o1-mini가 훨씬 더 빠르게 응답했습니다.
o1의 등장은 오픈AI가 본격적으로 기업용 서비스 시장에 진입했다는 것으로 풀이할 수도 있습니다. 더 복잡한 추론을 통해 시간을 들여 정확한 결과물을 도출하는 고가의 LLM은 세심함과 높은 정확도가 요구되는 비즈니스 고객에게 적합한 솔루션이기 때문이죠. 기존 GPT 모델들은 신속한 응답과 자연스러움을 내세워, 개인 사용자들에게 어필해 왔는데요.
오류를 어느 정도 감수할 수 있는 개인 고객과 달리, 기업 고객은 보다 높은 신뢰성과 정확도를 요구하기 때문에 o1 모델은 그러한 기대를 충족시킬 수 있는 중요한 도구가 될 것으로 보입니다. 수익화를 절실히 고민하는 오픈AI에게 o1이 새로운 비즈니스 기대주로 자리잡을 수도 있겠습니다. 오늘의 베스픽은 여기까지입니다. 다음주 새로운 내용으로 만나요.
⛅ 안쓰면 클나우
베스핀글로벌과 글로벌 AI 검색 엔진 기업 ‘엘라스틱’이 함께 세미나를 개최합니다!
‘2025년 데이터 분석 플랫폼 트렌드와 전략, 엘라스틱 서치(Elastic Search) 활용 방안’ 세미나에서는 생성형 AI 도입 시 할루시네이션 현상 최소화 &기업 내 데이터의 안전한 보호 방법을 전달할 예정입니다.
▲관측 가능성 ▲보안 ▲검색 등 세 가지 핵심 분야에서의 성공 사례를 소개할 뿐 아니라, RAG 아키텍처의 설계 방법과 한계점을 극복할 수 있는 해결책을 제시할 이번 세미나에 많은 관심과 기대를 부탁드립니다.