비영어권 국가들이 LLM 개발에 힘쓰는 이유는?

👍베스픽의 원픽

안녕하세요, 베스픽 구독자 여러분!

최근 생성형 AI와 대화해보면, 젊은 세대 말투는 물론이고 줄임말도 정확하게 알아채는데요. 세계 곳곳의 비영어권 국가들도 직접 자국어 LLM을 만들고 있다는 거, 알고 계셨나요?

가트너(Gartner)는 2025년까지 전 세계 AI 모델의 40%가 지역 특화 형태로 진화할 것이라 전망했는데요. 말 그대로, AI의 현지화(Localization)가 새로운 표준이 되고 있는 셈이죠. 오늘 베스픽에서는 각국의 비영어권 LLM 개발 현황과 기술적, 문화적 과제를 들여다보겠습니다.

AI 주권 경쟁, 언어가 미래다

AI 주권이란 단어, 요즘 정부 정책 자료에서 심심찮게 보셨을 겁니다. 왜 정부에서는 ‘소버린 LLM(Sovereign LLM)’을 적극 추진하고 있을까요? 핵심 이유는 바로 ▲모델 주권 ▲데이터 주권 ▲인프라 주권이라는 세 축에 있습니다.

실제 글로벌 LLM 대부분이 영어 데이터를 70~90% 기반으로 훈련되고 있습니다. 그 안에서 아랍어, 한국어, 러시아어, 인도네시아어 같은 언어는 단어 수나 문법 복잡도에서 밀릴 수밖에 없습니다. 그렇다면 비영어권 국가들의 국가별 LLM 개발 현황을 통해 알아볼까요?

 

비영어권 LLM 현황 비교

모델명 주요 언어 파라미터 공개 여부 대표 사례
Falcon 2 11B 아랍어 11B 공개 중동 공공 서비스 번역 지원
Jais 13B 아랍어 + 영어 13B 공개 COP28 기후문서 자동 요약
Mistral Large 유럽 언어 다수 12B 공개 EU 번역기관 테스트 통과
Aya-101 101개 언어 13B 공개 다국어 지시 따라하기 정확도 94%
DeepSeek V2 중국어 + 영어 67B 공개 바이두 검색, BMW 차량 내 탑재
OpenHPI 독일어 중심 - 비공개 독일 공공 디지털 교과서 지원
Fugaku LLM 일본어 미공개 연구용 행정문서 자동화, 후생성 입력 필터링
Sahabat-AI 인도네시아어 + 방언 ~13B 부분공개 공공 서비스 자동응답, 교육자료 지역어 번환
GPT-SW3 스웨덴어 20B 공개 공공기관 보고서 요약, 스웨덴 교육부 협업
Viking 7B 핀란드어, 노르웨이어 등 7B 공개 정부 행정요약, 북유럽 공동언어 플랫폼 구축
YandexGPT 3.0 러시아어 비공개 비공개 검색, 브라우저 통합, 가상비서 'Alice' 운영

 

중동 버전 GPT? Falcon & Jais
아랍어권 LLM의 쌍두마차는 Falcon 시리즈와 Jais를 꼽을 수 있는데요. TII가 만든 ‘Falcon 2 11B’는 메타의 ‘LLaMA 3 8B’보다 나은 성능을 보이고, 오픈소스로 공개되어 중동 지역 공공 번역, 챗봇 등에 활용되고 있어요. 반면 G42의 Jais는 90% 아랍어, 10% 영어로 학습된 양방향 LLM입니다. 기후 관련 회의록을 자동 번역하고 요약하는 데 쓰이며 아랍어의 영역을 확장하고 있습니다. 그야말로, 아랍어 AI의 전령사들이죠.

유럽 스타일 AI, 프랑스 Mistral
이름부터 유럽 감성 풍기는 Mistral은 경량 모델임에도 추론 성능은 GPT3.5 수준이라는 평가를 받았습니다. 프랑스어가 주축이지만 독일어, 이탈리아어, 스페인어에도 강한 모습을 보여 유럽에서 다국어 공문서 정리와 고객 지원 챗봇 분야에서 널리 사용되고 있습니다.

101개 언어 AI, Aya-101
캐나다는 영어를 공식어로 사용하는 국가지만 캐나다에서 만든 LLM은 영어 그 이상을 원합니다. Aya-101영어 이외의 언어를 학습할 때, 번역 기반이 아닌 의미 기반(semantic grounding) 학습 방식을 택해 101개 언어를 다루죠. 그 중에는 한국어, 인도네시아어, 스와힐리어, 힌디어까지 빠짐없이 포함되어 있고요. 벤치마크에서는 일부 영어권 LLM을 능가하는 성능을 보이기도 했고, 특히 다국어 지시 이해율이 94%를 기록했습니다.

중국의 저력, DeepSeek
중국의 DeepSeek는 바이두와 협력해 만들어진 GPT-4급 LLM인데요. 중국어 70%, 영어 30% 비율로 훈련됐고, 수학과 코딩 등 고차 추론에서도 강점을 보여요. 최근에는 바이두 검색엔진과 연동 되고 있습니다. 오픈소스라는 점이 빠른 성장의 비결로 꼽혀요. AI 자립이라는 측면에서 중국은 지금 속도+정밀+자주성 모두를 한 손에 쥐고 있는 형상이죠.

700개 언어를 사용하는 인도네시아, Sahabat-AI
인도네시아는 언어가 많기로 유명한 나라인데요. 500만명 이상 큰 집단이 사용하는 언어만 5가지에 달하고, 소수 민족까지 합치면 700개 이상의 언어와 방언이 존재한다고 합니다. 인도네시아의 풍부한 문화 유산을 이어가려면 방언에 맞춘 LLM 플랫폼이 필요한데요. 2024년 인도네시아 정부는 텔레콤그룹과 함께 Sahabat-AI을 개발했습니다.

 
지금 비영어권 국가들이 LLM을 직접 만드는 4가지 이유

1. AI 내재화 전략
AI 내재화 전략은 단순한 기술 독립을 넘어 ‘국가 운영 인프라’의 안정성과 직결된 문제입니다. 앞에서 살펴보신 것처럼 많은 비영어권 국가들이 자체 LLM 개발에 나서는 것은, 자국 특성과 장기적 기술 주권을 강화하기 위한 전략적 접근이라고 볼 수 있습니다. 핵심 기술에 대한 주도권 확보는 국가 경쟁력과 지속가능성을 위한 필수 전략이기 때문이죠.

2. 데이터 주권 확보
글로벌 LLM은 주로 영어 기반으로 설계되어, 비영어권 국가들은 자국 데이터를 외산 AI 모델 학습에 활용하게 되는 구조적 한계를 안고 있습니다. 이에 대응해  중국은 자국 데이터로 훈련한 DeepSeek 같은 자체 LLM을 개발하고, 인도네시아도 700여 개 언어 데이터를 모아 자체 AI를 구축하며 외산 플랫폼 의존도를 점진적으로 줄여나가고 있습니다. 데이터 주권은 AI 시대의 문화 자산과 전략 정보 보호를 넘어, 국가 경쟁력 확보를 위한 핵심 과제가 되고 있습니다.

3. 문화 정체성 보존
언어는 코드가 아니라 문화입니다. 우리는 한국어로 생각하고, 관계를 맺고, 감정을 표현하죠. 특정 언어 기반 LLM은 다른 문화에 대한 이해가 부족해 어색한 상황이 나타날 수 있는데요. 이를테면, 아랍어에는 맥락에 따라 완전히 달라지는 경칭 체계가 있고, 일본어에는 문법상 생략이 기본인데, 영어 LLM은 이를 누락된 정보로 간주합니다.  자국 언어에 특화된 LLM은 해당 문화와 언어적 특성을 더욱 정교하게 반영할 수 있겠죠.

4. 공공 정책과 서비스 최적화
AI는 의료 상담, 법률 자문, 교육 추천, 복지 상담 등 공공행정의 핵심 인프라로 자리잡고 있습니다. 인도네시아는 Sahabat-AI를 통해 지역 방언별 자막 생성 기술을 개발해 지방 행정 AI 고도화에 활용 중입니다. 이처럼 다양한 국가에서 공공 서비스를 더욱 정교하게 발전시키기 위해, 자국 환경에 최적화된 AI 기술 개발과 적용을 적극 추진하고 있습니다.

앞으로 비영어권 LLM은 공공 서비스, 교육, 헬스케어, 법률, 콘텐츠 산업 등 다양한 분야의 AI 활용 다양성을 넓혀갈 전망입니다. AI 인프라가 국가 경쟁력 강화의 중요한 기반인 만큼, 향후 AI 개발에 대한 국가적 관심도 커질 것으로 보입니다.

오늘의 베스픽은 여기서 마무리합니다. 더 흥미로운 이야기로 다시 돌아올게요!
모두 즐거운 하루 보내세요.

⛅ 안쓰면 클나우

초거대 언어모델(LLM) 전성시대, 기업은 어떻게 대응해야 할까요?
김덕진 소장(IT 커뮤니케이션 연구소)은 “작게, 그리고 빨리 시작하라”고 조언합니다.

AI 프로젝트를 성공으로 이끄는 핵심은, 처음부터 거창한 목표를 세우는 것이 아니라 작은 문제부터 해결하며 워크플로우를 정리하고, 데이터 기반을 튼튼히 다지는 것입니다.

Bespin Global은 기업들이 LLM 시대를 빠르게 대응할 수 있도록, 전략 수립부터 실행을 함께 고민하고 지원합니다.
LLM 도입을 준비 중이라면, 이번 BESPIN AI Tek-Tok 영상을 통해 실질적인 전략 방향을 확인해보세요.
👉 [영상 보러가기] BESPIN AI Tek-Tok “LLM 춘추 전국 시대, 기업의 대응 전략은?”