안녕하세요 오늘은 BESPIN GLOBAL Innovate AI실 구동민이 작성해주신 ‘[Advanced AI] Transformer & Attention Mechanism(GPT , BERT 모델)’ 대해 소개해드리도록 하겠습니다.
최근 다양한 산업분야에서 많은 기업들이 AI를 활용한 프로젝트를 진행하고 있습니다. 하지만 AI 기술을 단순히 사용하는 것에는 한계가 있습니다.
실제로 AI 모델이 어떻게 작동하는지 그 원리를 모른다면 프로젝트를 진행하며 발생하는 문제를 해결하기 어렵고, AI의 능력을 최대한 활용하기가 어렵습니다.
Advanced AI 시리즈를 통해 AI 모델의 내부 작동 원리와 알고리즘과 같은 AI 기술의 핵심 원리에 대해 깊이 있게 살펴보고자 합니다. 시리즈의 첫번째 주제로는 NLP (자연어 처리) 기술의 중심이 되는 Transformer 와 Attention Mechanism에 대해 알아보겠습니다.
목차
- 자연어 처리의 진화: RNN에서 트랜스포머까지
- 트랜스포머 아키텍처의 이해
- Attention Mechanism 의 이해
- 인코더 기반 모델 vs 디코더 기반 모델
- 작동 예시
- 트랜스포머 기술의 응용
1. 자연어 처리의 진화: RNN에서 트랜스포머까지
자연어 처리(NLP) 기술의 발전의 중심에는 2017년에 소개된 Transformer 아키텍처가 있습니다. 해당 구조는 GPT, BERT와 같은 모델의 근간이 되었으며, Attention Mechanism 이라는 핵심 기술을 통해 언어의 문맥을 이해하는 방식을 변화시켰습니다.
자연어 처리 기술은 수십년간 꾸준히 발전해왔습니다. Transformer 구조가 생기기 이전의 언어 모델들은 (RNN, LSTM, GRU…) 단어를 순차적으로 처리하는 방식을 사용했습니다. 이러한 접근법은 사람이 문장을 읽는 방식과 유사하지만, 다음과 같은 중요한 한계점을 가지고 있었습니다.
- 기존 모델의 한계:
- 장기 의존성 문제: 문장이 길어질수록 초반에 등장한 정보를 기억하기 어려움
- 병렬 처리 불가: 순차적 처리로 인한 학습 및 추론 속도 저하
- 기울기 소실: 역전파 과정에서 발생하는 기울기 소실 문제
이러한 기존 모델의 한계를 극복하기 위해 2017년 “Attention Is All You Need” 라는 논문에서 Transformer 아키텍처가 제안되었습니다. Transformer 구조는 순차적 처리를 완전히 배제하고, Attention Mechanism에 의존하여 문장의 모든 단어를 동시에 처리할 수 있게 하였습니다.
[참고] Attention Is All You Need 논문 링크 https://arxiv.org/abs/1706.03762
2. 트랜스포머 아키텍처의 이해
트랜스포머는 인코더(Encoder)와 디코더(Decoder)로 구성된 아키텍처로, 각각 다수의 레이어를 포함하고 있습니다. 각 레이어는 다시 멀티-헤드 어텐션(Multi-Head Attention)과 Feed-Forward Network로 구성됩니다.

- 트랜스포머의 구성 요소:
- 임베딩 레이어: 단어를 고차원 벡터로 변환
- Positional Encoding: 문장 내 단어의 위치 정보 제공
- Multi-Head Attention: 여러 관점에서 단어 간 관계 파악
- Feed Forward Network: 비선형 변환 수행
- 레이어 정규화 및 잔차 연결 (residual connetion): 학습 안정화 및 기울기 소실 방지
트랜스포머의 가장 큰 특징은 RNN과 달리 순차적 계산에 의존하지 않는다는 점입니다. 문장 내 모든 단어를 동시에 처리함으로써 병렬 계산이 가능해 학습 속도를 크게 향상시켰습니다.
3. Attention Mechanism
Attention Mechanism은 Transformer구조의 핵심 기술로, 문장 내 모든 단어 쌍 사이의 관계를 직접 계산합니다.
이를 통해 모델은 특정 단어의 의미를 이해할 때 문장 내 다른 모든 단어들의 영향력을 고려할 수 있게 됩니다.
- Attention 계산 과정
- 쿼리(Query), 키(Key), 값(Value) 생성: 각 단어 벡터로부터 세 가지 다른 벡터 생성
- Attention스코어 계산: 쿼리와 모든 키와의 내적으로 유사도 측정
- SoftMax적용: 스코어를 확률로 변환
- 가중 합 계산: 확률에 따라 값(Value) 벡터들의 가중 합 계산
- Multi-Head Attention의 이점:
- 여러 관점에서 단어 간 관계 파악 가능
- 단어의 다양한 의미적 측면 포착
- 더 풍부한 문맥 이해 가능
Attention Mechanism은 시각적으로 표현했을 때 히트맵(Heatmap)과 같은 형태로 나타낼 수 있습니다. 히트맵은 각 단어가 다른 단어에 얼마나 ‘주목(attend)’하는지를 보여줍니다.
예를 들어, “그는 은행에서 돈을 인출했다” 라는 문장에서 ‘은행‘이라는 단어가 ‘돈‘과 ‘인출‘이라는 단어와 강한 연관성을 가지는 것을 히트맵을 통해 시각적으로 확인할 수 있습니다. 이렇게 모델은 ‘은행’이 금융기관을 의미한다는 것을 파악할 수 있게 됩니다.
[참조] Attention Heatmap 시각화 참고 링크 https://www.101ai.net/text/attentionhmap

4. 인코더 (Encoder )기반 모델 vs 디코더 (Decoder) 기반 모델
Transformer 아키텍처는 사용 목적에 따라 다양한 형태로 구현됩니다.
- 인코더 기반 모델 (BERT):
- 입력 문장을 이해하고 분석하는 데 초점
- 양방향(Bidirectional) 어텐션 사용: 문장의 앞뒤 모든 단어 참조 가능
- 주요 응용: 텍스트 분류, 개체명 인식, 질의응답 등
예시) “나는 은행에 갔다”라는 문장에서 ‘은행’의 의미를 파악할 때, BERT는 ‘나는’과 ‘갔다’라는 앞뒤 단어를 모두 고려하여 문맥을 이해합니다.
- 디코더 기반 모델 (GPT):
- 텍스트 생성에 특화된 모델
- 단방향(Unidirectional, Masked) 어텐션 사용: 이전 단어들만 참조 가능
- 자기회귀적(Autoregressive) 방식으로 다음 단어 예측
- 주요 응용: 텍스트 생성, 대화 시스템, 요약 등
GPT 모델은 Masked Self-Attention 방식을 사용합니다.
이는 미래의 단어를 보지 않고 과거의 단어만을 이용해 다음 단어를 예측하는 방식입니다.
예를 들어 “나는 학교에”라는 입력이 주어졌을 때, 모델은 이를 바탕으로 “갔다”와 같은 다음 단어를 생성합니다.
5. Attention Mechanism 예시
시 문장을 통해 어텐션 매커니즘의 작동 방식을 이해해보겠습니다.
ex) “그녀는 책을 읽고 있었는데, 그것은 매우 흥미로웠다.”
이 문장에서 ‘그것’이 무엇을 가리키는지 알기 위해 Attention Mechanism은 다음과 같이 작동합니다:
- ‘그것’이라는 단어의 쿼리 벡터가 다른 단어들의 키 벡터와 내적 (dot product) 을 계산
- 소프트맥스를 통해 각 단어에 대한 Attention 점수 산출
- 이 경우 ‘책’이라는 단어에 대한 Attention 점수가 가장 높게 나타남
- 결과적으로 모델은 ‘그것’ = ‘책’이라고 판단
- 엔트로피와 결정 트리
언어 모델에서 다음 단어 예측은 확률 분포로 표현됩니다. 이때, 엔트로피는 이 분포의 불확실성을 측정하는 지표입니다. 엔트로피 H(X) = -Σ P(x) log₂ P(x)결정 트리는 이러한 예측 과정을 시각화하는 데 유용합니다.
트리의 각 노드에서 모델은 이전 문맥을 바탕으로 다양한 단어 후보들 중 선택을 하게 되며, 이 선택 과정에서 정보 이득(Information Gain)을 최대화하는 방향으로 결정을 내립니다.
(정보 이득 = 부모 노드의 엔트로피 – 자식 노드들의 가중 평균 엔트로피)
높은 정보 이득을 가지는 결정이 모델의 예측 성능을 향상시키는 데 기여합니다.
6. Transformer 기술의 응용
트랜스포머 기술은 NLP(자연어 처리) 영역을 넘어 다양한 분야로 확장되고 있습니다:
- 컴퓨터 비전: Vision Transformer(ViT)를 통한 이미지 분류
- 오디오 처리: 음성 인식 및 합성
- 멀티모달 학습: 이미지와 텍스트 등 여러 모달리티 통합
- 과학 연구: 단백질 구조 예측(AlphaFold), 화학 구조 분석 등
마무리하며, Transformer 구조와 Attention Mechanism 은 기존의 순차적 처리의 한계를 뛰어넘어 문장의 모든 요소를 동시에 고려하며, 사람의 언어를 더 깊이 이해할 수 있게 되었습니다.
이러한 기술은 GPT, BERT와 같은 대규모 언어 모델의 발전을 도왔고 챗봇, 번역 서비스, 검색 엔진, 콘텐츠 추천 시스템에 이르기까지 우리의 삶의 다양한 영역에서 변화를 가져오고 있습니다.
오늘은 Advanced AI 시리즈의 첫번째 시리즈로 Transformer 과 Attention Mechanism 에 대해 다뤄 보았습니다.
여기까지 ‘[Advanced AI] Transformer & Attention Mechanism(GPT , BERT 모델)’에 대해 소개해드렸습니다. 유익한 정보가 되셨길 바랍니다. 감사합니다.
Written by 구 동민 / Innovate AI실
BESPIN GLOBAL