hwkim-dev Blog

[프로젝트] llm-lite — Gemma 3N E4B 경량 추론 엔진

Sun, 19 Apr 2026 00:00:00 GMT

llm-lite 는 저사양 로컬 환경에서 Gemma 3N E4B 를 클라우드 없이 돌리는 걸 목표로 만든 멀티 백엔드 추론 엔진이다. 모델 구조는 그대로 두되 공격적인 양자화(INT4 weights + MMAP)와 저수준 하드웨어 가속으로 성능을 끌어내는 방향을 택했다.

타겟 하드웨어

1차 타겟은 AMD Ryzen 5 4500U APU (Renoir, 6C/6T, Radeon RX Vega 6 iGPU) 를 장착한 리눅스 머신이다. 2차 타겟으로 macOS (Apple Silicon / Intel, MoltenVK 경유), Raspberry Pi 4/5 (aarch64), 그리고 Xilinx KV260 FPGA 를 지원한다. KV260 에서는 별도 NPU 백엔드 (uCA — micro Compute Architecture) 를 사용한다.

아키텍처 요약

레이어	기술
추론 엔진	Python 3.12 + NumPy
CPU 커널	C++17 + SIMD / OpenMP
GPU 커널	Vulkan 1.2 Compute + GLSL
웹 GUI	Flask 3 + SSE 스트리밍
네이티브 GUI	Dear ImGui 1.91 + Vulkan
양자화	W4A32 기본 — INT4 weights, FP32 activations
Weight 로딩	safetensors + MMAP (zero-copy)

프리필 ~35 tokens/sec, 디코드 ~8-12 tokens/sec 수준으로, Ryzen 4500U 에서도 일상적 대화가 가능한 속도다. 모델 RAM 은 INT4 MMAP 기준 약 2.8 GB.

최근 업데이트

양자화 모드 확장: 기존 INT4 에 더해 INT8 / FP16 / FP32 weight 모드 추가. 특히 구형 iGPU (Vega 6 등) 는 정수 연산보다 부동소수점이 빠를 수 있어 모드 선택이 의미가 있다.
모델 매니저: GUI 에서 HuggingFace 모델 다운로드 → 양자화 → 기존 variant 삭제까지 한 흐름으로 가능.
Speculative Decoding 준비: Gemma 3N 의 MatFormer 구조를 이용해 E4B 에서 E2B 를 슬라이스하는 방향으로 draft model 을 만드는 연구를 시작했다. 현재는 scaffold 상태이고 실제 구현은 별도 이슈로 추적 중.

[논문] Attention Is All You Need

Fri, 17 Apr 2026 00:00:00 GMT

Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.

1. Transformer의 등장 배경

기존 NLP 처리 분야에서 주류를 이루던 모델은 RNN(Recurrent Neural Network)과 LSTM(Long Short-Term Memory)이었다. 이 모델들은 데이터를 순차적(Sequential)으로 처리한다. 예를 들어 "나는 학교에 간다"라는 문장이 있을 때, '나는'을 처리한 결과를 바탕으로 '학교에'를 처리하고, 그 결과를 다시 바탕으로 '간다'를 처리하는 방식이다.

이러한 순차적 처리 방식에는 두 가지 치명적인 한계가 있다.

parallel하게 처리 불가: 이전 단어의 연산이 끝나야만 다음 단어의 연산을 수행할 수 있으므로, 컴퓨터의 연산 자원을 동시에 활용하는 parallel 처리가 불가능하다.
장기 의존성(Long-term Dependency) 문제: 문장이 길어질수록 초반에 입력된 단어의 정보가 뒤로 갈수록 희미해지는 현상이 발생한다.

Transformer는 "단어들을 순차적으로 넣지 말고, 문장 전체를 한꺼번에 입력한 뒤 단어들 간의 관계를 동시에 계산하자"는 아이디어에서 출발했다. 이를 가능하게 한 핵심 기술이 바로 Attention 메커니즘이다.

2. Model Architecture

Transformer는 기계 번역과 같은 Sequence Transduction 작업에 최적화된 Encoder-Decoder 구조를 채택하고 있다.

Auto-regressive 특성: 모델은 출력을 생성할 때 이전에 자신이 생성한 출력 기호들을 다음 단계의 추가 입력으로 사용한다. 즉, 1번째 단어를 예측하고, 그 단어를 포함하여 2번째 단어를 예측하는 방식이다.

2.1 Encoder

Encoder는 입력된 원본 문장(예: 한국어 문장)을 읽고, 그 문장 내 단어들의 의미와 문맥을 파악하여 압축된 정보(Representation)로 변환하는 역할을 한다.

계층 구조: 총 $N = 6$ 개의 Identical layers 를 쌓아 올린 형태이다.
Sub-layer: 각 레이어는 내부적으로 2개의 Sub-layer를 가진다.
1. Multi-Head Self-Attention: 문장 내부의 단어들이 서로 어떤 연관성을 가지는지 파악한다.
2. Position-wise Feed-Forward Network (FFN): 파악된 연관성 정보를 바탕으로 각 단어의 특징을 더욱 깊게 학습하는 Neural Network이다.
Residual Connection 및 Layer Normalization: 각 Sub-layer의 출력은 다음과 같은 수식으로 처리된다.
$Output = LayerNorm(x + Sublayer(x))$
- $x$ : Sub-layer로 들어가는 원본 입력값이다.
- $Sublayer(x)$ : Attention이나 FFN 연산을 거친 결과값이다.
- $x + Sublayer(x)$ (Residual Connection): 연산 결과에 원본 입력값을 더해준다. 층이 깊어지더라도 초기 정보가 소실되는 것을 방지하여 학습을 안정적으로 만든다.
- $LayerNorm(...)$ : 더해진 결과값의 평균과 분산을 구하여 데이터를 일정한 범위로 정규화한다.
차원 통일: Residual Connection을 원활하게 수행하기 위해, 모델 내부의 모든 Sub-layer와 Embedding 층의 출력 차원은 $d_{model} = 512$ 로 고정된다.

2.2 Decoder

Decoder는 Encoder가 압축해 놓은 문맥 정보를 바탕으로 타겟 문장(예: 번역된 영어 문장)을 하나씩 생성하는 역할을 한다. Encoder와 마찬가지로 $N = 6$ 개의 동일한 레이어로 구성되지만, Sub-layer가 3개로 늘어난다.

Masked Multi-Head Self-Attention:
- Decoder가 출력 단어를 생성할 때, 현재 위치보다 뒤에 있는(미래의) 단어들을 미리 보지 못하게 가리는(Masking) 역할을 한다.
- 예를 들어 3번째 단어를 예측할 때는 1, 2번째 단어만 참조할 수 있도록, 미래 단어들의 유사도 점수(Score)를 $-\infty$ 로 마스킹하여, Softmax 함수를 거친 후의 Attention 가중치(Weight)가 0이 되도록 만든다.
Multi-Head Attention (Encoder-Decoder Attention):
- Decoder가 단어를 생성하기 위해 "원본 문장의 어떤 부분을 집중해서 봐야 할지"를 결정하는 곳이다.
- 여기서 Decoder는 자신의 정보를 기준(Query)으로 삼고, Encoder가 최종적으로 출력한 정보(Key, Value)를 참조한다.
Position-wise Feed-Forward Network: Encoder의 구조와 동일하다.

3. Attention 메커니즘

Attention 메커니즘은 Transformer의 핵심이다. Attention 함수는 하나의 Query와 Key-Value 쌍들의 집합을 출력에 매핑하는 작업으로 설명할 수 있다.

비유하자면 도서관에서 정보를 찾는 과정과 같다.

Query (Q): 사용자가 검색창에 입력한 '검색어' (현재 파악하고자 하는 대상 단어)
Key (K): 도서관 책들에 붙어있는 '색인' 또는 '라벨' (다른 단어들이 가진 특징)
Value (V): 그 책의 실제 '내용' (다른 단어들이 가진 실제 정보)

(* Self-Attention의 경우 $Q, K, V$ 는 모두 같은 입력 문장으로부터 생성되며, 각각 서로 다른 가중치 행렬을 곱해 목적에 맞게 변환된 값이다)

3.1 Scaled Dot-Product Attention

논문에서는 Attention을 계산하기 위해 'Scaled Dot-Product Attention'이라는 방식을 제안한다. 연산 수식은 다음과 같다.

Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V

$Q$ (Query Matrix): | [질문] | 타겟 단어들의 벡터가 모인 Matrix이다.
$K$ (Key Matrix): | [위치] | 참조할 단어들의 벡터가 모인 Matrix이다.
$V$ (Value Matrix): | [내용] | 참조할 단어들의 실제 정보 벡터가 모인 Matrix이다.
$K^T$ : Key Matrix의 전치 Matrix(Transposed Matrix)이다. Matrix 곱을 위해 행과 열을 바꾼 형태이다.
$d_k$ : Query와 Key 벡터의 차원 수이다. (논문에서는 $d_k = 64$ 를 사용한다.)
$\sqrt{d_k}$ : $d_k$ 의 제곱근이다. (논문에서는 $\sqrt{64} = 8$ 이 된다.)
$softmax$ : 입력된 값들을 0과 1 사이의 확률값으로 변환하고, 그 총합이 1이 되도록 만드는 함수이다. (공식: $\frac{e^{x_i}}{\sum e^{x_j}}$ )

Attention(Q, K, V) = softmax(\frac{QK^T}{\sqrt{d_k}})V

$QK^T$ (유사도 계산): Query 행렬과 Key 전치 행렬을 행렬 곱(Matrix Multiplication)한다. 이는 Query 단어 벡터와 각 Key 단어 벡터 간의 내적(Dot Product)을 한 번에 계산하는 과정으로, Query 단어와 각 key 단어가 얼마나 연관성이 높은지(유사한지)를 수학적인 점수로 산출하는 과정이다. 값이 클수록 두 단어의 연관성이 높다는 뜻이다.
$\frac{QK^T}{\sqrt{d_k}}$ (Scaling): Dot product을 수행하면 차원 수( $d_k$ )가 클수록 결과값이 매우 커지는 경향이 있다. 값이 너무 커지면 다음 단계인 Softmax 함수에서 기울기(Gradient)가 0에 수렴하여 학습이 진행되지 않는 문제가 발생한다. 이를 방지하기 위해 점수를 $\sqrt{d_k}$ 로 나누어 값의 크기를 적절하게 조절(Scaling)한다.
$softmax(...)$ (weight 확률화): Scaling 된 점수들을 Softmax 함수에 통과시킨다. 이 과정을 거치면 각 단어에 대한 점수가 0~1 사이의 확률값(weight)으로 변환된다. 예를 들어 "0.9"가 나오면 이 단어와 매우 강하게 연관되어 있다는 뜻이고, "0.01"이 나오면 거의 무시해도 좋다는 뜻이다.
$\times V$ (정보의 결합): 계산된 Softmax weight를 실제 정보인 Value Matrix에 곱한다. 결과적으로 연관성이 높은 단어의 정보(Value)는 많이 가져오고, 연관성이 낮은 단어의 정보는 적게 가져와서 하나로 합치게 된다. 이 결과가 바로 Attention의 최종 출력값이 된다.

3.2 Multi-Head Attention

Transformer는 위의 단일 Attention을 한 번만 수행하지 않고, 차원을 여러 개로 쪼개어 여러 번의 Attention을 parallel하게 수행한다. 이를 Multi-Head Attention이라고 부른다.

논문에서는 $d_{model} = 512$ 차원을 $h = 8$ 개의 Head로 쪼갠다. 따라서 각 Head는 $d_k = d_v = 512 / 8 = 64$ 차원의 벡터를 다루게 된다.

왜 Multi Head(여러개)를 사용하는가?

문장 내에서 단어들의 관계는 다각도로 해석될 수 있다. 예를 들어 "그가 강하게 공을 찼다"라는 문장에서 '찼다'라는 단어는 '그가'(주어, 누가 했는가?)와 연결될 수도 있고, '공을'(목적어, 무엇을 했는가?)과 연결될 수도 있다. 단일 Attention만 사용하면 여러 관계 중 평균적인 한 가지 관점만 보게 되지만, Head를 8개로 나누면 각각의 Head가 주어와의 관계, 목적어와의 관계, 시제와의 관계 등 서로 다른 다양한 문맥적 특징(Representation subspace)을 동시에 포착할 수 있다.

각각의 Head에서 계산된 8개의 결과 Matrix은 마지막에 하나로 이어 붙여진(Concatenated) 후, 선형 변환(Linear Projection) Matrix을 곱하여 최종 출력 Matrix이 된다.

4. Position-wise Feed-Forward Network

Attention Sub-layer를 통과한 데이터는 각 레이어마다 포함된 완전 연결 전방향 신경망(Fully Connected Feed-Forward Network, FFN)을 거치게 된다.

"Position-wise"라는 의미는 문장을 구성하는 개별 단어 위치(Position)마다 동일한 Neural Network가 각각 독립적으로 적용된다는 뜻이다.

FFN(x) = \max(0, xW_1 + b_1)W_2 + b_2

$x$ : Attention 층을 통과하여 들어온 입력 벡터이다. 차원은 $d_{model} = 512$ 이다.
$W_1, b_1$ : 첫 번째 선형 변환을 위한 weight(Weight) Matrix과 편향(Bias) 벡터이다.
$\max(0, ...)$ : ReLU(Rectified Linear Unit) 활성화 함수이다. 괄호 안의 계산 결과가 0보다 작으면 0으로 만들고, 0보다 크면 그 값을 그대로 유지한다. 비선형성을 부여하는 핵심 요소이다.
$W_2, b_2$ : 두 번째 선형 변환을 위한 weight Matrix과 편향 벡터이다.

이 신경망은 샌드위치 구조를 가진다.

차원 확장: 입력 벡터 $x$ (512차원)에 weight $W_1$ 을 곱하여 차원을 $d_{ff} = 2048$ 차원으로 크게 확장시킨다.
활성화: 확장된 공간에서 ReLU 함수를 거치며 데이터의 비선형적 특징을 추출한다. 이 과정에서 불필요한 정보(음수 값)는 0으로 소거된다.
차원 압축: 다시 weight $W_2$ 를 곱하여 원래의 차원인 $d_{model} = 512$ 차원으로 압축하여 출력한다.

Attention 이 단어들 사이의 '관계'를 수집하는 과정이라면, FFN 층은 수집된 정보를 바탕으로 각 단어 자체가 가진 '의미'를 더욱 복잡하고 풍부하게 가공하여 기억하는 역할을 담당한다. 모델 전체의 학습 파라미터(weight) 대부분이 바로 이 FFN의 $W_1, W_2$ Matrix에 집중되어 있다.

5. Positional Encoding

Transformer는 RNN 구조를 버리고 Matrix 곱셈을 통한 parallel 처리를 택했다. 그러나 이로 인해 치명적인 단점이 생긴다. Attention 연산은 단어 집합을 마치 순서가 없는 '가방(Bag of words)'처럼 취급하기 때문에, "나는 밥을 먹는다"와 "밥을 나는 먹는다"를 수학적으로 동일하게 인식할 수 있다.

이를 해결하기 위해 모델이 Sequence 내 단어의 상대적 또는 절대적 '위치(순서)' 정보를 알 수 있도록, 입력 단어의 Embedding 벡터에 위치 정보를 담은 벡터를 더해주는 과정을 Positional Encoding이라고 한다.

논문에서는 위치 정보를 생성하기 위해 다양한 주파수를 가진 사인(Sine) 및 코사인(Cosine) 함수를 사용한다.

PE_{(pos, 2i)} = \sin(pos / 10000^{2i/d_{model}})

PE_{(pos, 2i+1)} = \cos(pos / 10000^{2i/d_{model}})

$pos$ : 문장 내에서 해당 단어의 위치(Position) 인덱스이다. (예: 첫 번째 단어는 0, 두 번째 단어는 1)
$i$ : 차원(Dimension)의 인덱스이다. Embedding 벡터 내의 몇 번째 값인지를 나타낸다.
$i$ 의 범위는 $0$ 부터 $d_{model}/2 - 1$ 까지이며, 이를 통해 벡터의 짝수 인덱스( $2i$ )와 홀수 인덱스( $2i+1$ )에 각각 다른 삼각함수를 짝지어 적용한다
$2_{i}, 2_{i+1}$ : 벡터의 인덱스가 짝수(2i)일 때는 사인(sin) 함수를, 홀수(2i+1)일 때는 코사인(cos) 함수를 사용한다는 의미이다.
$d_{model}$ : Embedding 벡터의 총 차원 수 (512)이다.
$10000^{2i/d_{model}}$ : 주파수를 결정하는 분모 항목이다. 인덱스 $i$ 가 커질수록 분모가 커져 주파수가 매우 느리게 변하게 된다.

이 공식을 사용하면 문장 내의 각 위치(pos)마다, 그리고 벡터의 각 차원(i)마다 고유한 패턴을 가지는 연속적인 실수 값이 생성된다. 삼각함수를 사용했기 때문에 위치 Vector의 값들은 -1에서 1 사이의 값으로 일정하게 파동을 그린다.

이렇게 수학적 규칙으로 생성된 512 dimension의 '위치 벡터'를, 데이터가 Encoder나 Decoder의 첫 번째 레이어에 들어가기 직전에 원래 단어의 'Embedding 벡터'에 단순 덧셈(+)해 준다. 결과적으로 모델은 학습을 진행하면서 단어의 고유한 의미뿐만 아니라, 이 삼각함수 파동 패턴을 역추적해서 "아, 이 단어는 문장의 앞부분에 있구나" 혹은 "저 단어는 바로 다음 위치에 있구나"라는 상대적인 순서(relative position)를 파악할 수 있게 된다.

[논문] Gemma 3 4B 내부 처리 과정

Fri, 17 Apr 2026 00:00:00 GMT

Phase 1: 모델이 알아들을 수 있게 준비하기

1단계: 토큰화 (Tokenization) - "단어 쪼개기" 우리가 "안녕하세요"라고 치면, AI는 한글을 못 읽어. 그래서 자기가 아는 숫자(ID) 번호표로 바꿔야 해. Gemma의 단어 사전(Vocabulary, 약 25만 개)을 뒤져서 쪼개는 거지.

"안녕" -> 4512번
"하세요" -> 8931번

이런 식으로 숫자로 쪼개. 이제 입력은 [4512, 8931] 이라는 두 개의 숫자가 돼.

수학적 표현: 문자열 $S$ 를 토큰 시퀀스 $X = \{x_1, x_2, \dots, x_N\}$ 으로 매핑하는 함수 $f_{tokenize}$ . 여기서 $x_i \in \{1, 2, \dots, V\}$ (단, $V$ 는 단어 사전의 크기, 약 256,000).

2단계: 임베딩 (Embedding) - "숫자를 캐릭터 스탯창으로 만들기" 숫자만 있으면 의미를 모르잖아? 4512번이라는 숫자를 엄청나게 긴 숫자 배열(벡터) 로 바꿔줘. 마치 게임 캐릭터 스탯창(힘, 민첩, 지능...)을 만드는 거랑 같아. Gemma 3 4B 기준으로는 이 스탯창이 약 3072칸(차원) 정도 될 거야.

"안녕" -> [0.1, -0.4, 0.8, ... (3072개)]
"하세요" -> [-0.2, 0.5, 0.1, ... (3072개)]

이제 단어가 수학적인 공간에 자리를 잡은 거야.

수학적 표현: 임베딩 행렬 $E \in \mathbb{R}^{V \times d_{model}}$ (단, $d_{model} = 3072$ ). 토큰 $x_i$ 에 대한 임베딩 벡터 $\mathbf{e}_i$ 는 행렬 $E$ 에서 $x_i$ 번째 행을 가져오는 것과 같음. (또는 원-핫 벡터 $\mathbf{v}_{x_i}$ 와의 행렬 곱: $\mathbf{e}_i = \mathbf{v}_{x_i} E$ ). 결과적으로 입력 시퀀스는 행렬 $\mathbf{X} \in \mathbb{R}^{N \times d_{model}}$ 이 됨.

3단계: 위치 정보 추가 (RoPE) - "순서표 달아주기" 단어 두 개가 들어왔는데, AI는 이게 "안녕 하세요"인지 "하세요 안녕"인지 순서를 몰라. 한꺼번에 처리하거든. 그래서 각 단어의 스탯창(벡터)을 수학적으로 살짝 회전(Rotation) 시켜줘.

1번 자리 "안녕"은 10도 회전
2번 자리 "하세요"는 20도 회전

이걸 RoPE(Rotary Position Embedding) 라고 해. 이제 AI는 단어의 순서를 알게 됐어. 1번 단어는 $1 \times \theta$ 만큼 회전, 2번 단어는 $2 \times \theta$ 만큼 회전... $n$ 번 단어는 $n \times \theta$ 만큼 회전.

이때 사용하는 것이 그 유명한 회전 행렬(Rotation Matrix)이야.

\mathbf{R}_{n\theta} = \begin{bmatrix} \cos(n\theta) & -\sin(n\theta) \\ \sin(n\theta) & \cos(n\theta) \end{bmatrix}

여기에 좌표 $(x,y)$ 를 곱하면 새로운 위치로 이동하게 돼. 두 단어 $m$ 번과 $n$ 번의 벡터를 내적(곱하기)하면, 신기하게도 절대적인 위치값은 사라지고 두 단어 사이의 거리 차이인 $(m-n)\theta$ 에 대한 정보만 남아.

(\mathbf{R}_{m\theta} \mathbf{q})^T (\mathbf{R}_{n\theta} \mathbf{k}) = \mathbf{q}^T \mathbf{R}_{m\theta}^T \mathbf{R}_{n\theta} \mathbf{k} = \mathbf{q}^T \mathbf{R}_{(m-n)\theta} \mathbf{k}

가까운 단어: 각도 차이가 작음 -> 연관성 높게 측정됨
먼 단어: 각도 차이가 큼 -> 연관성 낮게 측정됨

무한한 확장성: 번호표(Absolute) 방식은 학습 때 본 길이보다 길어지면 당황하지만, RoPE는 각도만 더 돌리면 되니 더 긴 문장(Context Window)을 읽는 데 유리해. 복소수(Complex Number) 활용: 실제 구현할 때는 Euler's formula ( $e^{i\theta}$ )를 이용해 복소수 평면에서 곱셈 한 번으로 회전을 끝내버려. 아주 빠르지.

Phase 2: 진짜 생각하기 (Transformer Block 40번 반복)

자, 이제 이 스탯창들이 Gemma의 '뇌'에 해당하는 Transformer Layer를 통과해. 이 층이 보통 40개 정도 겹쳐 있어. 한 층을 지날 때마다 아래 과정이 똑같이 반복돼.

4단계: RMSNorm - "데이터 크기 진정시키기" 연산을 막 하다 보면 숫자가 너무 커지거나 작아져서 에러가 날 수 있어. 그래서 데이터를 깔끔하게 평균 근처로 꾹꾹 눌러 담아주는 정규화(Normalization) 과정을 거쳐.

AI 심사위원이 가수 오디션을 심사할 때 A가수는 성량이 커서 매우 크게 들림(값: 100) B가수는 성량이 너무 작아서 모기 소리 수준임(값: 1) 이때 RMS Norm 투입 -> 가수들이 내는 평균적인 에너지를 측정(제곱해서 루트를 씌운 ‘실효값’) 계산된 평균 에너지로 각 가수들의 성량(값)을 나눠버림 A가수는 값이(볼륨이) 줄고, B가수는 값이(볼륨이) 상대적으로 커짐 = 평준화 됨 = 가수들의 목소리가 비슷한 크기(표준적인 범위)로 들리게 됨.

따라서 AI는 목소리 크기 상관없이 가창력에만 집중 가능해. (Layer Norm은 연산이 복잡하지만, RMS Norm은 분산 대신 제곱평균만 활용하여 빠르고 가벼운 연산이야).

수학적 표현: 입력 벡터 $\mathbf{x} \in \mathbb{R}^d$ 에 대해,

\text{RMS}(\mathbf{x}) = \sqrt{\frac{1}{d} \sum_{i=1}^{d} x_i^2 + \epsilon}

\bar{\mathbf{x}} = \frac{\mathbf{x}}{\text{RMS}(\mathbf{x})} \odot \mathbf{\gamma}

(여기서 $\epsilon$ 은 0으로 나누는 것을 방지하는 아주 작은 수, $\gamma$ 는 학습 가능한 스케일링 파라미터, $\odot$ 은 요소별 곱셈(Element-wise multiplication)을 의미함.)

5단계: Q, K, V 만들기 - "질문, 힌트, 정답지" 이제 각 단어("안녕", "하세요")가 3개의 분신을 만들어.

Q (Query, 질문): "내가 지금 누굴 찾아야 문맥이 맞지?"
K (Key, 힌트): "나는 이런 특징을 가진 단어야!"
V (Value, 내용): "나랑 연결되면 이 정보를 가져가!"

수학적 표현: 정규화된 입력 $\bar{\mathbf{X}}$ 에 가중치 행렬을 곱함.

\mathbf{Q} = \bar{\mathbf{X}} \mathbf{W}_Q, \quad \mathbf{K} = \bar{\mathbf{X}} \mathbf{W}_K, \quad \mathbf{V} = \bar{\mathbf{X}} \mathbf{W}_V

(하드웨어에서는 이 부분이 거대한 Matrix Multiplication(GEMM) 엔진에서 처리됨.)

6단계: GQA와 KV Cache 연산 (여기서 NPU가 피똥 쌈) 이 부분이 하드웨어 가속기(NPU) 설계할 때 가장 핵심인 부분이야.

6-1) KV Cache (기억하기): AI가 문장을 한 글자씩 생성할 때, 처음부터 다시 다 계산하면 비효율적이야.

문제 상황: "안녕", "하", "세"까지 만들고 "요"를 만들 차례라고 해보자. 원래대로라면 앞의 단어들을 처음부터 다시 다 계산해서 Q, K, V를 만들어야 해.
해결책 (KV Cache): "어차피 앞에 단어들은 안 변하잖아?" 이미 계산한 K(힌트) 와 V(내용) 를 메모리(VRAM) 에 딱 저장해두는 거지.

NPU가 피똥 싸는 이유:

메모리 점유: 문장이 길어질수록 저장해야 할 K, V 값이 기하급수적으로 늘어나.
데이터 이동: 대용량의 캐시 데이터를 외부 메모리에서 NPU 코어로 계속 왔다 갔다 옮기는 과정에서 Memory Bound(병목 현상) 가 발생해.

수학적 표현: 시점 $t$ 에서 새로 들어온 토큰의 $\mathbf{k}_t, \mathbf{v}_t$ 를 기존 캐시에 결합(Concatenate).

\mathbf{K}^{(t)} = [\mathbf{K}^{(t-1)}, \mathbf{k}_t], \quad \mathbf{V}^{(t)} = [\mathbf{V}^{(t-1)}, \mathbf{v}_t]

6-2) GQA (그룹 지어서 찾기): KV Cache가 메모리를 너무 많이 잡아먹다 보니, 이를 해결하기 위해 등장한 천재적인 설계가 GQA(Grouped-Query Attention) 야.

MHA (과거): 질문자(Q), 힌트(K), 내용(V)을 1:1:1로 가짐. 메모리가 터져나감.
GQA (현재 - Gemma 3 등): 질문자(Q)는 많지만, 힌트(K)와 내용(V)은 그룹을 지어 적게 만듦. (예: 4:1:1 대응)
효과: "너네 질문자 4명은 이 힌트(K)랑 내용(V) 하나를 같이 써!"라고 지정해서 메모리에 저장해야 할 양을 확 줄여줘. 데이터 이동량이 줄어드니 추론 속도가 비약적으로 빨라지지.

"하세요"의 Q가 방금 저장된 "안녕"의 K를 훑어보고 연관성(Attention Score)을 계산해. 그리고 이 점수에 맞춰서 V를 섞어주면, "하세요"라는 벡터 안에 "안녕"이라는 문맥이 스며들게 돼.

수학적 표현 (Scaled Dot-Product Attention): 그룹 $g$ 에 속한 쿼리 헤드 $\mathbf{Q}_{i}$ 에 대해,

\text{Score}_i = \frac{\mathbf{Q}_i (\mathbf{K}_g^{(t)})^T}{\sqrt{d_k}}

\text{Attention}_i = \text{Softmax}(\text{Score}_i + \text{Mask}) \mathbf{V}_g^{(t)}

(하드웨어 관점: 여기서 Softmax 연산이 지수 함수( $e^x$ )와 나눗셈을 포함하므로, NPU에서 LUT(Look-Up Table)나 Taylor 전개 같은 근사(Approximation) 하드웨어 로직이 필수적으로 들어감.)

7단계: Residual Connection (Add) - "원본 까먹지 않기" 6단계에서 머리를 너무 굴리면 원래 단어의 본질을 잃어버릴 수 있어. 그래서 6단계의 결과물에 처음 들어왔던 3단계의 원본 데이터를 그대로 더해줘.

수학적 표현:

\mathbf{X}_{out1} = \mathbf{X}_{in} + \text{Attention}(\text{RMSNorm}(\mathbf{X}_{in}))

(하드웨어 관점: 행렬 덧셈. Element-wise 연산이므로 연산량 자체는 적지만 메모리에서 원본 $\mathbf{X}_{in}$ 을 유지해야 함.)

8단계: MLP (다층 퍼셉트론) GeLU-Gate MLP - "의미 뻥튀기" 이제 문맥을 파악했으니, 이 정보를 바탕으로 더 깊은 의미를 추론해. "아, '안녕하세요'는 사람이 만났을 때 하는 인사말이네! 그럼 다음엔 호응하는 말이 나와야겠다!"

데이터 차원을 엄청나게 크게 늘렸다가 다시 원래 크기로 쪼그라뜨려. 이 과정에서 정보 필터링을 위해 GeGLU (Gated Linear Unit) 연산을 사용하지.

수학적 표현 (GeGLU): 먼저 $\mathbf{X}_{out1}$ 을 다시 RMSNorm 처리한 후, 두 개의 선형 변환을 거침.

\mathbf{H}_{gate} = \text{GELU}(\bar{\mathbf{X}}_{out1} \mathbf{W}_{gate})

\mathbf{H}_{up} = \bar{\mathbf{X}}_{out1} \mathbf{W}_{up}

\mathbf{H}_{hidden} = \mathbf{H}_{gate} \odot \mathbf{H}_{up}

최종적으로 원래 차원으로 복구:

\text{MLP}_{\text{out}} = \mathbf{H}_{\text{hidden}} \mathbf{W}_{\text{down}}

(하드웨어 관점: 가중치 행렬이 제일 큰 구간. Compute Bound가 심하게 발생하는 구간이므로, Systolic Array의 활용도를 극대화해야 하는 지점임.)

9단계: Residual Connection (Add) 마찬가지로 8단계 결과물에 7단계까지의 원본을 한 번 더 더해줘.

수학적 표현:

\mathbf{X}_{out2} = \mathbf{X}_{out1} + \text{MLP}_{\text{out}}

(여기까지가 1개의 Layer야. 이 4~9단계를 약 40번 반복하면서 데이터가 점점 고도화돼.)

Phase 3: 대답 내놓기

10단계: 최종 RMSNorm 40번의 레이어를 뚫고 나온 최종 벡터를 마지막으로 깔끔하게 정돈해.

수학적 표현:

\mathbf{X}_{final} = \text{RMSNorm}(\mathbf{X}_{layer40})

11단계: LM Head - "사전이랑 비교하기" (Output Projection) 이 압축된 최종 벡터를 25만 개의 단어 사전이랑 쫙 비교(행렬 곱셈)해. 다음에 올 단어로 뭐가 제일 어울릴지 점수(Logits)를 매기는 거지.

수학적 표현:

\mathbf{Logits} = \mathbf{X}_{final} \mathbf{W}_{vocab}^T \in \mathbb{R}^{V}

12단계: Softmax와 Sampling - "주사위 굴려서 단어 뽑기" 점수를 확률(0~100%)로 바꿔.

"반갑습니다" -> 85%
"네" -> 10%
"누구세요" -> 4%

여기서 확률에 따라 "반" 이라는 글자(토큰)가 딱! 뽑히는 거야.

수학적 표현: 온도(Temperature) $T$ 를 적용한 Softmax 연산:

P(x_i) = \frac{\exp(\text{logit}_i / T)}{\sum_{j=1}^{V} \exp(\text{logit}_j / T)}

Phase 4: 무한 반복 (Autoregressive)

13단계: 꼬리 물기 (KV Cache의 진가) 대답이 끝난 게 아니야. 모델은 방금 자기가 뱉은 "반"을 다시 입력으로 집어넣어. (입력: "안녕하세요" + "반")

이때! "안녕하세요"는 아까 6단계에서 KV Cache에 저장해뒀지? 그래서 새로 들어온 "반"에 대한 Q, K, V만 계산해서 기존 캐시랑 비교하면 엄청 빠르게 다음 글자인 "갑" 을 뽑아낼 수 있어.

수학적 표현:

P(\text{"갑"} | \text{"안녕", "하세요", "반"})

이때 연산 복잡도는 $O(N)$ 에서 $O(1)$ 수준으로 떨어져.

14단계: 끝날 때까지 반복 이 과정을 계속 반복해.

"안녕하세요 반 갑" -> "습"
"안녕하세요 반갑 습" -> "니다"
"안녕하세요 반갑습니다" -> "."
"안녕하세요 반갑습니다." -> (End of Sequence, 대화 끝 토큰)

토큰이 뽑히는 순간, 모델은 출력을 딱 멈춰. 이게 챗봇의 전체 생성 과정이야.

[논문] GPT-1 핵심 정리

Fri, 17 Apr 2026 00:00:00 GMT

이 문서는 GPT-1 논문의 architecture와 학습 과정을 수학적/정의와 직관적인 해설을 결합하여 정리한 노트이다.

1. 언어 모델의 핵심 기초 개념

1) Context Window

정의: 모델이 한 번에 처리할 수 있는 단어(token)의 최대 개수, 즉 sequence의 길이 $k$ 를 의미한다. 트랜스포머의 Self-Attention 연산 복잡도는 $O(k^2)$ 이다.
직관적 해설:
- 장점: Context Window( $k$ 값)가 커질수록 모델은 더 먼 과거의 단어들까지 기억할 수 있다. 힌트가 많아지니 문맥을 정교하게 파악하고 다음 단어를 예측하는 정확도가 상승한다.
- 단점: 트랜스포머는 단어들끼리의 관계(Attention)를 모두 짝지어 계산해야 한다. 따라서 문맥 창이 10배 길어지면 연산량은 제곱인 100배로 폭증한다. 즉, $k$ 의 증가는 하드웨어 메모리와 학습 비용의 한계와 직결되는 현실적인 장벽이다.

2) Maximize Likelihood (최대 우도 추정)

정의: 주어진 문맥 뒤에 등장할 실제 정답 단어가 나올 조건부 확률(Likelihood)을 극대화(Maximize)하도록 모델의 내부 parameter $\Theta$ 를 최적화하는 수학적 목적 함수다.
직관적 해설: 쉽게 말해 언어 모델이 학습하는 가장 근본적인 '목표'다. 모델이 수많은 텍스트 데이터를 읽으면서 자기가 예측한 단어가 실제 텍스트에 적힌 단어와 일치하도록 끊임없이 내부 회로(parameter)를 조절하는 과정이다.

2. GPT의 뼈대: 트랜스포머 디코더 (Transformer Decoder)

원래 구글이 발표한 트랜스포머는 기계 번역을 위해 인코더(입력 파악)와 디코더(출력 생성)로 구성되었다. 하지만 GPT는 여기서 인코더를 과감히 버리고 디코더만을 12층으로 쌓아 올린 구조를 채택했다.

왜 디코더만 썼을까? GPT의 본질은 다음 단어 예측(Auto-regressive) 이기 때문이다. 디코더 내부에는 Masked Self-Attention 이라는 핵심 기능이 있다. 이는 모델이 현재 단어를 처리할 때 미래에 나올 단어들을 보지 못하게 Masking(가림 처리)하여 '커닝'을 막는다. 오직 과거부터 현재까지의 문맥만 보고 다음을 유추해야 하는 GPT의 철학과 완벽하게 맞아떨어지는 구조다.

3. GPT-1의 2단계 학습 파이프라인

1단계: Unsupervised Pre-training (비지도 사전 학습)

labeling되지 않은 대규모 텍스트 데이터를 통해 언어의 전반적인 패턴을 스스로 깨우치는 단계다.

정의 (Objective Function): labeling되지 않은 대규모 Corpus(말뭉치) $\mathcal{U} = \{u_1, \dots, u_n\}$ 가 주어졌을 때, 다음의 Log-Likelihood를 최대화하도록 학습된다.

L_1(\mathcal{U}) = \sum_i \log P(u_i | u_{i-k}, \dots, u_{i-1}; \Theta)

모델( $Θ$ )에게 이전 단어들( $u_{i-k} ,…,u_{i−1}$ )을 보여주었을 때, 그 다음에 올 진짜 정답 단어( $u_i$ )를 맞출 확률 $P(⋯)$ 을 계산하고, 이를 모든 텍스트 데이터에 대해 다 더한 $∑_i$ 값 $L_1(\mathcal{U})$

$L_1(\mathcal{U})$ :
- 목적 함수(Objective Function)를 의미합니다.
  여기서 $\mathcal{U}$ 는 학습 데이터로 사용되는 라벨링되지 않은 거대한 텍스트 Corpus(말뭉치)입니다.
  즉, "데이터 $\mathcal{U}$ 를 모델이 얼마나 잘 이해(예측)하고 있는가"를 점수로 나타낸 것입니다.
$∑_i$ :
- 문장(데이터) 속에 있는 모든 단어(토큰)들의 순서 ii에 대해 아래의 확률 값을 전부 더하라는 뜻입니다.
$log$ :
- 로그 함수입니다. 확률값은 0과 1 사이의 소수인데, 여러 단어의 확률을 계속 곱하면 숫자가 0에 수렴해버리는 문제(언더플로우)가 생깁니다. 로그를 씌우면 곱셈이 덧셈(∑∑)으로 바뀌어 컴퓨터가 계산하기 매우 좋아집니다.
$P(⋯)$ :
- 확률(Probability)입니다.( $P$ =parameter $\Theta$ 를 가진 Transformer Decoder에 의해 계산된 조건부 확률)
$u_i$ :
- 모델이 맞춰야 할 '현재(다음) 단어'
$u_{i-k} ,…,u_{i−1}$ :
- $u_i$ 이전에 등장한 단어들입니다. $k$ 는 모델이 한 번에 볼 수 있는 문맥의 길이(Context Window Size)를 뜻합니다. 즉, **'이전까지의 문맥'**입니다.
$Θ$ (세타):
- 우리가 학습시키고자 하는 **인공지능 모델의 파라미터(가중치)**입니다.

직관적 해설:
- 방식: 인터넷에 널려 있는 거대한 텍스트(뉴스, 책, 위키 등)를 순서대로 읽으며 빈칸(다음 단어)을 맞추게 한다.
  ( * 실제로 GPT-1 모델이 학습한 메인 말뭉치는 7,000여 권의 미출판 도서 데이터인 'BooksCorpus' 입니다. 책 데이터 특성상 긴 문맥(Long-range dependency)을 학습하는 데 큰 도움이 되었다함)
- 비지도 학습인 이유: 사람이 일일이 정답표(labeling)를 달아줄 필요가 없다. "대한민국의 수도는 [서울]이다"라는 문장 자체가 문제이자 정답이기 때문이다.
- 결과: 이 거대하고 단순한 '다음 단어 맞추기 게임'을 통해, 모델은 스스로 문법, 세상의 상식, 문맥의 논리를 통째로 학습하게 된다.

2단계: Supervised Fine-tuning (지도 미세 조정)

사전 학습이 완료된 후, 우리가 진짜 풀고 싶은 특정 문제(감정 분석, 객관식 등)에 맞춰 모델을 튜닝하는 단계다. 정답이 있는 데이터를 사용하므로 지도 학습이 된다.

정의 (Objective Function): labeling된 dataset $\mathcal{C}$ 의 입력 sequence $x^1, \dots, x^m$ 과 라벨 $y$ 가 주어질 때의 예측 확률과 목적 함수는 다음과 같다.

label(정답) 예측 확률

P(y | x^1, \dots, x^m) = \text{softmax}(h_l^m W_y)

$x^1, \dots, x^m$ :
- 입력된 문장(데이터)입니다. $m$ 개의 단어(토큰)로 이루어져 있습니다. (예: "이 영화 너무 재밌다")
$y$ :
- 우리가 예측해야 할 정답 라벨입니다. (예: 긍정(Positive) 또는 부정(Negative))
$h^m$ :
- 사전 학습된 트랜스포머(Transformer) 모델의 제일 마지막 레이어( $l$ )에서, 맨 마지막 단어( $m$ )를 처리하고 나온 **최종 출력값(Hidden state)**입니다. 모델이 문장 전체를 처음부터 끝까지 읽고 요약해 낸 **'문장의 핵심 의미'**라고 보시면 됩니다.
$W_y$ :
- 특정 임무(분류)를 수행하기 위해 새로 추가한 선형 계층(Linear Layer)의 가중치입니다. 모델의 요약본 $(h_{l}^m)$ 을 받아서 정답 라벨의 개수만큼 점수를 변환해 줍니다.
$softmax$ :
- 소프트맥스 함수입니다. $Wy$ 를 통해 나온 단순한 점수들을 총합이 1(100%)이 되는 확률값으로 예쁘게 바꿔줍니다. (예: 긍정일 확률 0.9, 부정일 확률 0.1)

미세 조정(Fine-Tuning) 목적 함수

L_2(\mathcal{C}) = \sum_{(x,y)} \log P(y | x^1, \dots, x^m)

$L_2(\mathcal{C})$ $L_{2} (C)$
- 두 번째 학습 단계(미세 조정)의 목적 함수입니다. $\mathcal{C}$ 는 사람이 직접 정답( $y$ )을 달아놓은 라벨링 데이터셋(예: 리뷰-별점 데이터)을 의미합니다.
$∑_(x,y)$ $\sum_{(} x, y)$ :
- 데이터셋 CC에 있는 모든 (입력 문장 xx, 정답 yy) 쌍에 대해서 아래의 확률을 전부 더하라는 뜻입니다.
$logP(…)$ $l o g P (\dots)$ :
- 모델이 진짜 정답 $y$ 를 맞출 확률에 로그를 씌운 값입니다.

( $h_l^m$ 은 Transformer 마지막 블록의 최종 활성화 벡터, $W_y$ 는 출력층의 가중치 행렬이다.)

Auxiliary Objective (보조 목적 함수)의 활용: GPT-1은 지도 학습 단계에서도 학습의 안정성과 수렴 속도를 높이기 위해, 1단계의 언어 모델링(다음 단어 예측) 목적 함수를 보조적으로 함께 사용한다.

L_3(\mathcal{C}) = L_2(\mathcal{C}) + \lambda \cdot L_1(\mathcal{C})

$L_3(\mathcal{C})$ $L_{3} (C)$ :
- 미세 조정(Fine-Tuning) 단계에서 모델이 최종적으로 최대화해야 하는 종합 목표 점수입니다.
$L_2(\mathcal{C})$ $L_{2} (C)$ :
- 이전에 설명해 드린 '정답(라벨) 맞추기' 점수입니다. (지도 학습)
$L_1{\mathcal{C}}$ $L_{1} C$ :
- 맨 처음에 설명해 드린 '다음 단어 맞추기' 점수입니다. (사전 학습 때 썼던 방식) 단, 여기서는 거대한 인터넷 데이터( ${\mathcal{U}}$ )가 아니라, 현재 훈련 중인 라벨링 데이터셋( ${\mathcal{C}}$ )의 텍스트를 가지고 다음 단어를 맞춥니다.
$\lambda$ $λ$ (lamda):
- 가중치(Weight)를 조절하는 숫자입니다. "정답 맞추기( $L_2$ )가 메인 임무이긴 한데, 다음 단어 맞추기( $L_1$ )를 얼만큼의 비율로 섞어서 학습시킬까?"를 결정하는 조절 다이얼입니다. (보통 0.5 같은 값을 줍니다.)

왜 굳이 끝난 $L_1$ 을 다시 가져와서 더했을까?

일반화 성능 향상 (과적합 방지):
정답(라벨) 맞추기에만 몰두하면, 모델이 텍스트의 진짜 의미는 잊어버리고 얄팍한 꼼수(특정 단어가 나오면 무조건 '긍정'으로 찍기 등)만 배울 수 있습니다(과적합). 다음 단어를 계속 예측하게 만들면, 문맥을 깊이 이해하는 능력을 유지하게 됩니다.

학습 속도 상승 (빠른 수렴):
언어의 구조를 계속 인지하면서 학습하기 때문에, 모델이 정답을 찾아가는 속도가 훨씬 빨라집니다.

사전 학습된 지식 유지:
인터넷 전체를 읽으며 고생해서 쌓아놓은 똑똑한 뇌(가중치)가, 특정 임무 하나만 배우다가 망가지는 현상(Catastrophic Forgetting)을 막아줍니다.

4. Task-aware input transformations (작업 인식 입력 변환)

이 기법의 핵심은 잘 만들어진 12층짜리 디코더 구조를 뜯어고치지 않는다는 것이다. architecture 변경 없이, 텍스트 입력의 형태만 특수 token을 활용해 조작함으로써 다양한 태스크를 수행한다.

1) 특수 token의 역할

(Start) ~~token~~~~: sequence 맨 앞에 붙어 새로운 작업의 시작을 알리는 닻(Anchor) 역할.~~

Positional Encoding과의 차이: 포지셔널 인코딩이 단어의 '물리적 위치'를 알려준다면, (Start) token은 이전 문맥과 단절된 새로운 독립적 문제임을 알리는 '구조적 초기화 신호'다. 이 token이 없다면 첫 단어가 의미적 역할과 구조적 역할을 동시에 수행해야 해 어텐션 연산에 과부하가 온다.

$ (Delim) token: 제시문과 보기 등 서로 다른 성격의 글을 분리해주는 구분자 역할.

(Extract) token: sequence 맨 마지막에 붙는 token. 디코더가 이 token에 도달했을 때는 앞선 모든 문맥 정보가 계산된 상태다. 즉, 문장 전체의 의미를 꾹꾹 눌러 담은 하나의 요약 벡터(Vector)를 뽑아내는 방아쇠 역할을 한다.

2) 객관식 문제 (Multiple Choice) 처리 메커니즘

수능 국어 객관식(제시문 1개, 보기 4개)을 푼다고 가정할 때의 처리 과정이다.

배치(Batch) 구성: 보기 4개를 하나의 긴 글로 묶지 않는다. 보기 개수만큼 다음과 같이 독립된 sequence로 구성한다.

(Start) ~~+ 제시문 + $ (Delim) + 보기1 + (Extract)~~

~~(Start) ~~+ 제시문 + $ (Delim) + 보기2 + (Extract) (이하 동일)~~~~

병렬 연산: 위 4개의 독립된 sequence를 배치로 묶어 모델에 한 번에 통과시킨다.

점수 도출: 각각의 끝에 있는 (Extract) token이 출력한 4개의 벡터를 동일한 선형 분류기(Linear Classifier)에 통과시켜 각 보기당 1개씩, 총 4개의 임의의 점수(Logit)를 얻어낸 뒤, 이 점수들을 모아 Softmax 함수를 통과시켜 정답 확률을 도출한다.

5. 수학적 처리와 오차 계산 (학습의 완성)

모델이 뱉어낸 임의의 점수를 실제 정답과 비교하여 parameter를 업데이트(학습)하기 위한 필수 수학적 과정이다.

1) Softmax (소프트맥스 함수)

정의: 선형 분류기를 거쳐 나온 각 클래스의 임의의 점수 $z_i$ 를 확률 값으로 변환한다.

$\sigma(\mathbf{z})_i = \frac{e^{z_i}}{\sum_{j=1}^{K} e^{z_j}}$

직관적 해설: 선형 분류기에서 나온 4개의 점수(예: 10, 5, 1, -2)는 크기가 제각각이다. 이를 단순 비교하지 않고 Softmax를 쓰는 이유는 두 가지다.

확률 분포 변환: 점수들을 다 합쳐서 정확히 1(100%)이 되도록(각 값은 $0 < \sigma < 1$ )록 비율을 맞춘다 (예: 70%, 20%, 8%, 2%). 지수 함수( $e$ )를 쓰기 때문에 큰 값은 더 확실하게, 작은 값은 더 작게 만들어 모델이 확신을 갖도록 유도한다.

미분 가능성: 딥러닝 역전파 학습을 위해선 그래프가 미분 가능해야 하는데, Softmax는 이 수학적 조건을 완벽하게 충족한다.

2) One-hot Encoding (원-핫 인코딩)

정의: 정답이 $c$ 번 클래스일 때의 목표 확률 분포 $p$ 는 다음과 같다.

$p(i) = \begin{cases} 1 & \text{if } i = c \\ 0 & \text{if } i \neq c \end{cases}$

직관적 해설: 컴퓨터가 자기가 예측한 확률(70%, 20%, 8%, 2%)과 진짜 정답을 비교하려면, 정답도 '확률 모양'이어야 한다. 정답이 2번이라면, 2번 자리에만 100%(1.0)를 주고 나머지는 0%(0.0)를 주어 [0.0, 1.0, 0.0, 0.0] 형태로 만들어주는 작업이다.

3) Cross-Entropy Loss (크로스 엔트로피 오차)

정의: 모델의 예측 확률 분포 $q$ 와 실제 정답 분포 $p$ 사이의 차이(Loss)를 측정한다.

$H(p, q) = -\sum_{x} p(x) \log q(x)$
정답이 One-hot Encoding된 경우, 실제 정답 클래스 $c$ 에 대해서만 확률을 계산하게 된다. 모델이 정답 클래스에 할당한 확률 $q(c)$ 가 1에 가까울수록 오차(Loss)는 0에 수렴하고, 확률이 낮을수록 오차는 무한대로 발산한다.

직관적 해설: MSE(평균 제곱 오차)는 집값 예측 같은 연속된 숫자(회귀)에 쓴다. 반면, 객관식이나 분류 문제에서는 두 확률 분포(예측값 vs 정답) 간의 거리를 재는 Cross-Entropy가 훨씬 적합하다. 모델은 예측값(예: [0.1, 0.7, 0.05, 0.15])과 정답([0, 1, 0, 0]) 사이의 오차값을 계산한 뒤, 이 오차를 줄이는 방향으로 내부 parameter를 수정하며 점차 정답률을 높인다.

[논문] Space-Time Approach to Non-Relativistic Quantum Mechanics

Fri, 17 Apr 2026 00:00:00 GMT

R.P. Feynman의 'Space-Time Approach to Non-Relativistic Quantum Mechanics' 논문 초록(Abstract) 정리 노트

1. Abstract: 양자역학의 새로운 공식화 (Path Integral Formulation)

1) 확률(Probability)

양자역학에서 특정 사건이 일어날 확률은 고전역학처럼 각 경로의 확률 자체를 단순히 더하는 것이 아니다.

사건이 일어날 수 있는 모든 대안적인 방법(Alternative ways/paths) 에서 발생하는 복소수 기여도(Complex contributions, 확률 진폭) 들을 모두 더한 후, 그 '합의 절댓값을 제곱'하여 구한다.

사건이 일어날 수 있는 모든 대안적인 방법(Alternative ways/paths)
입자가 출발점 A에서 도착점 B로 가는 경로는 무한(Infinite)하기에,
각 경로마다 방향이 다른 화살표 형태의 기여도( $e^{iS/\hbar}$ )가 무한히 도출된다.

$e^{iS/\hbar}$ 함수의 그래프
가로축은 실수부( $Real$ ), 세로축은 허수부( $Imaginary$ )인 '복소평면'이다.

원의 반지름(화살표의 길이)은 1로 고정되어 있다. 여기서 화살표가 가리키는 **각도(위상, Phase)**가 바로 앞서 배운 $S/\hbar$ 이고,

경로의 물리적 수치( $S$ )에 따라 이 화살표가 빙글빙글 돌아가며 각기 다른 방향을 가리키게 된다.

$P(Event) = |\text{Contribution}_1 + \text{Contribution}_2 + \dotsb|^2$
2) 시공간에서의 경로: $x(t)$ 와 Sum over Paths

Path $x(t)$ : * $x$ 는 위치(Space), $t$ 는 시간(Time)을 의미하며, $x(t)$ 는 시간에 따라 입자가 시공간(Space-time)을 이동하는 궤적(Trajectory)을 나타낸다.

Sum over Paths (경로의 합): * 입자가 특정 시공간 영역 내에서 어떠한 경로 $x(t)$ 를 가질 확률은, 그 영역 안에 존재하는 모든 가능한 경로(All possible paths) 에서 나오는 기여(Contributions)들을 전부 합친 것의 절댓값 제곱이 된다.

[핵심 심화] 기여도(Contribution)의 정체와 복소수(Complex)의 마법

이 논문의 가장 핵심적인 질문인 "기여도란 무엇이며, 왜 복소수 기여(Complex Contribution)인가?" 그리고 "왜 화살표(벡터)라고 부르는가?" 에 대한 해답이다.

① 기여도(Contribution)의 진짜 이름: 확률 진폭 (Probability Amplitude)

여기서 말하는 '기여도'는 특정 경로가 최종 결과에 미치는 영향을 나타내는 수학적 값으로, 정식 물리학 용어로는 확률 진폭(Probability Amplitude) 이라고 부른다.

양자역학에서는 이 기여도를 단순히 0.2, 0.5 같은 '실수(Real Number)' 형태의 확률로 주지 않고, 크기와 방향을 가진 수학적 벡터 형태로 부여한다.

고전역학에선 A길로 갈 확률 30% B길로 갈 확률 40% 이면 70%인 두개를 더하기만 하면 된다.

② 물리적 화살표가 아닌 '복소평면 위의 벡터 (Complex Vector / Phasor)'

일상에서 말하는 '벡터'는 3차원 공간에서 날아가는 공의 방향 같은 물리적 궤적을 떠올리기 쉽다.

하지만 여기서의 기여도는 실제 공간에서 휘어지는 곡선이 절대 아니다. 실수부와 허수부로 이루어진 추상적인 수학 공간인 Complex Plane 위에 존재하는 Vector이다.

수학적으로 자연상수 $e$ 의 지수에 허수 $i$ 가 붙은 형태( $e^{i\theta}$ )는 복소평면 상에서 길이가 항상 1인 회전하는 화살표(Phasor) 를 뜻한다.

즉, 모든 경로의 기여도 크기(Magnitude)는 무조건 1로 동일하지만, 가리키는 방향(Phase, 위상) 이 경로의 특성에 따라 제각각 다르다.

③ 왜 실수(Real)가 아니라 복소수(Complex) 기여도인가? $\rightarrow$ 간섭(Interference) 현상

실수 기여도(고전역학): 단순히 숫자가 커진다. 입자가 갈 수 있는 길이 많아질수록 확률은 무조건 올라간다.

복소수 기여도(양자역학): 복소수 벡터(화살표)이기 때문에 방향에 따라 서로 더해질 때 마법 같은 일이 일어난다.

보강 간섭 (Constructive Interference)
경로들의 화살표 방향이 같다면,
길이가 길어져 그곳에 입자가 도달할 확률이 폭발적으로 증가한다.

상쇄 간섭 (Destructive Interference)
경로들의 화살표 방향이 정반대라면, 두 화살표를 더했을 때 0이 되어버린다.
즉, 입자가 갈 수 있는 길이 분명히 열려있는데도 불구하고, 복소수 기여도들이 서로를 갉아먹어
입자가 발견될 확률이 0%가 되는
양자역학 특유의 현상을 수학적으로 완벽하게 설명할 수 있게 된다.

3) 화살표의 방향(Phase)을 결정하는 요소: $S$ 와 $\hbar$

각각의 경로가 만들어내는 화살표( $e^{iS/\hbar}$ )의 각도(Phase)는 다음과 같은 물리량에 의해 결정된다.

$S$ (Classical Action, 고전적 작용): * 입자가 특정 경로를 통과하면서 얻는 물리적 수치(적분값). 경로의 모양(속도, 궤적, 시간 등)에 따라 이 Action 값이 달라진다.

$\hbar$ (Reduced Planck Constant, 환산 플랑크 상수): * 양자 세계의 아주 작은 기본 단위 상수.

$S/\hbar$ (Phase, 위상): * 경로의 Action( $S$ )을 기준값( $\hbar$ )으로 나눈 값으로, 이것이 바로 화살표가 돌아간 각도(Phase angle) 가 된다. $\hbar$ 가 워낙 미세한 상수이므로, 경로(Action)가 털끝만큼만 달라져도 화살표의 방향은 매우 격렬하게 돌아간다.

4) 파동함수(Wavefunction) $\psi(x, t)$ 와 중첩(Superposition)
$\psi(x, t) = \sum_{\text{All Paths}} e^{iS/\hbar}$

입자가 출발점 $A$ 에서 도착점 $B$ 로 가는 경로( $Paths(A \rightarrow B$ ))는 무한대( $\infty$ ) 이다.

따라서 각 경로마다 각도(Phase)가 제각각인 무한히 많은 화살표( $e^{iS/\hbar}$ )들이 존재한다.

이 무한한 확률 진폭(Contributions)들을 꼬리에 꼬리를 물고 전부 이어 붙여 벡터의 덧셈으로 더했을 때 (중첩, Superposition), 시작점에서 출발해 최종적으로 도달한 곳을 가리키는 최종 화살표의 벡터합이 바로 양자역학의 상태를 완벽하게 나타내는 파동함수 $\psi(x, t)$ 가 된다.

1. Introduction (서론)

양자역학의 초기 역사와 본 논문이 제안하는 '세 번째 공식화(Third formulation)'의 배경 및 목적을 다룬다.

1) 양자역학의 두 가지 초기 공식화

현대 양자역학은 초창기에 수학적으로 완전히 다르게 생긴 두 가지 방식으로 출발했다.

슈뢰딩거(Schrödinger): 파동 관점의 미분 방정식

하이젠베르크(Heisenberg): 입자 관점의 행렬 역학 (Matrix algebra) 이 두 방식은 겉보기엔 달라 보였으나 수학적으로 완벽히 동일한 결과를 낸다는 것이 증명되었고, 훗날 폴 디랙(Paul Dirac)의 변환 이론(Transformation theory)으로 통합되었다.

2) 세 번째 공식화: 경로적분(Path Integral)의 탄생

본 논문은 비상대론적 양자역학을 설명하는 세 번째 공식화를 제시한다.

디랙의 힌트: 디랙이 언급한 '고전적 작용( $S$ )과 양자역학의 관계'에서 영감을 받았다.

관점의 확장: 특정 시간( $t$ )에 특정 위치( $x$ )에 있을 확률을 구하는 기존 방식에서 벗어나, 입자가 시간에 따라 이동하는 '전체 궤적(Entire motion)' 자체에 확률 진폭(Probability amplitude)을 부여한다.

3) 굳이 새로운 공식을 만든 4가지 이유

이 새로운 공식은 기존 이론(슈뢰딩거, 하이젠베르크)과 수학적으로 완벽히 동일한 결과를 내므로 근본적으로 새로운 결과는 없다. 그럼에도 불구하고 이 접근법을 제안하는 이유는 다음과 같다.

새로운 관점의 즐거움: 이미 아는 진리라도 전혀 새로운 시각으로 바라보는 것은 그 자체로 큰 기쁨(Pleasure)이다.

복잡한 상호작용 시스템의 단순화: 두 시스템 A, B가 상호작용할 때, 새로운 방식을 쓰면 방해되는 시스템 B의 좌표를 수학적으로 소거(Eliminate)하고 A의 수식만 수정하여 훨씬 쉽게 계산할 수 있다.

양자전기역학(QED)으로의 응용: 이러한 장점을 활용해, 양자전기역학 방정식에서 불필요한 장(Field)의 진동자 좌표들을 제거할 수 있다.

미래 물리학을 위한 도약: 이 완전히 새로운 관점이 훗날 꽉 막힌 현대 물리학의 한계를 깨고, 현재의 실험 결과들을 포괄할 수 있는 새로운 이론을 만드는 데 영감(Inspire)을 줄 것이라는 희망 때문이다.

[공부] Transformer Language Model 구조

Fri, 17 Apr 2026 00:00:00 GMT

1. 인공지능이 텍스트를 처리하는 수학적 접근

인공지능 모델은 사람처럼 글자의 형태나 문장의 의미를 직관적으로 이해하지 못한다. 컴퓨터를 구성하는 프로세서는 오직 숫자만을 계산할 수 있는 물리적 장치이다. 따라서 인공지능이 문장을 처리하기 위해서는 가장 먼저 문장을 구성하는 모든 단어를 철저하게 수학적인 숫자의 배열로 변환하는 과정이 필요함.

사용자가 문장을 입력하면, 컴퓨터는 이 문장을 '토큰(Token)'이라는 아주 작은 단위로 쪼갠다. 하나의 토큰은 하나의 단어일 수도 있고, 단어의 일부분일 수도 있다. 컴퓨터는 이렇게 쪼개진 각각의 토큰에 대해 미리 학습된 긴 숫자의 목록을 할당한다. 이 숫자의 목록을 '임베딩(Embedding)' 또는 '벡터(Vector)'라고 부른다. 임베딩은 보통 수백 개에서 수천 개의 소수점 숫자로 이루어져 있으며, 이 숫자들은 해당 단어가 문법적으로 어떤 위치에 있는지, 다른 단어들과 함께 쓰일 때 어떤 패턴을 가지는지를 수학적 좌표로 나타낸 것이다.

그러나 단어 하나를 단순히 고정된 숫자 목록으로 바꾸는 것만으로는 문장 전체의 복잡한 의미를 파악할 수 없습니다. 문장 안에서 단어들은 서로에게 영향을 미치며 그 의미가 계속해서 변하기 때문이다. 컴퓨터가 이러한 단어들 사이의 관계를 파악하기 위해 사용하는 핵심적인 계산 과정이 바로 '어텐션(Attention)' 메커니즘이다.

어텐션 메커니즘은 문장 안의 모든 단어(토큰)들을 동시에 살펴보고, 현재 처리하고 있는 단어가 문장 내의 다른 모든 단어들과 수학적으로 얼마나 강력하게 연결되어 있는지를 '점수(Score)'로 계산하는 과정이다. 이 보고서에서는 초등학생과 중학생을 포함한 초보자들도 직관적으로 이해할 수 있도록, 어텐션 메커니즘을 구성하는 가장 기초적인 다중 헤드 어텐션(MHA)부터 속도를 개선한 다중 쿼리 어텐션(MQA), 그리고 최적의 균형을 찾은 그룹화 쿼리 어텐션(GQA)의 구조와 수학적 차이점을 비유 없이 숫자와 배열, 계산 과정 그 자체의 직관적인 단어만으로 아주 꼼꼼하게 설명한다.

2. 어텐션 연산의 세 가지 핵심 숫자 배열: Q, K, V

어텐션 메커니즘이 단어들 사이의 관계 점수를 계산하기 위해서는, 입력된 단어의 원래 숫자 배열(임베딩)을 그대로 사용하지 않습니다. 대신, 컴퓨터는 각 단어마다 세 가지의 완전히 새로운 숫자 배열을 만들어냅니다. 이 세 가지 숫자 배열을 각각 쿼리(Query, $Q$ ), 키(Key, $K$ ), 밸류(Value, $V$ )라고 부른다. 이 세 가지 배열은 연산 과정에서 각기 다른 독립적인 역할을 수행한다.

2.1 쿼리(Query, $Q$ ) 숫자 배열의 의미와 역할

수학 기호 $Q$ 로 표기되는 쿼리는, '현재 컴퓨터가 관계를 파악하고자 하는 기준 단어'가 다른 단어들로부터 어떤 정보를 얻어와야 하는지를 나타내는 숫자 배열이다. 컴퓨터가 문장을 왼쪽에서 오른쪽으로 순서대로 처리할 때, 현재 처리하고 있는 특정한 단어가 존재한다. 이 단어의 $Q$ 숫자 배열 안에는 "나는 지금 문법적인 목적어를 나타내는 숫자를 찾고 있다"라거나 "나는 시간이나 장소를 나타내는 숫자를 찾고 있다"는 목적을 띠는 수학적 값들이 들어 있다. 즉, $Q$ 는 문장 내의 다른 단어들과 곱해지기 위해 준비된 일종의 '탐색용 숫자 목록'이다.

2.2 키(Key, $K$ ) 숫자 배열의 의미와 역할

수학 기호 $K$ 로 표기되는 키는, 문장 안에 있는 각 단어가 '자기 자신이 어떤 문법적 특징과 정보를 가지고 있는지'를 나타내는 숫자 배열이다. $Q$ 가 탐색을 위한 숫자 배열이라면, $K$ 는 그 탐색의 대상이 되는 숫자 배열이다. 어텐션 계산 과정에서 기준 단어의 $Q$ 숫자 배열은 문장 안에 있는 모든 단어들의 $K$ 숫자 배열과 직접 수학적으로 곱해집니다. 곱셈 계산의 결과물이 큰 숫자로 나오면 두 단어의 관련도가 높다는 뜻이고, 작은 숫자나 음수로 나오면 관련도가 낮다는 뜻이다. 따라서 $K$ 는 $Q$ 와 상호작용하여 관련도 점수를 도출해내는 역할을 한다.

2.3 밸류(Value, $V$ ) 숫자 배열의 의미와 역할

수학 기호 $V$ 로 표기되는 밸류는, 해당 단어가 실제로 다음 계산 단계로 넘겨줄 '진짜 알맹이 정보'를 담고 있는 숫자 배열이다. 앞서 $Q$ 와 $K$ 를 곱해서 두 단어 사이의 관련도 점수를 계산한다고 설명했습니다. 이 점수가 계산되고 나면, 컴퓨터는 그 점수(비율)만큼 $V$ 숫자 배열에 들어있는 값들을 곱해서 가져옵니다. 만약 어떤 단어가 기준 단어와 관련도가 매우 높다고 점수가 나오면, 컴퓨터는 해당 단어의 $V$ 숫자 배열에 있는 숫자들을 거의 그대로 복사해서 가져옵니다. 반대로 관련도 점수가 낮으면 $V$ 의 숫자들에 아주 작은 소수를 곱해서 거의 무시할 수 있는 수준의 숫자로 만들어 버립니다. 최종적으로 $Q$ 와 $K$ 는 점수를 계산하는 데 사용되고 소멸하며, $V$ 숫자 배열들만이 점수에 따라 섞여서 다음 단계로 전달됩니다.

3. 기호 $W_q, W_k, W_v$ 의 의미: 숫자 배열을 변환하는 가중치 행렬

컴퓨터는 원래 단어의 숫자 배열(임베딩)을 어떻게 $Q, K, V$ 라는 세 가지 서로 다른 숫자 배열로 나눌 수 있을까요? 이 변환 작업을 수행하는 수학적 도구가 바로 가중치 행렬(Weight Matrix)이며, 수학 기호로는 $W$ 를 사용한다.

3.1 가중치 행렬( $W$ )이란 무엇인가?

가중치 행렬은 수많은 숫자들을 가로와 세로로 반듯하게 줄지어 배치해 놓은 '거대한 숫자 표(Grid)'이다. 인공지능이 대규모 문서를 읽으며 학습(Training)을 진행할 때, 이 표 안에 들어있는 숫자들은 고정되어 있지 않고 끊임없이 변경됩니다. 정답에 가까운 결과를 내기 위해 표 안의 숫자 값들이 스스로 조금씩 커지거나 작아지는 과정을 거치는데, 이를 '학습 가능한 매개변수(Learnable Parameters)'라고 부른다.

어텐션 메커니즘에는 기본적으로 세 가지의 독립적인 가중치 행렬 표가 존재한다:

$W_q$ : 입력된 원래 단어의 숫자를 $Q$ (쿼리) 숫자 배열로 바꾸기 위해 사용되는 숫자 표이다.

$W_k$ : 입력된 원래 단어의 숫자를 $K$ (키) 숫자 배열로 바꾸기 위해 사용되는 숫자 표이다.

$W_v$ : 입력된 원래 단어의 숫자를 $V$ (밸류) 숫자 배열로 바꾸기 위해 사용되는 숫자 표이다.

기호에서 대문자 $W$ 는 숫자들이 표 형태로 모여 있는 행렬(Weight Matrix)임을 의미하고, 아래 첨자인 $q, k, v$ 는 이 표를 통과한 결과물이 각각 쿼리, 키, 밸류가 된다는 것을 구체적으로 지칭한다.

3.2 행렬 변환의 수학적 공식

단어의 초기 입력 숫자 배열을 알파벳 $X$ 라고 부른다. 이 $X$ 를 $Q, K, V$ 로 변환하는 수학 공식은 다음과 같습니다:
$Q = X \cdot W_q$ $K = X \cdot W_k$ $V = X \cdot W_v$
여기서 가운데 점( $\cdot$ )은 '행렬 곱셈(Matrix Multiplication)'을 의미한다. 행렬 곱셈은 $X$ 배열에 있는 숫자들과 $W$ 표에 있는 숫자들을 정해진 순서대로 하나씩 곱하고 그 결과들을 모두 더하여 완전히 새로운 숫자를 만들어내는 매우 복잡한 산술 과정이다.

동일한 원본 단어 $X$ 를 가지고 출발하더라도, 곱해지는 대상인 $W_q, W_k, W_v$ 숫자 표 안에 들어있는 값들이 서로 완전히 다르기 때문에, 계산이 끝난 후 생성되는 $Q, K, V$ 숫자 배열 역시 서로 완전히 다른 값들을 가지게 됩니다. 이 과정을 통해 하나의 단어가 탐색 목적( $Q$ ), 특징 식별( $K$ ), 실제 정보( $V$ )라는 세 가지 수학적 상태로 분리됩니다.

3.3 변환 과정의 구체적인 숫자 계산 예시

위의 곱셈이 실제로 어떻게 이루어지는지 구체적인 숫자를 통해 살펴보겠습니다. 세 개의 단어로 이루어진 문장이 있고, 각 단어( $X$ )는 4개의 숫자로 표현된다고 가정한다.

첫 번째 단어 ( $x_1$ ) = [1, 0, 1, 0]

두 번째 단어 ( $x_2$ ) = [0, 1, 0, 1]

세 번째 단어 ( $x_3$ ) = [1, 1, 0, 0]

이 단어들을 2개의 숫자로 이루어진 쿼리( $Q$ ) 배열로 만들기 위해, $W_q$ 라는 가중치 행렬 표를 준비한다. 이 표는 4줄(행)과 2칸(열)으로 이루어진 숫자들이다.

1번째 줄: [1, 0]

2번째 줄: [0, 1]

3번째 줄: [1, 0]

4번째 줄: [0, 1]

첫 번째 단어 $x_1$ 의 쿼리 점수를 만들기 위해 $x_1 \cdot W_q$ 를 계산한다. 행렬 곱셈의 규칙에 따라 $x_1$ 의 숫자들과 $W_q$ 의 세로줄 숫자를 차례대로 곱해서 더한다.

첫 번째 결괏값: (1 × 1) + (0 × 0) + (1 × 1) + (0 × 0) = 2 * 두 번째 결괏값: (1 × 0) + (0 × 1) + (1 × 0) + (0 × 1) = 0 계산 결과, 원래 [1, 0, 1, 0]이었던 첫 번째 단어의 숫자는 $W_q$ 와의 곱셈을 통해 [2, 0]이라는 쿼리( $Q$ ) 숫자 배열로 새롭게 변환되었습니다. 컴퓨터는 이와 완전히 동일한 덧셈과 곱셈 방식을 $W_k$ 표와 $W_v$ 표에 대해서도 수만 번, 수억 번 반복하여 모든 단어의 $K$ 와 $V$ 배열을 만들어냅니다. 또한 $W_q$ 와 $W_k$ 행렬은 곱셈 과정을 통해 원래 입력된 단어의 숫자 개수(4개)보다 적은 개수(2개)의 숫자로 차원을 줄여주는 역할도 하여, 컴퓨터가 계산해야 할 전체 데이터의 크기를 줄이는 데 도움을 줍니다.

4. 어텐션 점수를 계산하는 수학 공식 단계별 해설

모든 단어에 대해 $Q, K, V$ 숫자 배열이 준비되면, 컴퓨터는 최종적으로 각 단어가 서로 얼마나 연관되어 있는지를 구하는 수학 공식을 실행한다. 이 공식은 다음과 같습니다.
$Attention(Q, K, V) = softmax\left(\frac{Q K^T}{\sqrt{d_k}}\right) V$
이 복잡해 보이는 공식은 실제로는 4개의 순차적인 계산 단계로 나뉘어 있다. 각 단계를 차례대로 분석해 보겠습니다.

4.1 1단계: 내적 (Dot Product, $Q \cdot K^T$ ) 계산

가장 먼저 괄호 안의 위쪽에 있는 $Q \cdot K^T$ 를 계산한다. 이는 쿼리 행렬과 키 행렬을 곱한다는 뜻이다. 여기서 대문자 $T$ 는 '전치(Transpose)'라는 수학 연산을 뜻한다. 전치 연산은 숫자 표의 가로줄을 세로줄로, 세로줄을 가로줄로 모양을 뒤집는 작업이다. 곱셈이 수학적으로 올바르게 맞물려 돌아가게 하기 위해 $K$ 표의 방향을 돌려주는 필수적인 단계이다.

방향을 맞춘 후, 현재 단어의 $Q$ 숫자 배열과 다른 단어의 $K$ 숫자 배열을 서로 곱한다. 이를 '내적'이라고 부른다. 만약 두 숫자 배열의 같은 위치에 있는 숫자들이 비슷하게 크고 양의 부호를 가진다면 곱셈 결과는 아주 큰 양수가 나옵니다. 반대로 숫자들이 서로 반대 부호이거나 한쪽이 0이라면 곱셈 결과는 작아지거나 음수가 됩니다. 따라서 이 계산 결과로 나온 '큰 숫자'는 두 단어가 문법적, 의미적으로 매우 강력하게 연결되어 있다는 최초의 '관련도 원시 점수(Raw Score)'가 됩니다.

4.2 2단계: 스케일링 (Scaling, $\sqrt{d_k}$ 로 나누기)

1단계에서 만들어진 원시 점수들을 그 아래에 있는 $\sqrt{d_k}$ 라는 값으로 나누어 줍니다. 여기서 $d_k$ 는 '키( $K$ ) 숫자 배열 안에 들어있는 숫자의 총 개수'를 의미한다. 만약 $K$ 배열 안에 64개의 숫자가 들어있다면 $d_k$ 는 64이다. 기호 $\sqrt{}$ 는 '제곱근'을 의미한다. 64의 제곱근은 8이다. 따라서 1단계에서 얻은 모든 점수를 숫자 8로 나누어 줍니다.

이 나눗셈을 하는 이유는 수학적 안정성 때문이다. 수많은 숫자를 서로 곱하고 더하는 1단계의 내적 과정을 거치면 원시 점수가 수백, 수천 단위로 비정상적으로 커질 수 있다. 숫자가 지나치게 커지면 다음 단계의 계산에서 컴퓨터가 오류를 일으키거나 한 단어에만 점수가 극단적으로 몰리는 현상이 발생한다. 이를 막기 위해 일정한 비율로 숫자의 크기를 줄여주는 안전장치가 바로 이 스케일링 나눗셈 단계이다.

4.3 3단계: 소프트맥스(Softmax) 함수 적용

숫자의 크기를 줄인 후, 소프트맥스(Softmax)라는 특별한 수학 공식을 적용한다. 소프트맥스 함수는 음수, 양수, 0 등 제각각인 숫자들의 목록을 입력받아서, 이 숫자들을 모두 '0보다 크고 1보다 작은 양의 소수'로 변환해 줍니다. 가장 중요한 특징은, 소프트맥스 함수를 통과하여 나온 숫자들을 전부 합치면 반드시 정확히 '1.0'이 된다는 것이다. 1.0은 수학적으로 100%를 의미한다.

즉, 이 과정은 단순한 점수들을 '백분율 확률'로 바꿔주는 역할을 한다. 만약 기준 단어 주변에 A, B, C라는 세 단어가 있다면, 소프트맥스 계산 후 A에는 0.1(10%), B에는 0.2(20%), C에는 0.7(70%)이라는 비율이 할당됩니다. 이렇게 되면 컴퓨터는 "현재 단어를 이해하기 위해서는 전체 정보의 70%를 C 단어에서 가져오고, 20%를 B 단어에서 가져오면 된다"라고 정확한 수치로 판단할 수 있게 됩니다.

4.4 4단계: 밸류( $V$ ) 배열 곱하기

마지막으로, 3단계에서 구한 백분율 점수들에 각각의 단어가 가지고 있던 $V$ (밸류) 숫자 배열을 곱해줍니다. 앞선 예시에서 C 단어의 비율이 0.7(70%)이므로, C 단어의 $V$ 숫자 배열에 들어있는 모든 숫자에 0.7을 곱한다. B 단어의 $V$ 숫자 배열에는 0.2를 곱하고, A 단어의 $V$ 숫자 배열에는 0.1을 곱한다. 그런 다음, 곱셈이 완료된 숫자 배열들을 전부 하나로 더해줍니다.

이 덧셈의 결과물로 단 하나의 새로운 숫자 배열이 탄생한다. 이 배열 안에는 주변 단어들로부터 얻어낸 핵심 정보들이 관련도 비율에 맞게 정확히 혼합되어 있다. 어텐션 메커니즘 공식의 결과물이자 완성품인 이 최종 숫자 배열은 인공지능 모델의 다음 계산 단계로 넘어가게 됩니다.

5. 다중 헤드 어텐션(MHA): 다양한 시각으로 문장 분석하기

앞서 설명한 기본적인 수학적 과정을 단 한 번만 수행하는 구조를 단일 헤드 어텐션(Single-Head Attention)이라고 부른다. 그러나 이 방식에는 치명적인 약점이 있다. 하나의 단어는 문장 속에서 동시에 여러 가지 역할을 수행할 수 있다. 예를 들어 어떤 단어는 앞 단어와는 주어-동사 관계를 가지면서 동시에 뒤 단어와는 시간적 순서 관계를 가질 수 있다. 단 한 번의 점수 계산만으로는 이처럼 복잡하고 다양한 관계를 동시에 모두 찾아내는 것이 수학적으로 불가능한다. 이 문제를 해결하기 위해 고안된 가장 표준적인 구조가 바로 '다중 헤드 어텐션(Multi-Head Attention, MHA)'이다.

5.1 다중 헤드 어텐션의 병렬 계산 구조

MHA는 앞서 설명한 $Q, K, V$ 변환과 어텐션 공식을 한 번이 아니라 '동시에 여러 번(병렬로)' 계산하는 구조이다. 이 독립적인 계산 과정 하나하나를 '헤드(Head)'라고 부른다.

만약 인공지능 모델이 32개의 헤드를 사용하도록 설계되었다면, 컴퓨터 내부에는 $W_q$ 표 32개, $W_k$ 표 32개, $W_v$ 표 32개가 각각 완전히 독립적으로 존재하게 됩니다. 첫 번째 헤드의 $W$ 표들은 주어와 목적어의 관계를 찾는 데 특화되도록 숫자들이 맞춰지고, 두 번째 헤드의 $W$ 표들은 감정적인 관계를 찾는 데 특화되도록 맞춰지는 방식이다.

32개의 헤드 각각은 자신이 담당한 고유의 $Q, K, V$ 배열을 만들고 내적, 스케일링, 소프트맥스 연산을 독립적으로 수행한다. 모든 계산이 끝나면 32개의 최종 숫자 배열 결과물이 생성됩니다. 컴퓨터는 이 32개의 짧은 숫자 배열들을 일렬로 길게 이어 붙여(Concatenation) 하나의 거대한 숫자 배열로 만듭니다. 이 거대한 숫자 배열은 한 번 더 가중치 행렬과 곱해져 최종적인 결괏값으로 압축됩니다. MHA는 문장의 다각적인 특징을 동시에 잡아내기 때문에 최고 수준의 높은 품질과 정확도를 보장한다.

5.2 MHA의 치명적 한계: 메모리 대역폭(Memory Bandwidth) 병목 현상

MHA 구조는 문맥의 복잡한 뉘앙스를 파악하는 데는 탁월하지만, 인공지능이 텍스트를 생성하여 사용자에게 답변을 출력하는 '추론(Inference)' 과정에서 심각한 하드웨어적 문제, 즉 '메모리 대역폭 병목 현상'을 발생시킵니다.

인공지능은 문장을 한 번에 뱉어내지 않고, 한 번에 한 토큰(단어)씩 순서대로 만들어냅니다. 열 번째 단어를 생성하기 위해서는 앞서 만들어진 아홉 개의 단어들이 가지고 있는 $K$ 와 $V$ 숫자 배열 정보가 반드시 필요함. 단어를 하나 생성할 때마다 과거 단어들의 $K$ 와 $V$ 를 처음부터 다시 계산하는 것은 비효율적이므로, 컴퓨터는 생성된 단어들의 $K, V$ 숫자 배열들을 컴퓨터의 저장 장치인 메모리에 임시로 차곡차곡 보관해 둡니다. 이 보관 장소를 'KV 캐시(Key-Value Cache)'라고 부른다.

문제는 MHA 구조에서는 단어 하나당 헤드의 개수만큼 $K$ 와 $V$ 가 무더기로 만들어진다는 점이다. 32개의 헤드가 있다면, 방금 생성된 단어 하나에 대해서만 32개의 $K$ 숫자 배열과 32개의 $V$ 숫자 배열이 생겨나서 KV 캐시에 저장됩니다.

컴퓨터의 프로세서(연산 장치)가 다음 단어를 계산하려면, 메모리에 보관된 과거의 모든 숫자를 프로세서 내부로 끌어와야 한다. '메모리 대역폭'이란 한 번에 메모리에서 프로세서로 옮길 수 있는 데이터의 물리적인 최대 한계량을 뜻한다. MHA에서는 단어가 길어질수록 KV 캐시의 크기가 눈덩이처럼 거대해져서, 숫자를 옮기는 양이 대역폭의 한계를 넘어버립니다. 결국 프로세서는 산술 계산을 1초 만에 끝낼 수 있음에도 불구하고, 메모리에서 엄청난 양의 $K, V$ 숫자 덩어리들이 도착할 때까지 아무것도 하지 못하고 대기해야 한다. 이로 인해 응답 속도가 치명적으로 느려지며, 대규모 서비스에서는 하드웨어 비용이 기하급수적으로 증가하게 됩니다.

6. 다중 쿼리 어텐션(MQA): 속도 극대화와 메모리 다이어트 구조

MHA가 유발하는 거대한 KV 캐시 용량과 메모리 대역폭 초과 문제를 해결하기 위해 컴퓨터 공학자들이 새롭게 고안한 극단적인 구조가 바로 '다중 쿼리 어텐션(Multi-Query Attention, MQA)'이다. MQA의 유일한 목적은 KV 캐시에 저장해야 할 숫자의 양을 획기적으로 줄여 컴퓨터의 연산 대기 시간을 없애는 것이다.

6.1 MQA의 구조: 키( $K$ )와 밸류( $V$ )의 단일화 및 공유

MHA 구조에서는 32개의 쿼리( $Q$ ) 헤드가 있다면, 이에 대응하여 32개의 독립적인 키( $K$ ) 헤드와 32개의 독립적인 밸류( $V$ ) 헤드가 존재했습니다. 반면 MQA 구조에서는 32개의 쿼리( $Q$ ) 헤드는 그대로 유지하지만, 키( $K$ ) 헤드와 밸류( $V$ ) 헤드의 개수를 강제로 단 1개로 줄여버립니다. 즉, 32개의 완전히 다른 탐색 목적을 가진 $Q$ 헤드들이 점수 계산을 할 때, 오직 1개의 동일한 $K$ 숫자 배열과 1개의 동일한 $V$ 숫자 배열을 모든 $Q$ 헤드가 '공유(Share)'하여 계산에 사용하는 방식이다.

수학적 연산 과정(내적 단계)에서, 첫 번째 $Q$ 숫자 배열은 이 유일한 $K$ 배열과 곱셈을 한다. 두 번째 $Q$ 숫자 배열 역시 동일한 $K$ 배열과 곱셈을 하고, 32번째 $Q$ 숫자 배열도 완전히 똑같은 $K$ 배열과 곱셈을 수행한다.

6.2 KV 캐시 축소가 가져오는 속도 향상

이렇게 $K$ 와 $V$ 를 하나로 통일하여 공유하면, KV 캐시 공간에 보관해야 하는 숫자의 양이 극적으로 감소한다. 헤드가 32개인 모델을 기준으로 할 때, MHA에 비해 보관해야 할 숫자의 크기가 32분의 1로 줄어드는 엄청난 절약 효과가 발생한다.

저장된 숫자의 덩어리가 매우 작기 때문에, 컴퓨터는 메모리에서 프로세서로 이 숫자들을 즉각적으로 이동시킬 수 있다. 데이터 이동이 메모리 대역폭의 한계에 부딪히지 않으므로 대기 시간이 사라지고, 프로세서의 연산 능력을 100% 활용하여 글자를 엄청나게 빠른 속도로 생성해냅니다. 또한 차지하는 메모리 공간이 작아진 덕분에 동시에 더 많은 사용자의 질문을 한 번에 모아서 처리(배치 크기 증가)할 수 있어 대규모 서비스에 매우 유리하다. 그 결과 MQA는 가장 처리 속도가 빠른 구조로 평가받습니다.

6.3 속도를 얻기 위해 지불하는 대가: 품질 저하 현상

그러나 MQA는 메모리 이동 속도 문제를 완벽히 해결한 대신, 생성해 내는 글의 품질이 떨어지고 모델을 학습시키는 과정이 매우 불안정해지는 치명적인 부작용을 동반한다.

여러 개의 $Q$ 헤드를 만드는 이유는 다각적이고 복잡한 문맥을 탐색하기 위함이다. 그러나 MQA에서는 32가지의 각기 다른 질문( $Q$ )을 던짐에도 불구하고, 오직 단 1개의 $K$ 숫자 배열과 단 1개의 $V$ 숫자 배열 안에서만 해답을 찾아야 한다. 수학적으로 단 1개의 숫자 배열 안에 한 단어가 가지는 모든 복잡한 뉘앙스와 특성을 뭉개지지 않게 담아내는 것은 불가능한다.

결국 $K$ 와 $V$ 의 다양성이 제한되기 때문에 계산되는 어텐션 점수도 획일화되며, 미묘한 문법적 차이나 긴 문맥에서의 앞뒤 관계를 제대로 포착하지 못하게 됩니다. 이로 인해 MQA 모델은 생성해 내는 문장의 정확도가 떨어지고 인공지능의 사고력(용량)이 하락하는 결과를 초래한다.

7. 그룹화 쿼리 어텐션(GQA): 구조적 타협을 통한 수학적 최적화

MHA는 품질이 최고지만 메모리를 너무 많이 소모하고 너무 느리다는 극단적인 단점이 있다. 반대로 MQA는 속도가 최고지만 품질이 떨어진다는 극단적인 단점이 있다. 컴퓨터 공학자들은 이 두 가지 극단적인 구조의 장점만을 취합하기 위해, 수학적인 중간 형태(Interpolation)인 '그룹화 쿼리 어텐션(Grouped-Query Attention, GQA)'이라는 혁신적인 구조를 개발했습니다.

7.1 GQA의 작동 원리: 쿼리를 묶어 $K, V$ 공유하기

GQA 구조는 $K$ 와 $V$ 헤드의 개수를 1개(MQA)로 줄이지도 않고, 전체 $Q$ 헤드의 개수(MHA)만큼 다 만들지도 않습니다. 대신 그 사이의 적절한 중간 개수를 설정하고, $Q$ 헤드들을 여러 개의 '그룹(Group)'으로 나누어 관리한다.

구체적인 계산 과정은 다음과 같습니다:

초기 변환(Projection): 이전과 마찬가지로 원래 단어의 숫자들을 곱셈하여 여러 개의 $Q, K, V$ 헤드 배열로 만듭니다.

그룹 분할(Grouping of Queries): 전체 $Q$ 헤드들을 일정한 숫자의 묶음(그룹)으로 정갈하게 나눕니다.

헤드 할당(Grouped Key/Value): 나누어진 각각의 그룹에 정확히 1쌍의 $K$ 헤드와 $V$ 헤드를 배정한다.

그룹 내부 연산(Within-Group Attention): 각 그룹에 속한 $Q$ 헤드들은 다른 그룹의 $K, V$ 는 쳐다보지 않고, 오직 자신들이 속한 그룹에 배정된 1개의 $K, V$ 숫자 배열만을 공유하여 곱셈 연산과 소프트맥스 점수 계산을 진행한다.

결과 연결(Concatenation): 모든 그룹에서의 계산이 개별적으로 끝나면, 그 결과물 숫자 배열들을 하나의 긴 선으로 이어 붙여 최종 결과물을 만들어냅니다.

7.2 그룹을 나누는 수학적 규칙과 구조적 확장성

GQA 모델이 구체적으로 몇 개의 헤드를 공유할지는 수학적 나눗셈 공식으로 결정됩니다.

전체 쿼리( $Q$ ) 헤드의 총 개수를 수학 기호 $H$ 라고 부른다.

쪼개려는 그룹의 총 개수를 수학 기호 $G$ 라고 부른다.

각 그룹 안에 몇 개의 $Q$ 헤드가 들어갈지는 아주 간단하게 전체 쿼리 개수( $H$ )를 그룹 개수( $G$ )로 나누면 됩니다 ( $\frac{H}{G}$ ). 예를 들어, 전체 쿼리 헤드가 32개( $H=32$ )이고 그룹을 8개( $G=8$ )로 설정했다면, 하나의 그룹 안에는 정확히 4개의 $Q$ 헤드가 들어갑니다. 따라서 이 4개의 쿼리 헤드가 1쌍의 $K, V$ 헤드를 수학적으로 공유하여 함께 계산을 수행한다.

이 공식( $\frac{H}{G}$ )은 매우 특별한 성질을 가집니다. $G$ 에 어떤 숫자를 넣느냐에 따라 앞서 설명한 MHA와 MQA의 형태로 완벽하게 변형될 수 있기 때문이다.

$G = 1$ 인 경우: 전체 $Q$ 헤드를 오직 1개의 덩어리로 묶는다는 뜻이다. 즉 32개의 쿼리가 전부 같은 그룹에 들어가 단 1쌍의 $K, V$ 를 공유하므로, 이는 다중 쿼리 어텐션(MQA) 구조와 완벽하게 100% 동일해집니다.

$G = H$ 인 경우: 쿼리의 총 개수(32개)만큼 그룹(32개)을 만든다는 뜻이다. 즉 1개의 그룹 안에 1개의 쿼리만 들어가게 되므로, 각 쿼리마다 자신만의 독립적인 $K, V$ 를 가지게 됩니다. 이는 다중 헤드 어텐션(MHA) 구조와 완벽하게 100% 동일해집니다.

GQA는 이처럼 1과 전체 숫자 사이의 중간값( $G=8$ 등)을 채택함으로써, 두 극단적인 구조의 장점을 취하는 중도적인 형태를 완성한다.

7.3 GQA가 메모리와 품질의 균형을 잡는 원리

GQA 구조의 가장 강력한 장점은, 높은 메모리 대역폭을 요구하지 않으면서도 MHA가 생성하는 고품질의 텍스트와 거의 비슷한 수준의 정교한 결과물을 만들어낸다는 점이다.

단 1쌍의 $K, V$ 만 가지던 MQA와 달리, GQA(예: 그룹이 8개인 경우)는 서로 다른 8개의 $K, V$ 숫자 배열을 보유하고 있다. 이 8개의 배열은 문장의 각기 다른 뉘앙스(문법, 감정, 시제 등)를 나누어 담기에 충분한 수학적 다양성을 제공한다. 따라서 MQA에서 발생하던 품질 하락 현상이 거의 관찰되지 않습니다.

동시에 전체 $K, V$ 의 개수를 32개(MHA)에서 8개(GQA)로 과감하게 줄였기 때문에, KV 캐시에 저장해야 할 숫자의 덩어리 크기가 MHA 대비 4분의 1로 대폭 축소됩니다. 이 정도 크기는 프로세서로 숫자를 실어 나르는 메모리 대역폭의 물리적 한계를 넘지 않기 때문에 병목 현상이 발생하지 않습니다. 따라서 프로세서가 연산을 기다릴 필요가 없어 응답 속도는 속도 특화 구조인 MQA와 거의 비슷한 수준으로 매우 빠르게 유지됩니다.

7.4 업트레이닝(Uptraining): 기존 MHA 모델을 GQA 모델로 개조하는 방법

GQA 구조의 우수성이 입증되자, 컴퓨터 공학자들은 이미 막대한 비용과 전력을 들여 학습시켜 놓은 기존의 MHA 구조 인공지능들을 버리지 않고 GQA 구조로 저렴하게 개조하는 기술을 개발했습니다. 이 개조 및 재학습 과정을 '업트레이닝(Uptraining)'이라고 부른다.

기존 32개의 헤드를 가진 MHA를 8개의 그룹을 가진 GQA로 변환하기 위해, 컴퓨터는 MHA가 가지고 있던 기존 32개의 $K$ 가중치 행렬 표 숫자들을 무작위로 지우지 않습니다. 대신, 한 그룹에 할당될 4개의 $K$ 행렬 숫자들을 하나로 합친 뒤 평균(평균값 내기, Mean-pooling)을 구하는 수학적 계산을 수행한다. 즉, 기존 4개의 배열이 나누어 가지고 있던 특징 정보를 하나의 숫자 배열에 고르게 압축하여 평균값 형태로 욱여넣어 단일한 공유 $K$ 배열을 만드는 것이다. $V$ 가중치 행렬 표도 똑같이 평균값을 구하여 변환한다.

이러한 평균화 계산을 마치고 나면 모델 구조가 GQA로 변경되지만, 숫자들을 강제로 평균 냈기 때문에 일시적으로 인공지능의 성능이 불안정해집니다. 이를 바로잡기 위해 아주 짧은 기간 동안 추가로 모델을 학습시킵니다. 이 추가 학습에 들어가는 연산 비용은 처음 모델을 바닥부터 만들 때 썼던 전체 비용의 단 5%밖에 되지 않습니다. 이 5%의 비용만으로도 숫자들이 새로운 공유 구조에 완벽하게 적응하며 자리를 잡게 됩니다. 특히 처음부터 바닥에서 시작한 MQA 모델들은 학습 과정에서 심한 오류(손실 값 폭등)를 겪으며 붕괴하는 현상이 잦았으나, 이 업트레이닝 기법을 적용한 GQA 모델들은 그러한 불안정성 없이 매우 안정적으로 고성능을 도출한다는 것이 실험으로 증명되었습니다.

8. MHA, MQA, GQA의 종합 비교 분석

이상의 수학적 원리와 구조적 특징을 한눈에 명확하게 비교하기 위해 세 가지 어텐션 메커니즘을 종합적으로 대조해 보겠습니다.

8.1 필요 숫자 행렬 개수 비교 (구조적 차이)

아래 표는 총 쿼리( $Q$ ) 헤드 개수가 32개로 고정된 인공지능 모델에서 각 메커니즘을 적용했을 때, 계산에 필요한 전체 독립적인 행렬(숫자 표)의 개수가 어떻게 달라지는지를 보여줍니다. 이 행렬의 개수 총합이 적을수록 메모리를 덜 차지하는 구조임을 직관적으로 알 수 있다.

어텐션 메커니즘 구조 쿼리(Q) 헤드 개수 키(K) 헤드 개수 밸류(V) 헤드 개수 단일 처리 층에서의 행렬 총합
다중 헤드 어텐션 (MHA) 32개 32개 32개 총 96개의 독립 행렬 사용
다중 쿼리 어텐션 (MQA) 32개 단 1개 (공유) 단 1개 (공유) 총 34개의 독립 행렬 사용
그룹화 쿼리 어텐션 (GQA-8) 32개 8개 (그룹 공유) 8개 (그룹 공유) 총 48개의 독립 행렬 사용

참고사항: GQA-8은 전체 헤드를 8개의 그룹으로 나누었다는 것을 의미하며, 하나의 그룹당 4개의 쿼리 헤드가 배치되어 연산을 진행하는 설정이다.

8.2 컴퓨터 성능 및 작동 효율성에 미치는 영향 비교

위의 행렬 구조 차이는 인공지능이 동작할 때 컴퓨터 메모리 시스템과 품질에 다음과 같은 직접적인 결과를 초래한다.

다중 헤드 어텐션 (MHA): * KV 캐시 메모리 소모량: 극도로 높습니다. 단어 하나당 수많은 숫자를 보관해야 한다.

응답 속도 제약 요소: 메모리 대역폭의 한계(포화 상태)에 부딪힙니다. 엄청난 양의 $K, V$ 숫자 덩어리들을 메모리 창고에서 꺼내오느라 시간이 오래 걸려 답변 출력 속도가 가장 느립니다.

결과물의 품질 수준: 가장 뛰어납니다. 각각 독립된 32개의 시선이 단어 사이의 모든 미세한 문법적, 논리적 관계를 놓치지 않고 완벽하게 수학적으로 계산해냅니다.

다중 쿼리 어텐션 (MQA): * KV 캐시 메모리 소모량: 매우 적습니다. 단 1쌍만 저장하면 됩니다.

응답 속도 제약 요소: 숫자 덩어리가 매우 가벼워 메모리 대역폭의 병목 현상이 발생하지 않습니다. 숫자가 즉시즉시 이동하므로 프로세서가 쉴 틈 없이 돌아가 속도가 최고로 빠릅니다.

결과물의 품질 수준: 눈에 띄게 하락한다. 서로 다른 32가지의 목적을 가진 쿼리들이 오직 한 가지 종류의 $K, V$ 안에서만 해답을 찾아야 하므로 억지스러운 수학적 결론이 도출되어 문장 관계 파악 능력이 둔화됩니다.

그룹화 쿼리 어텐션 (GQA): * KV 캐시 메모리 소모량: 중간 수준으로 균형 잡혀 있다 (그룹 개수 조정으로 세밀한 통제 가능).

응답 속도 제약 요소: $K, V$ 덩어리를 8개 수준으로 통제했기 때문에 메모리 대역폭 한계선 아래로 데이터 이동량을 줄여냈습니다. 그 결과 연산 대기 시간이 최소화되어 MQA에 버금가는 빠른 속도를 냅니다.

결과물의 품질 수준: 우수하다. 각기 다른 특징을 가지는 8쌍의 $K, V$ 배열 덕분에 MQA와 같은 정보의 심각한 뭉개짐이 없으며, MHA 구조 모델과 비교했을 때 질적으로 큰 차이가 나지 않는 안정적인 답변을 산출한다.

8.3 실제 산업 환경에서의 적용 및 평가 실험 결과

이러한 수학적 이론은 최신 인공지능 모델들의 실제 성능 평가에서 명백하게 증명되었습니다.

문장의 길이가 짧고 사용자의 질문이 드물게 들어오는 가벼운 작업 환경에서는 MHA 구조를 가진 모델도 무리 없이 작동한다. 그러나 한 번에 입력해야 할 텍스트가 아주 길거나 수천 명의 사용자가 동시에 질문을 던지는 고강도 작업(Heavy Workloads)이 주어질 때 MHA의 메모리 병목 현상이라는 한계는 결정적으로 드러납니다.

전문가들이 과거 세대의 대표적 MHA 기반 모델인 Llama 2(라마 2)와 최신 GQA 기반 모델인 Mistral(미스트랄)에 동시에 엄청난 부하를 거는 실험을 진행했습니다. 실험 결과, 부하가 커지자 막대한 KV 캐시 메모리를 메모리 대역폭을 통해 퍼 나르지 못한 MHA 기반의 Llama 2 모델은 결국 정해진 시간 안에 답변 문장을 생성해내는 데 실패하며 마비되었습니다. 반면, KV 캐시 공간을 절약하여 대역폭의 여유 공간을 확보한 GQA 기반의 Mistral 모델은 과부하 상태에서도 하드웨어적 한계를 회피하며 지속적이고 원활하게 고품질의 텍스트 토큰을 안정적으로 출력해 냈습니다.

이러한 명확한 성능 차이와 5% 계산 비용만 들어가는 손쉬운 업트레이닝 기술 덕분에, 그룹화 쿼리 어텐션(GQA)은 Llama 2 70B(대형 버전), Mistral 7B 등 현재 산업계를 주도하는 핵심적인 기초(Foundation) 인공지능 모델들의 표준 수학적 아키텍처로 완전히 자리 잡았습니다. 기술 운용을 위한 최적의 표준 지침(Best Practices)에 따르면 대부분의 범용 모델 제작 시 8개의 그룹을 사용하는 GQA-8 구성을 기본값으로 선택하여 품질 손실 없이 메모리 4배 절약 효과를 얻는 것이 권장됩니다. MHA 구조는 오직 컴퓨터 성능의 한계가 없고 오직 최고 수준의 정확도만이 요구되는 아주 작은 규모의 특수 연구 환경에서만 예외적으로 활용되며, 반대로 MQA 구조는 메모리가 40GB 이하로 극도로 부족하거나 16,000자 이상의 초장문 글을 초고속으로 처리해야만 하는 매우 특수한 제한 환경에서만 제한적으로 검토되는 구조로 각자의 역할이 명확하게 구분되었습니다.

[일상] 봄, 그리고 새 시작

Tue, 14 Apr 2026 00:00:00 GMT

벚꽃이 피기 시작하는 계절에 개인 홈페이지도 새로 시작합니다.

요즘 연구실에서 GPU 프로그래밍 프로젝트를 진행 중인데, 코드를 짜다 보면 시간 가는 줄 모릅니다.
CUDA 커널이 처음 예상대로 동작할 때의 그 쾌감이... 아직도 짜릿해요 😄

블로그를 꾸준히 쓰는 게 목표인데, 공부 기록뿐 아니라 이런 가벼운 일상 이야기도 남겨두려 합니다.

오늘은 커피 한 잔 하면서 사이트 세팅을 마무리했습니다.
봄처럼 좋은 하루였어요.

[잡도리] 개인 홈페이지를 Docusaurus로 새로 만들었습니다

Tue, 14 Apr 2026 00:00:00 GMT

드디어 개인 홈페이지를 제대로 꾸렸습니다. 그동안 GitHub Profile README로만 유지하던 걸, Docusaurus 기반의 정적 사이트로 이전했어요.

왜 Docusaurus인가

Markdown 우선: 블로그 글을 .md 파일로 관리하면 충분합니다.

React 확장: 논문, 프로젝트, 챗봇 같은 커스텀 페이지는 React 컴포넌트로 자유롭게 만들 수 있어요.

GitHub Pages 배포: gh-pages 브랜치 push 한 번으로 배포가 완료됩니다.

다크모드 기본 지원: 따로 구현 안 해도 됩니다 😄

이 사이트의 구성

섹션 내용
홈 소개, 기술 스택, 연락처
블로그 공부 / 잡도리 / 일상 / 리뷰 / 뉴스
논문 작성한 논문 아카이브
프로젝트 GitHub 저장소 & 릴리즈 쇼케이스
챗봇 나에 대한 AI Q&A 챗봇 (예정)

앞으로 할 것들

챗봇 실제 배포 & 연결

논문/프로젝트 데이터 채우기

블로그 꾸준히 쓰기 (가장 어려운 부분...)

부담 없이 기록하는 공간으로 쓰려고 합니다. 자주 들러주세요!

[뉴스] AI/HPC 주간 클리핑 — 2026.04.14

Tue, 14 Apr 2026 00:00:00 GMT

관심 분야(딥러닝 추론, GPU 아키텍처, HPC)에서 이번 주 눈에 띄는 소식들을 정리합니다.

이번 주 주요 소식

1. NVIDIA Blackwell 2세대 추론 벤치마크 공개

차세대 Blackwell 아키텍처의 FP8 추론 처리량이 H100 대비 최대 4× 향상됐다는 벤치마크 결과가 공개됐습니다.
특히 LLM 디코딩 단계에서의 메모리 대역폭 효율이 크게 개선된 것이 주목됩니다.

2. FlashAttention-3 논문 arXiv 공개

Flash Attention 시리즈의 세 번째 논문이 공개됐습니다.
Hopper 아키텍처(H100)의 **Tensor Memory Accelerator(TMA)**와 비동기 파이프라인을 활용해 Attention 커널 효율을 높였습니다.

3. PyTorch 2.7 릴리즈

torch.compile의 안정성 개선과 함께 CUDA Graph 자동화 기능이 강화됐습니다.

개인적으로 정리한 내용이라 오류가 있을 수 있습니다. 원본 소스를 꼭 확인하세요!

[리뷰] 책 『CUDA by Example』 — GPU 입문에 가장 좋은 책

Tue, 14 Apr 2026 00:00:00 GMT

CUDA 프로그래밍을 처음 배울 때 가장 많은 도움을 받은 책을 소개합니다.

책 정보

제목: CUDA by Example: An Introduction to General-Purpose GPU Programming

저자: Jason Sanders, Edward Kandrot

출판: Addison-Wesley Professional (2010)

난이도: ⭐⭐☆☆☆ (입문)

왜 좋은가

예제 중심 구성

이론 설명보다 실제 동작하는 코드를 먼저 보여주고 설명하는 방식이라 직관적입니다.
커널 작성 → 메모리 관리 → 텍스처/상수 메모리 → 스트리밍 순으로 자연스럽게 발전합니다.

다루는 핵심 개념

챕터 주제
3 기본 커널 작성 & 실행
4 병렬 Reduction
5 스레드 협력 & Shared Memory
9 원자적 연산(Atomics)
10 CUDA 스트림

아쉬운 점

2010년 책이라 최신 아키텍처(Volta/Ampere/Hopper) 내용이 없습니다.

Warp-level 프리미티브(__shfl_sync 등)는 NVIDIA 공식 Programming Guide를 별도로 봐야 합니다.

추천 대상

C를 알고 CUDA를 처음 시작하는 분에게 강력히 추천합니다.
진지한 최적화는 이후 Programming Guide와 GTC 발표 자료를 참고하면 됩니다.

총점: 4 / 5 ⭐⭐⭐⭐☆

[공부] CUDA 커널 최적화 — 메모리 접근 패턴 정리

Tue, 14 Apr 2026 00:00:00 GMT

딥러닝 추론 최적화를 공부하면서 CUDA 커널 작성 시 메모리 접근 패턴이 성능에 얼마나 영향을 주는지 정리해봤습니다.

핵심 개념

Coalesced Memory Access

GPU 글로벌 메모리는 워프(warp) 내 스레드들이 연속된 주소에 접근할 때 하나의 트랜잭션으로 묶어 처리합니다.
비연속 접근(Strided Access)은 트랜잭션 수가 늘어나 대역폭 효율이 급격히 떨어집니다.

Shared Memory 활용

L1 캐시와 물리적으로 같은 온칩 SRAM인 Shared Memory를 타일(tile) 단위로 미리 적재하면 글로벌 메모리 접근 횟수를 대폭 줄일 수 있습니다.

__global__ void matmul_tiled(float *A, float *B, float *C, int N) { __shared__ float sA[TILE][TILE]; __shared__ float sB[TILE][TILE]; // ... }

오늘의 실험 결과

구현 방식 처리량 (GFLOPS)
Naive (글로벌) 42
Coalesced 198
+ Shared Memory 573

Shared Memory 타일링만 적용해도 약 13.6× 성능 향상을 확인했습니다.

다음 목표

Bank conflict 분석 및 패딩 전략

__ldg() read-only cache 활용

Warp divergence 최소화 패턴

어텐션 메커니즘 구조	쿼리(Q) 헤드 개수	키(K) 헤드 개수	밸류(V) 헤드 개수	단일 처리 층에서의 행렬 총합
다중 헤드 어텐션 (MHA)	32개	32개	32개	총 96개의 독립 행렬 사용
다중 쿼리 어텐션 (MQA)	32개	단 1개 (공유)	단 1개 (공유)	총 34개의 독립 행렬 사용
그룹화 쿼리 어텐션 (GQA-8)	32개	8개 (그룹 공유)	8개 (그룹 공유)	총 48개의 독립 행렬 사용

섹션	내용
홈	소개, 기술 스택, 연락처
블로그	공부 / 잡도리 / 일상 / 리뷰 / 뉴스
논문	작성한 논문 아카이브
프로젝트	GitHub 저장소 & 릴리즈 쇼케이스
챗봇	나에 대한 AI Q&A 챗봇 (예정)

챕터	주제
3	기본 커널 작성 & 실행
4	병렬 Reduction
5	스레드 협력 & Shared Memory
9	원자적 연산(Atomics)
10	CUDA 스트림

hwkim-dev Blog

[프로젝트] llm-lite — Gemma 3N E4B 경량 추론 엔진

타겟 하드웨어​

아키텍처 요약​

최근 업데이트​

관련 링크​

[논문] Attention Is All You Need

1. Transformer의 등장 배경​

2. Model Architecture​

2.1 Encoder​

2.2 Decoder​

3. Attention 메커니즘​

3.1 Scaled Dot-Product Attention​

3.2 Multi-Head Attention​

4. Position-wise Feed-Forward Network​

5. Positional Encoding​

[논문] Gemma 3 4B 내부 처리 과정

Phase 1: 모델이 알아들을 수 있게 준비하기​

Phase 2: 진짜 생각하기 (Transformer Block 40번 반복)​

Phase 3: 대답 내놓기​

Phase 4: 무한 반복 (Autoregressive)​

[논문] GPT-1 핵심 정리

1. 언어 모델의 핵심 기초 개념​

1) Context Window​

2) Maximize Likelihood (최대 우도 추정)​

2. GPT의 뼈대: 트랜스포머 디코더 (Transformer Decoder)​

3. GPT-1의 2단계 학습 파이프라인​

1단계: Unsupervised Pre-training (비지도 사전 학습)​

2단계: Supervised Fine-tuning (지도 미세 조정)​

label(정답) 예측 확률

미세 조정(Fine-Tuning) 목적 함수

왜 굳이 끝난 L1L_1L1​ 을 다시 가져와서 더했을까?

4. Task-aware input transformations (작업 인식 입력 변환)​

1) 특수 token의 역할​

2) 객관식 문제 (Multiple Choice) 처리 메커니즘​

5. 수학적 처리와 오차 계산 (학습의 완성)​

1) Softmax (소프트맥스 함수)​

2) One-hot Encoding (원-핫 인코딩)​

3) Cross-Entropy Loss (크로스 엔트로피 오차)​

[논문] Space-Time Approach to Non-Relativistic Quantum Mechanics

1. Abstract: 양자역학의 새로운 공식화 (Path Integral Formulation)​

1) 확률(Probability)​

2) 시공간에서의 경로: x(t)x(t)x(t) 와 Sum over Paths​

[핵심 심화] 기여도(Contribution)의 정체와 복소수(Complex)의 마법​

3) 화살표의 방향(Phase)을 결정하는 요소: SSS 와 ℏ\hbarℏ​

4) 파동함수(Wavefunction) ψ(x,t)\psi(x, t)ψ(x,t) 와 중첩(Superposition)​

1. Introduction (서론)​

1) 양자역학의 두 가지 초기 공식화​

2) 세 번째 공식화: 경로적분(Path Integral)의 탄생​

3) 굳이 새로운 공식을 만든 4가지 이유​

[공부] Transformer Language Model 구조

1. 인공지능이 텍스트를 처리하는 수학적 접근​

2. 어텐션 연산의 세 가지 핵심 숫자 배열: Q, K, V​

2.1 쿼리(Query, QQQ ) 숫자 배열의 의미와 역할​

2.2 키(Key, KKK ) 숫자 배열의 의미와 역할​

2.3 밸류(Value, VVV ) 숫자 배열의 의미와 역할​

3. 기호 Wq,Wk,WvW_q, W_k, W_vWq​,Wk​,Wv​ 의 의미: 숫자 배열을 변환하는 가중치 행렬​

3.1 가중치 행렬( WWW )이란 무엇인가?​

3.2 행렬 변환의 수학적 공식​

3.3 변환 과정의 구체적인 숫자 계산 예시​

4. 어텐션 점수를 계산하는 수학 공식 단계별 해설​

4.1 1단계: 내적 (Dot Product, Q⋅KTQ \cdot K^TQ⋅KT ) 계산​

4.2 2단계: 스케일링 (Scaling, dk\sqrt{d_k}dk​​ 로 나누기)​

4.3 3단계: 소프트맥스(Softmax) 함수 적용​

4.4 4단계: 밸류( VVV ) 배열 곱하기​

5. 다중 헤드 어텐션(MHA): 다양한 시각으로 문장 분석하기​

5.1 다중 헤드 어텐션의 병렬 계산 구조​

5.2 MHA의 치명적 한계: 메모리 대역폭(Memory Bandwidth) 병목 현상​

6. 다중 쿼리 어텐션(MQA): 속도 극대화와 메모리 다이어트 구조​

6.1 MQA의 구조: 키( KKK )와 밸류( VVV )의 단일화 및 공유​

6.2 KV 캐시 축소가 가져오는 속도 향상​

6.3 속도를 얻기 위해 지불하는 대가: 품질 저하 현상​

7. 그룹화 쿼리 어텐션(GQA): 구조적 타협을 통한 수학적 최적화​

7.1 GQA의 작동 원리: 쿼리를 묶어 K,VK, VK,V 공유하기​

7.2 그룹을 나누는 수학적 규칙과 구조적 확장성​

7.3 GQA가 메모리와 품질의 균형을 잡는 원리​

7.4 업트레이닝(Uptraining): 기존 MHA 모델을 GQA 모델로 개조하는 방법​

8. MHA, MQA, GQA의 종합 비교 분석​

8.1 필요 숫자 행렬 개수 비교 (구조적 차이)​

8.2 컴퓨터 성능 및 작동 효율성에 미치는 영향 비교​

타겟 하드웨어

아키텍처 요약

최근 업데이트

관련 링크

1. Transformer의 등장 배경

2. Model Architecture

2.1 Encoder

2.2 Decoder

3. Attention 메커니즘

3.1 Scaled Dot-Product Attention

3.2 Multi-Head Attention

4. Position-wise Feed-Forward Network

5. Positional Encoding

Phase 1: 모델이 알아들을 수 있게 준비하기

Phase 2: 진짜 생각하기 (Transformer Block 40번 반복)

Phase 3: 대답 내놓기

Phase 4: 무한 반복 (Autoregressive)

1. 언어 모델의 핵심 기초 개념

1) Context Window

2) Maximize Likelihood (최대 우도 추정)

2. GPT의 뼈대: 트랜스포머 디코더 (Transformer Decoder)

3. GPT-1의 2단계 학습 파이프라인

1단계: Unsupervised Pre-training (비지도 사전 학습)

2단계: Supervised Fine-tuning (지도 미세 조정)

왜 굳이 끝난 $L_1$ 을 다시 가져와서 더했을까?

4. Task-aware input transformations (작업 인식 입력 변환)

1) 특수 token의 역할

2) 객관식 문제 (Multiple Choice) 처리 메커니즘

5. 수학적 처리와 오차 계산 (학습의 완성)

1) Softmax (소프트맥스 함수)

2) One-hot Encoding (원-핫 인코딩)

3) Cross-Entropy Loss (크로스 엔트로피 오차)

1. Abstract: 양자역학의 새로운 공식화 (Path Integral Formulation)

1) 확률(Probability)

2) 시공간에서의 경로: $x(t)$ 와 Sum over Paths

[핵심 심화] 기여도(Contribution)의 정체와 복소수(Complex)의 마법

3) 화살표의 방향(Phase)을 결정하는 요소: $S$ 와 $\hbar$

4) 파동함수(Wavefunction) $\psi(x, t)$ 와 중첩(Superposition)

1. Introduction (서론)

1) 양자역학의 두 가지 초기 공식화

2) 세 번째 공식화: 경로적분(Path Integral)의 탄생

3) 굳이 새로운 공식을 만든 4가지 이유

1. 인공지능이 텍스트를 처리하는 수학적 접근

2. 어텐션 연산의 세 가지 핵심 숫자 배열: Q, K, V

2.1 쿼리(Query, $Q$ ) 숫자 배열의 의미와 역할

2.2 키(Key, $K$ ) 숫자 배열의 의미와 역할

2.3 밸류(Value, $V$ ) 숫자 배열의 의미와 역할

3. 기호 $W_q, W_k, W_v$ 의 의미: 숫자 배열을 변환하는 가중치 행렬

3.1 가중치 행렬( $W$ )이란 무엇인가?

3.2 행렬 변환의 수학적 공식

3.3 변환 과정의 구체적인 숫자 계산 예시

4. 어텐션 점수를 계산하는 수학 공식 단계별 해설

4.1 1단계: 내적 (Dot Product, $Q \cdot K^T$ ) 계산

4.2 2단계: 스케일링 (Scaling, $\sqrt{d_k}$ 로 나누기)

4.3 3단계: 소프트맥스(Softmax) 함수 적용

4.4 4단계: 밸류( $V$ ) 배열 곱하기

5. 다중 헤드 어텐션(MHA): 다양한 시각으로 문장 분석하기

5.1 다중 헤드 어텐션의 병렬 계산 구조

5.2 MHA의 치명적 한계: 메모리 대역폭(Memory Bandwidth) 병목 현상

6. 다중 쿼리 어텐션(MQA): 속도 극대화와 메모리 다이어트 구조

6.1 MQA의 구조: 키( $K$ )와 밸류( $V$ )의 단일화 및 공유

6.2 KV 캐시 축소가 가져오는 속도 향상

6.3 속도를 얻기 위해 지불하는 대가: 품질 저하 현상

7. 그룹화 쿼리 어텐션(GQA): 구조적 타협을 통한 수학적 최적화

7.1 GQA의 작동 원리: 쿼리를 묶어 $K, V$ 공유하기

7.2 그룹을 나누는 수학적 규칙과 구조적 확장성

7.3 GQA가 메모리와 품질의 균형을 잡는 원리

7.4 업트레이닝(Uptraining): 기존 MHA 모델을 GQA 모델로 개조하는 방법

8. MHA, MQA, GQA의 종합 비교 분석

8.1 필요 숫자 행렬 개수 비교 (구조적 차이)

8.2 컴퓨터 성능 및 작동 효율성에 미치는 영향 비교

8.3 실제 산업 환경에서의 적용 및 평가 실험 결과

왜 Docusaurus인가

이 사이트의 구성

앞으로 할 것들

이번 주 주요 소식

1. NVIDIA Blackwell 2세대 추론 벤치마크 공개

2. FlashAttention-3 논문 arXiv 공개

3. PyTorch 2.7 릴리즈

책 정보