Gemma 3N E4B — 개요¶
pccx v002 는 베어메탈 Kria KV260 에서 Gemma 3N E4B 를 20 tok/s 로 돌리는 것을 기준으로 설계되었습니다. 연산자 수준 파이프라인으로 들어가기 전에, 이 페이지는 핵심 차원과 “표준” 디코더 전용 Transformer 에서 벗어난 부분을 정리합니다. 이 차이점들이 하드웨어가 반드시 수용해야 하는 제약입니다.
1. 모델 차원¶
항목 |
값 |
비고 |
|---|---|---|
히든 차원 |
2048 |
메인 residual stream 폭. |
FFN 중간 |
16384 |
8× 확장. |
레이어 수 |
35 |
35 개의 디코더 블록. |
어텐션 헤드 |
Q 8 / KV 2 |
Grouped-Query Attention, 4:1 비율. |
헤드 차원 |
256 |
|
어휘 크기 |
262,400 |
|
Patch / Router 차원 |
|
PLE 패치 임베딩 / AltUp 라우터. |
Stream (AltUp) |
4 |
|
2. Gemma 3N 만의 비표준 요소¶
Gemma 3N 은 다섯 군데에서 교과서적 디코더와 다릅니다. 각 항목이 pccx v002 명령어 스케줄링에 직접 영향을 미칩니다.
항목 |
동작 |
하드웨어 영향 |
|---|---|---|
AltUp 4-stream |
4 개의 병렬 residual stream. Shadow stream 은 깊이 의존적 보정을 받고, 메인 stream 은 깨끗하게 유지. |
L2 에 |
교차 RoPE θ |
5 레이어 주기 |
θ 는 레이어별 상수. 각 RoPE |
Attention scaling / softcap 제거 |
|
어텐션 블록당 |
LAuReL 병렬 분기 |
저랭크 사이드 패스를 attention 출력과 합친 뒤 |
작은 GEMV 두 개 ( |
PLE shadow injection |
Per-Layer Embedding 은 레이어 끝 에 오직 |
메인 stream 경로는 PLE 로 오염되지 않음. 스케줄러가 PLE 작업을 critical path 바깥에 유지. |
각 항목에 대한 상세 수식:
Gemma 3N — Attention 및 RoPE 제약 — scaling 제거와 동적 θ.
Gemma 3N — LAuReL 과 PLE Calibration 모듈 — LAuReL scaling 과 PLE 주입 규칙.
Gemma 3N — FFN Gaussian Top-K Sparsity — 초기 레이어의 Gaussian Top-K 게이트.
3. 레이어 간 KV 공유¶
Gemma 3N 은 모든 레이어에 KV 엔트리를 저장하지 않습니다. 35 개 레이어 중:
레이어 0–19 는 자기 고유의
K/V를 캐시에 저장.레이어 20–34 는 5 레이어 주기에 따라 레이어 18 (local RoPE) 또는 레이어 19 (global RoPE) 의 캐시를 재사용.
구체적으로 K_cache 와 V_cache 의 shape 는 [35, max_seq, 512]
가 아니라 [20, max_seq, 512]. 이것이
KV 캐시 최적화 전략 의 KV footprint 예산이 토큰당 70 KB 가
아닌 ~40 KB 인 주된 이유입니다.
4. 데이터 타입 맵¶
각 텐서 종류가 pccx v002 의 어느 경로에 해당하는가:
텐서 |
저장 |
연산 경로 |
비고 |
|---|---|---|---|
가중치 (Q / K / V / O / FFN) |
INT4 패킹 |
Systolic Array 또는 GEMV Core |
W4 + per-channel scale. |
활성화 (hidden, Q / K / V) |
L2 에서 INT8 |
전처리 후 동일 |
SFU 경유 시에만 BF16 으로 승격. |
KV 캐시 |
FP16 (기본), INT8/INT4 권장 |
MEMCPY host ↔ L2 |
KV 캐시 최적화 전략 참고. |
AltUp / LAuReL / PLE 스케일 |
FP32 (host) → BF16 (device) |
SFU |
작은 벡터, amortized. |
Logits |
host 에서 FP32 |
CPU 후처리 |
Top-P / temperature 는 NPU 외부. |
5. 다음 단계¶
전체 연산자 사양 (embedding → sampling): Gemma 3N E4B — 연산자 수준 파이프라인.
명령어 수준 매핑 / 스케줄링: Gemma 3N E4B 를 pccx v002 에서 실행 — Execution / Scheduling.
x64 CPU 레퍼런스: llm-lite.