로드맵 (Two-Track)

pccx 는 2026-04-20 기준으로 두 트랙 병렬 로 진행됩니다. v002 는 현재 active 아키텍처이고 v003 은 다음 세대 타겟 모델 (Gemma 4 E4B) 을 위해 설계됩니다. 두 트랙은 RTL 자산 (sparse weight fetcher, SSD dispatcher, tree mask generator, EAGLE 학습 파이프라인) 을 상호 재사용합니다.

장기 목표는 임의의 transformer config → pccx ISA 스트림 자동 생성기 (Auto-Porting Pipeline α) 로, 두 트랙이 안정화된 이후 Year 2 목표로 시작됩니다.

1. 공통 전제

  • 플랫폼: Xilinx Kria KV260 (Zynq UltraScale+ ZU5EV), bare-metal

  • 양자화: W4A8 (INT4 weights × INT8 activations), KV cache INT4

  • 클럭: AXI 250 MHz, core 400 MHz

  • VLIW ISA: 5 base opcodes (GEMV, GEMM, MEMCPY, MEMSET, CVO) + SPEC 확장

  • L2 URAM 2.25 MB 배치: activation pin 1.0 MB, KV prefetch 0.5 MB, tree mask + scheduler 0.25 MB, hot attention 0.5 MB

2. Track 1 — v002 Extended (Gemma 3N E4B, 20 tok/s)

현재 v002 active 구성 위에 sparsity 확장과 speculative decoding 스택을 얹어 약속된 20 tok/s 실측 을 달성하는 트랙입니다.

Tiered targets

수준

tok/s

달성 조건

Baseline

5–6

Phase A–F 완료

Viable

10–12

Phase G + H 완료

Promise

20

Phase G–K 완료

Stretch

25+

Tree EAGLE (Phase J) 추가

Phase 구성

Phase

기간

주요 작업

기대 tok/s

A–F

Week 1–26

재파라미터화 → 드라이버 → Gemma 3N 앱 → 검증 → 합성 → 보드 bringup

5–6

G

Week 27–30

전 레이어 Gaussian Top-K sparsity (BW 1.95 → 1.36 GB/token)

8–9

H

Week 31–32

Gemma 3 1B vanilla drafter (fast path) — tokenizer 호환

11–14

H+

Week 33–38

EAGLE-3 head 학습 & 교체 ($20–30, Vast.ai RTX 4090)

14–16

I

Week 39–42

SSD async overlap (draft/verify pipelining)

17–19

J

Week 43–46

Tree EAGLE (선택, stretch)

20–23

K

Week 47–49

최종 튜닝 & 공식 실측

20

궤도 수정의 이유: 원래 Phase H 는 EAGLE-3 학습 먼저였으나, Gemma 3 1B 을 vanilla drafter 로 먼저 붙여 빠르게 검증한 뒤 acceptance 가 부족할 때만 EAGLE-3 학습으로 교체하는 fast path 로 변경.

Exit 조건 & Fallback

결정 포인트

조건

대응

Week 26

baseline < 5 tok/s

원인 분석, G–K 보류

Week 36

EAGLE acceptance < 2.0×

Phase I 만 진행, J 생략

Week 40

< 15 tok/s

Phase J 필수

Week 47

< 20 tok/s

15–18 tok/s 로 타협, v003 에서 재달성

3. Track 2 — v003 (Gemma 4 E4B, 12–15 tok/s)

Gemma 4 E4B (42 layers, MQA, sliding + full attention, 128K 컨텍스트) 를 동일 KV260 플랫폼에서 돌리는 트랙. v002 의 RTL 자산을 재사용해 Phase 2+ 구현 비용을 약 30 % 단축합니다.

Tiered targets

수준

tok/s

달성 조건

Minimum viable

10

Phase 2 종료

Acceptable

12

Phase 3 종료

Target

12–15

Phase 5 완료

Stretch

15+

DEER 등 실험적 기법 추가

Phase 구성

Phase

기간

주요 작업

기대 tok/s

1

Week 16–26

Foundation — quantize_and_save 확장, vocab trim 262K → 50K, RTL 재파라미터화

7

2

Week 27–34

EAGLE-3 linear chain baseline ($30–50 또는 TRC TPU)

10

3

Week 35–39

Tree EAGLE verify (acceptance 3.5–4×)

12

4

Week 40–43

SSD async overlap (v002 Phase I RTL 재활용)

13–14

5

Week 44–52

P-EAGLE + LTD (dynamic K, RL 정책)

15

Two-track 재사용 관계

        flowchart LR
  subgraph v002["v002 Extended — Gemma 3N E4B"]
    A[A–F baseline] --> G[G: sparsity] --> H[H/H+: EAGLE-3] --> I[I: SSD] --> J[J: Tree] --> K[K: 실측 20 tok/s]
  end
  subgraph v003["v003 — Gemma 4 E4B"]
    P1[1: foundation] --> P2[2: EAGLE linear] --> P3[3: Tree] --> P4[4: SSD] --> P5[5: P-EAGLE + LTD]
  end
  G -. sparse weight fetcher .-> P1
  H -. EAGLE 학습 파이프라인 .-> P2
  J -. tree mask generator .-> P3
  I -. SSD dispatcher .-> P4
    

4. 통합 타임라인 (52주)

Week

v002

v003

1–15

Phase A–C

16–18

Phase D

Phase 1 시작

19–26

Phase E–F (baseline 5–6 tok/s)

Phase 1 계속

27–30

Phase G

Phase 2 시작

31–38

Phase H / H+

Phase 2 완료

39–42

Phase I

Phase 3

43–46

Phase J (선택)

Phase 4

47–49

Phase K (20 tok/s 실측)

Phase 4 계속

50–52

Phase 5 (15 tok/s)

총 52주 (~12개월). 혼자 파트타임 작업이면 2배 시간 가정.

5. Compute 예산

항목

비용

시기

Vast.ai / RunPod 가입

$10 minimum deposit

Week 0

v002 Phase H+ EAGLE-3 Gemma 3N

$20–30

Week 33–38

v002 Phase J EAGLE Tree variant

$10–15

Week 43–46

v003 EAGLE-3 Gemma 4

\(30–50 (TRC 승인 시 \)0)

Week 27–34

총합

**\(70–100** (\)40 with TRC)

  • Phase 0 에 TRC TPU 신청 제출 (승인 1–2주)

  • 처음 3–4주는 로컬 개발만으로 충분

  • GPU 가 필요한 시점은 Phase H+ 부터

6. Year 2 목표 — Auto-Porting Pipeline α (Stretch)

v002 + v003 안정화 후 시작하는 장기 목표. 임의 transformer 의 config.json + weight safetensors 를 받아 pccx 드라이버 API 를 호출하는 C 코드 + 양자화된 weight binary 를 자동 생성하는 파이프라인입니다.

기술 구성

        flowchart TD
  CFG[Transformer config.json] --> P[Config Parser]
  P --> R[Architecture Resolver]
  R --> F[Special Feature Detector]
  F --> I[ISA Code Generator]
  I --> W[Weight Layout Planner]
  W --> C[C Stub Generator]
  C --> V[Validator: Python golden vs RTL]
    

지원 타겟 (우선순위)

  • Tier 1: 수동 포팅 완료한 모델 재생성 검증 — Gemma 3N E4B, Gemma 4 E4B

  • Tier 2: 표준 구조 — Llama 3.x, Qwen3, Mistral 7B

  • Tier 3: 복잡 구조 — DeepSeek-V3 (MoE), Gemma 4 26B A4B (MoE), Phi-3/4

일정 (Week 53+)

Week 53–76 (24주 / 6개월) 풀타임 가정:

  • Week 53–58: Parser + Resolver + Gemma 3N/4 재생성 검증

  • Week 59–64: Tier 2 지원 (Llama, Qwen, Mistral)

  • Week 65–70: Feature plugin 시스템 + MoE 지원

  • Week 71–76: E2E 자동화, 웹 UI / CLI, 문서화

논문 가능성

“Auto-Compilation of Transformer Inference Workloads to Custom NPU ISAs” — ISCA / MICRO / HPCA / FCCM / FPGA 타겟.

7. 마일스톤

Year 1 KPI

  • Week 26 — Gemma 3N E4B 보드 코히런트 출력, 5+ tok/s

  • Week 38 — EAGLE-3 Gemma 3N checkpoint HF 공개 (세계 최초)

  • Week 47 — Gemma 3N E4B 20 tok/s 공식 실측 ← 약속 이행

  • Week 52 — Gemma 4 E4B 12+ tok/s 달성

  • Blog post / 논문 초안 (v002 결과 정리)

Year 2 KPI (Auto-Porting α)

  • Week 76 — Llama 3.1 8B 자동 생성 + KV260 동작

  • Year 2 end — 5+ 모델 family 자동 지원

  • 학술 publication

8. RTL 저장소

Track 1 과 Track 2 모두 hwkim-dev/pccx-FPGA-NPU-LLM-kv260 에서 구현됩니다. v002 freeze 시점에 codes/v002/ 스냅샷을 이 문서 repo 에 고정하고 (§8.4 cutover ceremony), v003 브랜치를 분기합니다.


문서 버전: 2026-04-20 초판. 작성 출처 — 로컬 plan drafts (pccx_master_roadmap_final.md, pccx_v002_extended_20toks_plan.md, tinynpu_v003_gemma4_e4b_plan.md). 다음 업데이트: v002 Phase F 완료 시점 (약 Week 26).