[프로젝트] llm-lite — Gemma 3N E4B 경량 추론 엔진
· 약 2분
llm-lite 는 저사양 로컬 환경에서 Gemma 3N E4B 를 클라우드 없이 돌리는 걸 목표로 만든 멀티 백엔드 추론 엔진이다. 모델 구조는 그대로 두되 공격적인 양자화(INT4 weights + MMAP)와 저수준 하드웨어 가속으로 성능을 끌어내는 방향을 택했다.
llm-lite 는 저사양 로컬 환경에서 Gemma 3N E4B 를 클라우드 없이 돌리는 걸 목표로 만든 멀티 백엔드 추론 엔진이다. 모델 구조는 그대로 두되 공격적인 양자화(INT4 weights + MMAP)와 저수준 하드웨어 가속으로 성능을 끌어내는 방향을 택했다.
Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.
이 문서는 GPT-1 논문의 architecture와 학습 과정을 수학적/정의와 직관적인 해설을 결합하여 정리한 노트이다.
R.P. Feynman의 'Space-Time Approach to Non-Relativistic Quantum Mechanics' 논문 초록(Abstract) 정리 노트
인공지능 모델은 사람처럼 글자의 형태나 문장의 의미를 직관적으로 이해하지 못한다. 컴퓨터를 구성하는 프로세서는 오직 숫자만을 계산할 수 있는 물리적 장치이다. 따라서 인공지능이 문장을 처리하기 위해서는 가장 먼저 문장을 구성하는 모든 단어를 철저하게 수학적인 숫자의 배열로 변환하는 과정이 필요함.
벚꽃이 피기 시작하는 계절에 개인 홈페이지도 새로 시작합니다.
드디어 개인 홈페이지를 제대로 꾸렸습니다. 그동안 GitHub Profile README로만 유지하던 걸, Docusaurus 기반의 정적 사이트로 이전했어요.
관심 분야(딥러닝 추론, GPU 아키텍처, HPC)에서 이번 주 눈에 띄는 소식들을 정리합니다.
CUDA 프로그래밍을 처음 배울 때 가장 많은 도움을 받은 책을 소개합니다.