[논문] Attention Is All You Need
· 약 13분
Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.
Transformer 모델 구조의 핵심 개념과 수학적 원리를 담은 글이다.
이 문서는 GPT-1 논문의 architecture와 학습 과정을 수학적/정의와 직관적인 해설을 결합하여 정리한 노트이다.
인공지능 모델은 사람처럼 글자의 형태나 문장의 의미를 직관적으로 이해하지 못한다. 컴퓨터를 구성하는 프로세서는 오직 숫자만을 계산할 수 있는 물리적 장치이다. 따라서 인공지능이 문장을 처리하기 위해서는 가장 먼저 문장을 구성하는 모든 단어를 철저하게 수학적인 숫자의 배열로 변환하는 과정이 필요함.