[๐ namdarineโs AI Review] Improving Language Understanding by Generative pre-Training
๐ GPT์ ํ์ ๋ฐฐ๊ฒฝ์ ๋ง๋ ๋ ผ๋ฌธ
์ค๋๋ ์ GPT ๊ณ์ด ๋ชจ๋ธ๊ณผ ํ๋ LLM ์ํคํ ์ฒ๊ฐ ์ด๋ป๊ฒ ์์๋์๋์ง, ๊ทธ ์ถ๋ฐ์ ์ด ๋ ๋ ผ๋ฌธ โImproving Language Understanding by Generative Pre-Trainingโ์ ๋ฆฌ๋ทฐํฉ๋๋ค.
์ด ๋ ผ๋ฌธ์ ChatGPT์ ๊ทผ๊ฐ์ด ๋๋ โ์ฌ์ ํ์ต + ๋ฏธ์ธ์กฐ์ โ ํจ๋ฌ๋ค์, ์ฆ Pretrain Finetune ์ ๋ต์ ๊ณต์ํํ๋ฉฐ ๋๊ท๋ชจ unlabeled ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ์ธ์ด ์ดํด ์ฑ๋ฅ ํฅ์์ ๊ฐ๋ฅ์ฑ์ ์ฒ์์ผ๋ก ์ ์ฆํ์ต๋๋ค.
๋ ผ๋ฌธ ์์ฝ
๋น์ผ ๋ผ๋ฒจ ์์ด๋ ๊ฐ๋ ฅํ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ๋ง๋ค ์ ์๋ค๋ ๊ฑธ ์ฒ์ ์ฆ๋ช ํ GPT์ ์์์ ์ด ๋ ๋ ผ๋ฌธ์ด๋ค.
ํต์ฌ๋ง ์ ๋ฆฌํ๋ฉด
- ๊ธฐ์กด ์ง๋ ํ์ต ์ค์ฌ ์ธ์ด ๋ชจ๋ธ์ ๋๊ท๋ชจ ์์์ ๋ผ๋ฒจ๋ง ๋ฐ์ดํฐ์ ๋ํ ๋์ ์์กด์ฑ์ด๋ผ๋ ๊ตฌ์กฐ์ ํ๊ณ๋ฅผ ๊ฐ๊ณ ์์๋ค.
- ์ด ๋ ผ๋ฌธ์ ๋ผ๋ฒจ์ด ์๋ ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํ ๋น์ง๋ ์ฌ์ ํ์ต์ด ๊ฐ๋ ฅํ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ํ์ฑํ ์ ์์์ ์ฒ์์ผ๋ก ์ ์ฆํ๋ค.
- ์ฌ์ ํ์ต๋ ์ธ์ด ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํ Pretrain Finetune ๋ ๋จ๊ณ ํ์ต ์ ๋ต์ ์ ์ ์์ ๋ง์ผ๋ก ๋ค์ํ ์์ ์ ์ ์ด ๊ฐ๋ฅํ ๋ณดํธ์ ํํ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค.
- Transformer ๊ธฐ๋ฐ ์ธ์ด ๋ชจ๋ธ๊ณผ ๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉ์ ํจ์๋ ์ผ๋ฐํ ์ฑ๋ฅ๊ณผ ํ์ต ์์ ์ฑ์ ํจ๊ป ํฅ์์์ผฐ๋ค.
- ์ด ๋ ผ๋ฌธ์ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ์ ์ํ ๊ฒ์ด ์๋๋ผ LLM ์๋์ ํ์ค ํ์ต ํจ๋ฌ๋ค์์ ์ฒ์ ์์ฑํ ์ถ๋ฐ์ ์ผ๋ก์ GPT ๊ณ์ด ๋ชจ๋ธ์ ๊ทผ๊ฐ์ด ๋์๋ค.
๊ธฐ์กด ๋ชจ๋ธ์ ํ๊ณ ๋ฐ ๋ฌธ์ ์ ์
Motivation
๊ฐ์ฅ ํฐ ๋๊ธฐ๋ ๊ธฐ์กด ๋ชจ๋ธ๋ค์ด ๋๊ท๋ชจ์ ์์์ ๋ผ๋ฒจ๋ง ๋ฐ์ดํฐ์ ํฌ๊ฒ ์์กดํ๋ ์ง๋ ํ์ต ๊ตฌ์กฐ๋ฅผ ์ ์ ๋ก ํ๊ณ ์๋ค๋ ์ ์ด๋ค. ์ ์๋ ์ด์ ๋ํ ๋์์ผ๋ก ๋ผ๋ฒจ๋ง ๋์ง ์์ ๋ฐ์ดํฐ์ ๊ฐ๋ฅ์ฑ์ ๊ฐ์กฐํ๋ค. ๋ผ๋ฒจ์ด ์๋ ๋ฐ์ดํฐ๋ ํจ์ฌ ํ๋ถํ๊ฒ ์กด์ฌํ๋ฉฐ ์์์ ์ผ๋ก ์ฃผ์์ ์์งํ๋ ๊ฒ์ ๋นํด ๋น์ฉ ๋ถ๋ด๋ ํ์ ํ ๋ฎ๊ธฐ ๋๋ฌธ์ด๋ค.
๋ํ ์ค๋ น ๋ผ๋ฒจ๋ง ๋ ๋ฐ์ดํฐ๊ฐ ์ถฉ๋ถํ ์กด์ฌํ๋๋ผ๋ ๋น์ง๋ ์ฌ์ ํ์ต(Unsupervised pre-training)์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ ์๋ฏธ ์๊ฒ ๋์ด์ฌ๋ฆด ์ ์๋ค๊ณ ์ฃผ์ฅํ๋ค. ์ด๋ ์ฌ์ ํ์ต๋ ๋จ์ด ์๋ฒ ๋ฉ๋ค์ด ์ค์ ๋ค์ํ ํ์คํฌ์์ ์ฑ๋ฅ ํฅ์์ ์ด๋์ด๋ธ ์ฌ๋ก๋ฅผ ํตํด ๊ทธ ๊ฐ๋ฅ์ฑ์ด ์ด๋ฏธ ์ ์ฆ๋์๋ค๋ ์ ์์ ๋์ฑ ์ค๋๋ ฅ์ ๊ฐ๋๋ค.
ํ๊ณ
-
๋ ์ด๋ธ๋ง ๋ ๋ฐ์ดํฐ์ ๋ถ์กฑ
๋๋ถ๋ถ์ deep learning model์ ์๋์ผ๋ก ๋ ์ด๋ธ๋ง ๋ ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ฅผ ํ์๋ก ํ์ง๋ง ๋ง์ ๋ถ์ผ์์ ์ด๋ฌํ ๋ ์ด๋ธ ๋ ๋ฐ์ดํฐ๊ฐ ๋ถ์กฑํ์ฌ ๋ชจ๋ธ์ ์ ์ฉ ๋ฒ์๊ฐ ์ ํ๋๋ค. -
๋จ์ด ์์ค ์ ๋ณด ์ ๋ฌ์ ํ๊ณ
๊ธฐ์กด์๋ ์ฌ์ ํ๋ จ๋ word-embeddings์ ํ์ฉํด ์ฑ๋ฅ์ ๋์์ผ๋ ์ด๋ ์ฃผ๋ก ๋จ์ด ์์ค์ ์ ๋ณด๋ง์ ์ ๋ฌํ๋ฉฐ ๋ฌธ์ฅ ์์ค ์ด์์ ๊ณ ์ฐจ์์ ์ธ ์๋ฏธ๋ฅผ ํฌ์ฐฉํ๋ ๋ฐ๋ ํ๊ณ๊ฐ ์๋ค. -
์ต์ ํ ๋ชฉํ์ ๋ถํ์ค์ฑ
๋จ์ด ์์ค ์ด์์ ํ ์คํธ ํํ์ ๋ฐฐ์ฐ๊ธฐ ์ํด ์ด๋ค ์ต์ ํ ๋ชฉํ (์: ์ธ์ด ๋ชจ๋ธ๋ง, ๊ธฐ๊ณ ๋ฒ์ญ, ๋ดํ ์ผ๊ด์ฑ ๋ฑ)๊ฐ ์ ์ด ํ์ต (Transfer learning)์ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ์ง ๋ช ํํ์ง ์๋ค. -
์ ์ด ๋ฐฉ๋ฒ์ ํ์ค ๋ถ์ฌ
ํ์ต๋ ํํ์ ๋์ ์์ ์ผ๋ก ์ ์ดํ๋ ๊ฐ์ฅ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ๋ํด ํฉ์๋ ๋ฐฉ์์ด ์๋ค. ๊ธฐ์กด ๊ธฐ์ ๋ค์ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋ํญ ์์ ํ๊ฑฐ๋ ๋ณต์กํ ํ์ต ์ฒด๊ณ ๋ฐ ๋ณด์กฐ ํ์ต ๋ชฉํ๋ฅผ ์ถ๊ฐํด์ผ ํ๋ ์ด๋ ค์์ด ์๋ค.
์ ์ํ ํด๊ฒฐ ๋ฐฉ๋ฒ
Two-stage training procedure = semi-supervised = ๋น์ง๋ ์ฌ์ ํ์ต + ์ง๋ ๋ฏธ์ธ ์กฐ์
- semi-supervised: ์ด ๋ฐฉ์์ ๋ชฉํ๋ ๋๊ท๋ชจ ๋ฏธ๋ถ๋ฅ ๋ง๋ญ์น๋ฅผ ํ์ฉํด ๋ค์ํ ์์ ์ ์ ์ ์์ ๋ง์ผ๋ก ์ ์ด๋ ์ ์๋ ๋ณดํธ์ ์ธ ํํ (universal representation)์ ํ์ตํ๋ ๊ฒ์ด๋ค.
๋น์ง๋ ์ฌ์ ํ์ต (Unsupervised pre-training)
๋ชฉํ
๋ ์ด๋ธ์ด ์๋ ๋๊ท๋ชจ ํ ์คํธ ๋ฐ์ดํฐ ()๋ก๋ถํฐ ์ธ์ด์ ๊ตฌ์กฐ์ ์ง์์ ์ค์ค๋ก ํ์ตํ์ฌ ์ข์ ์ด๊ธฐ ํ๋ผ๋ฏธํฐ๋ฅผ ์ฐพ๋ ๊ฒ.
๋ฐฉ์
โ์ธ์ด ๋ชจ๋ธ๋งโ ๋ชฉ์ ํจ์๋ฅผ ์ฌ์ฉํ์ฌ ๋ฌธ๋งฅ์ ๋ค์ ํ ํฐ์ด ๋ฌด์์ธ์ง ์์ธกํ๋๋ก ๋ชจ๋ธ์ ํ๋ จํ๋ค.
๋ชจ๋ธ ๊ตฌ์กฐ
์ฅ๊ธฐ ์์กด์ฑ (long-term dependencies)์ ์ฒ๋ฆฌํ๋๋ฐ ์ ๋ฆฌํ Transformer decoder๋ฅผ ์ฌ์ฉํ์ฌ ๊ธฐ์กด์ LSTM ๊ธฐ๋ฐ ๋ชจ๋ธ๋ณด๋ค ๋ ๊ตฌ์กฐํ๋ ๋ฉ๋ชจ๋ฆฌ ๋ฅ๋ ฅ์ ๊ฐ์ถ๋๋ก ํ๋ค.
Supervised Fine-tuning
๋ชฉ์
์ฌ์ ํ์ต์ ํตํด ์ป์ ํ๋ผ๋ฏธํฐ๋ฅผ ๋ฐํ์ผ๋ก ์ค์ ํด๊ฒฐํ๋ ค๋ ํน์ ์์ (์: ์ง๋ฌธ ๋ต๋ณ, ๊ฐ์ฑ ๋ถ์ ๋ฑ)์ ๋ ์ด๋ธ๋ง ๋ ๋ฐ์ดํฐ ์ ๋ง์ถฐ ๋ชจ๋ธ์ ์ต์ ํํ๋ ๋จ๊ณ์ด๋ค.
๋ฐฉ์
์ ๋ ฅ ์ํ์ค๋ฅผ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ํต๊ณผ์ํจ ๋ค, ๋ง์ง๋ง ๋ธ๋ก์ ํ์ฑ ๊ฐ ()์ ์๋กญ๊ฒ ์ถ๊ฐ๋ ์ ํ ์ถ๋ ฅ ์ธต () ์ ์ ๋ ฅํ์ฌ ๋ ์ด๋ธ ()์ ์์ธกํ๋ค.
๋ณด์กฐ ๋ชฉ์ ํ์ต
fine-tuning ์ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉ์ ํจ์`๋ฅผ ๋ณด์กฐ์ ์ผ๋ก ํจ๊ป ์ฌ์ฉํ๋ฉด ์ง๋ ํ์ต ๋ชจ๋ธ์ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋์ด๊ณ ์๋ ด ์๋๋ฅผ ์๋น๊ธธ ์ ์๋ค.
์ ์ด๋ฅผ ์ํ ์ ๋ ฅ ๋ณํ (Task-specific Input Transformations)
๋ชจ๋ธ ๊ตฌ์กฐ์ ๋ณ๊ฒฝ์ ์ต์ํํ๊ธฐ ์ํด ์ํ ๋ฐฉ์ (traversal-style approach) ์ ์ ์ํ๋ค.
์๋ฅผ ๋ค์ด, ๋ฌธ์ฅ ์์ ๋ค๋ฃจ๋ ์์
(๋ฌธ์ฅ ํจ์๋ ์ ์ฌ๋ ์ธก์ )์ ๊ฒฝ์ฐ ๋ ๋ฌธ์ฅ ์ฌ์ด์ ๊ตฌ๋ถ์ (delimiter)๋ฅผ ๋ฃ์ด ํ๋์ ์ฐ์๋ ํ ํฐ ์ํ์ค๋ก ๋ณํํ์ฌ ๋ชจ๋ธ์ด ์ฒ๋ฆฌํ๊ฒ ํ๋ค.
๋น์
์ด ๋ฐ์ง๋ ํ์ต ๊ณผ์ ์ ๊ต์ ๊ต์ก ํ ์ ๋ฌธ ์๊ฒฉ์ฆ ์ํ ๋๋น ๊ณผ์ ์ ๋น์ ๋ฅผ ํ๋ค๋ฉด,
- ๋น์ง๋ ์ฌ์ ํ์ต: ํ์์ด ์ ๊ณต์ ์ ํ๊ธฐ ์ ์๋ง ๊ถ์ ๋ค์ํ ์ฑ (๋ฏธ๋ถ๋ฅ ๋ง๋ญ์น)์ ์ฝ์ผ๋ฉฐ ์ธ์ด์ ๊ธฐ๋ณธ ์๋ฆฌ, ์์, ๋ฌธ๋งฅ์ ํ์ ํ๋ ๋ฅ๋ ฅ์ ๊ธฐ๋ฅด๋ ๋จ๊ณ์ด๋ค. (๊ธฐ์ด ์ง๋ฅ ํ์ฑ)
- ์ง๋ ๋ฏธ์ธ ์กฐ์ : ์ด์ ๋ฌธํด๋ ฅ์ด ๊ฐ์ถฐ์ง ํ์์ด ํน์ ์ํ์ ๊ธฐ์ถ๋ฌธ์ ์ง (๋ ์ด๋ธ๋ง ๋ ๋ฐ์ดํฐ)์ ์งง๊ฒ ๊ณต๋ถํ๋ฉฐ ํด๋น ๋ฌธ์ ์ ์ ๋ต์ ๋งํ๋ ์๋ น์ ์ตํ๋ ๋จ๊ณ์ด๋ค. (์ ๋ฌธ์ฑ ํ๋ณด)
์ด๋ฌํ ๋ฐฉ์ ๋๋ถ์ ๋ชจ๋ธ์ ์ฒ์๋ถํฐ ํน์ ๋ฌธ์ ๋ง ํผ ํ์ (์ง๋ ํ์ต๋ง ์ํํ ๋ชจ๋ธ)๋ณด๋ค ํจ์ฌ ๋ ๊น์ ์ดํด๋ ฅ์ ๋ฐํ์ผ๋ก ๋ค์ํ ๋ฌธ์ ๋ฅผ ๋ฅ์ํ๊ฒ ํด๊ฒฐํ๊ฒ ๋๋ค.
๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง (Auxiliary Language Modeling) ๋ชฉ์ ํจ์
Fine-tuning ๋จ๊ณ์์ ๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง ๋ชฉ์ ํจ์๋ฅผ ์ถ๊ฐํ๋ ๊ฒ์ ๋ชจ๋ธ์ ํ์ต ํจ์จ๊ณผ ์ฑ๋ฅ์ ๊ทน๋ํํ๊ธฐ ์ํ ์ ๋ต์ ์ธ ์ฅ์น์ด๋ค.
์ฃผ์ ์ญํ ๋ฐ ํจ๊ณผ
-
์ผ๋ฐํ ์ฑ๋ฅ ํฅ์ (Improving Generalization)
- ์ง๋ ํ์ต ๊ณผ์ ์์ ๋ชจ๋ธ์ด ํน์ ์์ ์ ๋ฐ์ดํฐ์๋ง ์ง๋์น๊ฒ ์ต์ ํ๋์ด ํธํฅ๋๋ ๊ฒ์ ๋ฐฉ์ง
- ์ฌ์ ํ์ต์์ ์ป์ ๋ณดํธ์ ์ธ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์ ์ ์งํจ์ผ๋ก์จ ๋ชจ๋ธ์ ์ผ๋ฐํ ์ฑ๋ฅ์ ๊ฐ์
-
ํ์ต ์๋ ด ๊ฐ์ํ (Accelerating Convergence) ๋ณด์กฐ ๋ชฉ์ ํจ์๋ฅผ ํจ๊ป ์ฌ์ฉํ๋ฉด ๋ชจ๋ธ์ด ์ต์ ์ ํ๋ผ๋ฏธํฐ ์ํ์ ๋๋ฌํ๋ ํ์ต ์๋ ด ์๋๋ฅผ ์๋น๊ธฐ๋ ํจ๊ณผ
๊ธฐ์ ์ ๊ตฌํ
Fine-tuning ๋จ๊ณ์์ ๋ชจ๋ธ์ ๋จ์ํ ํน์ ์์ ์ ์์ค ํจ์()๋ง ๊ณ์ฐํ๋ ๊ฒ์ด ์๋๋ผ ์ฌ์ ํ์ต์์ ์ฌ์ฉํ๋ ์ธ์ด ๋ชจ๋ธ๋ง ์์ค ํจ์()๋ฅผ ์ผ์ ๋น์จ()๋ก ์์ด์ ์ต์ ํํ๋ค.
์ด ๊ณผ์ ์์ ์ถ๊ฐ๋๋ ํ๋ผ๋ฏธํฐ๋ ์ ํ ์ถ๋ ฅ ์ธต ()๊ณผ ๊ตฌ๋ถ์ ํ ํฐ์ ์ํ ์๋ฒ ๋ฉ๋ฟ์ด๋ฏ๋ก ๋ชจ๋ธ ๊ตฌ์กฐ์ ํฐ ๋ณ๊ฒฝ ์์ด๋ ์ด๋ฌํ ์ด์ ์ ๋๋ฆด ์ ์๋ค.
๋ฐ์ดํฐ ๊ท๋ชจ์ ๋ฐ๋ฅธ ์ฐจ์ด (์ ์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ)
์ ์ ์ฐ๊ตฌ (Ablation studies)์ ๋ฐ๋ฅด๋ฉด, ์ด ๋ณด์กฐ ๋ชฉ์ ํจ์์ ํจ๊ณผ๋ ๋ฐ์ดํฐ ์ ์ ํฌ๊ธฐ์ ๋ฐ๋ผ ๋ค๋ฅด๊ฒ ๋ํ๋๋ค.
- ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ : NLI (์์ฐ์ด ์ถ๋ก ) ๊ณผ์ ๋ QQP์ ๊ฐ์ด ๋ฐ์ดํฐ ์์ด ๋ง์ ๊ฒฝ์ฐ ๋ณด์กฐ ๋ชฉ์ ํจ์๋ฅผ ์ถ๊ฐํ์ ๋ ์ฑ๋ฅ ํฅ์์ด ๋๋ ทํ๊ฒ ๊ด์ฐฐ๋๋ค.
- ์๊ท๋ชจ ๋ฐ์ดํฐ ์ : ์๋์ ์ผ๋ก ํฌ๊ธฐ๊ฐ ์์ ๋ฐ์ดํฐ ์ ์์๋ ๋ณด์กฐ ๋ชฉ์ ํจ์๊ฐ ์ฑ๋ฅ ํฅ์์ ํฐ ๊ธฐ์ฌ๋ฅผ ํ์ง ๋ชปํ๋ค.
์๋ฅผ ๋ค์ด, fine-tuning ์ค ๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง์ ์ฌ์ฉํ๋ ๊ฒ์ โ์ ๊ณต ์์ ์ ๊ณต๋ถํ๋ฉด์๋ ํํ์ด ์ ๋ฌธ์ ์ฝ์ด ๊ธฐ์ด ๋ฌธํด๋ ฅ์ ์ ์งํ๋ ๊ฒโ๊ณผ ๊ฐ๋ค.
- ์ ๊ณต ๊ณต๋ถ (์ง๋ ํ์ต): ํน์ ์ํ (ํน์ ์์ )์ ์ ๋ต์ ๋งํ๊ธฐ ์ํ ์ง์ค ํ๋ จ
- ์ ๋ฌธ ์ฝ๊ธฐ (๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง): ์ ๊ณต์๋ง ๋งค๋ชฐ๋์ง ์๊ณ ์ธ์ด ์ ๋ฐ์ ๋ํ ๊ฐ๊ฐ (์ผ๋ฐํ ์ฑ๋ฅ)์ ์ ์งํ๊ฒ ํด์ฃผ๋ฉฐ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ๊ณต ๋ด์ฉ์ ๋ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ดํด (ํ์ต ์๋ ด)ํ๋๋ก ๋๋ ๊ธฐ์ด ์ฒด๋ ฅ์ด ๋๋ค.
์คํ
์คํ ์ค์
-
์ฌ์ ๋ฐ์ดํฐ ํ์ต: BookCorpus ๋ฐ์ดํฐ ์ ์ฌ์ฉ
- ํด๋น ๋ฐ์ดํฐ ์ ์๋ ๋ชจํ, ํํ์ง, ๋ก๋งจ์ค ๋ฑ ๋ค์ํ ์ฅ๋ฅด์ ๋ฏธ์ถํ ๋์ 7,000๊ถ ์ด์ ํฌํจ
- ๋ชจ๋ธ์ด ์ฅ๊ฑฐ๋ฆฌ ์ ๋ณด (long-range information)๋ฅผ ํ์ตํ ์ ์๋๋ก ์ฐ์์ ์ธ ๊ธด ํ ์คํธ๋ฅผ ์ ๊ณต
-
๋ชจ๋ธ ์ฌ์`: 12์ธต์ ํธ๋์คํฌ๋จธ ๋์ฝ๋ (decoder-only Transformer) ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉ
- 768 ์ฐจ์์ ์ํ ๋ฒกํฐ์ 12๊ฐ์ attention head
- ํ์ฑํ ํจ์๋ก GELU` ์ฌ์ฉ -> ๋ชจ๋ธ์ ์ฑ๋ฅ์ ๊ฒฐ์ ์ง๋ ํต์ฌ์ ์ธ ๋ชจ๋ธ ์ฌ์
- Adam ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ, ๊ณผ์ ํฉ ๋ฐฉ์ง๋ฅผ ์ํ dropouts(0.1), modified L2 regulation () ์ฌ์ฉ
-
๋ฏธ์ธ ์กฐ์ ์ธ๋ถ ์ฌํญ
- 3 epochs์ ํ์ต๋ง์ผ๋ก ๋๋ถ๋ถ ์์ ์์ ์ถฉ๋ถํ๋ค.
- ํ์ต๋ฅ :
- batch size: 32
์ฃผ์ ์คํ ๊ฒฐ๊ณผ
12๊ฐ์ ์์ ์์ ๋ชจ๋ธ์ ํ๊ฐํ๊ณ ๊ทธ์ค 9๊ฐ ์์ ์์ SOTA ๊ฒฝ์ ํ๋ค.
-
์์ฐ์ด ์ถ๋ก (NLI)
- MNLI, SciTail, QNLI, SNLI ๋ฑ 5๊ฐ ๋ฐ์ดํฐ ์ ์ค 4๊ฐ์์ ๊ธฐ์กด ๋ชจ๋ธ์ ๋ฅ๊ฐํ๋ค.
- ํนํ QNLI์์ 5.8%, SciTail์์ 5%์ ์ ๋์ ์ฑ๋ฅ ํฅ์์ ๋ณด์๋ค.
- ๋ค๋ง ๋ฐ์ดํฐ ์ ๊ท๋ชจ๊ฐ ์์ RTE์์๋ ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋ค ๋ฎ์ ์ฑ์ ์ ๋ณด์๋ค.
-
์ง๋ฌธ ๋ต๋ณ ๋ฐ ์์ ์ถ๋ก
- ์ค๊ณ ๋ฑํ๊ต ์ํ ๋ฌธ์ ์ธ RACE ๋ฐ์ดํฐ ์
์์ 5.7%, story cloze ํ
์คํธ์์ 8.9%์ ํฐ ํญ์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋กํ๋ค.
-> ์ฅ๊ฑฐ๋ฆฌ ๋ฌธ๋งฅ ์ฒ๋ฆฌ ๋ฅ๋ ฅ์ ์ ์ฆํ๋ค.
- ์ค๊ณ ๋ฑํ๊ต ์ํ ๋ฌธ์ ์ธ RACE ๋ฐ์ดํฐ ์
์์ 5.7%, story cloze ํ
์คํธ์์ 8.9%์ ํฐ ํญ์ ์ฑ๋ฅ ํฅ์์ ๊ธฐ๋กํ๋ค.
-
์๋ฏธ ์ ์ฌ๋ ๋ฐ ๋ถ๋ฅ
- ๋ฌธ๋ฒ์ ์ ํฉ์ฑ์ ํ๋จํ๋ CoLA ์ ์๊ฐ ๊ธฐ์กด 35.0์์ 45.4๋ก ํฌ๊ฒ ์ฌ๋๋ค.
- GLUE ๋ฒค์น๋งํฌ ์ ์ฒด ์ ์์์๋ 72.8์ ์ ๊ธฐ๋กํด ๊ธฐ์กด ์ต๊ณ ์น์ธ 68.9๋ฅผ ๋์๋ค.
BPE ํ ํฐํ
BPE๋ก ์ฒ๋ฆฌ๋ ํ ํฐ๋ค์ ์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ํตํด ๋งฅ๋ฝ์ด ํ์
๋๋ค.
์ด ๋
ผ๋ฌธ์์ ์ ์๋ ๋ชจ๋ธ์ ์ดํ ์งํฉ์ ๊ตฌ์ถํ๊ธฐ ์ํด 40,000ํ์ ๋ณํฉ์ ๊ฑฐ์น BPE๋ฅผ ์ฌ์ฉํ๋ค.
BPE๋ ํฌ๊ท ๋จ์ด ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋จ์ด๋ฅผ ๋ ์์ ํ์ ๋จ์ (subword unit)๋ก ๋๋์ด ์ฒ๋ฆฌํ๋ ๋ฐฉ์์ด๋ค. ์ด๋ ๋ชจ๋ธ์ด ๋ค์ํ ๋จ์ด ํํ๋ฅผ ํจ์จ์ ์ผ๋ก ํ์ตํ๋๋ก ๋๋๋ค.
BPE๋ ๋ฐฉ๋ํ ์์ ์ฐ์๋ ํ
์คํธ ๋ฐ์ดํฐ๋ฅผ Transformer ๋ชจ๋ธ์ด ์ํํ ์ ์๋ ํจ์จ์ ์ธ ๋จ์๋ก ์ชผ๊ฐ ์ฃผ๋ ํํฐ์ด๋ค.
GELU
- ๋น์ ํ์ฑ ๋ฐ ๋คํธ์ํฌ ๊ตฌ์กฐ์์์ ์ญํ
-
ํ์ฑํ ํจ์ ์ฑํ: ๋ชจ๋ธ์ ๋น์ ํ์ฑ์ ๊ตฌํํ๊ธฐ ์ํด GELU๋ฅผ ์ฌ์ฉ
-> Transformer ๋ธ๋ก ๋ด๋ถ์ position-wise feed-forward networks์์ ๋ฐ์ดํฐ์ ๋ณต์กํ ํจํด์ ํ์ตํ๋๋ฐ ๊ธฐ์ฌ -
Transformer ์ํคํ ์ฒ์์ ๊ฒฐํฉ
- GELU๋ 12์ธต์ Transformer decoder ๊ตฌ์กฐ (768 ์ฐจ์ ์ํ ๋ฒกํฐ, 12๊ฐ์ attention head) ๋ด์์ ์๋
- 3072 ์ฐจ์์ ๋ด๋ถ ์ํ๋ฅผ ๊ฐ์ง feed-forward ์ธต๊ณผ ๊ฒฐํฉ๋์ด ๋ชจ๋ธ์ ํํ๋ ฅ์ ๋์
- Model Specifications
GELU๋ ๋ ๋ฆฝ์ ์ผ๋ก ์๋ํ๋ ๊ฒ์ด ์๋๋ผ ์ต์ ์ ํ์ต ์ฑ๋ฅ์ ๋ด๊ธฐ ์ํด ์ค๊ณ๋ ๋ค๋ฅธ ์ฌ์๋ค๊ณผ ์กฐํ๋ฅผ ์ด๋ฃฌ๋ค.
- ์ ๊ทํ ๋ฐ ์ด๊ธฐํ: ๋ชจ๋ธ ์ ๋ฐ์ ๊ฑธ์ณ ๋ ์ด์ด ์ ๊ทํ (layernorm)๊ฐ ๊ด๋ฒ์ํ๊ฒ ์ฌ์ฉ๋์๊ธฐ ๋๋ฌธ์ ์ ๋จ์ํ ๊ฐ์ค์น ์ด๊ธฐํ๋ง์ผ๋ก๋ ์ถฉ๋ถ
- ์ต์ ํ ์๊ณ ๋ฆฌ์ฆ: ์ต๋ ํ์ต๋ฅ ๋ฅผ ๊ฐ์ง Adam ์ต์ ํ ๊ธฐ๋ฒ๊ณผ ์ฝ์ฌ์ธ ์ค์ผ์ค (cosine schedule)์ ๋ฐ๋ฅธ ํ์ต๋ฅ ๊ฐ์๊ฐ ์ ์ฉ๋จ
- ๊ท์ (Regularization): ๊ณผ์ ํฉ์ ๋ฐฉ์งํ๊ธฐ ์ํด dropouts(0.1)๊ณผ ๊ฐ์ค์น ๋ถํจ (weight decay)๊ฐ ์ ์ฉ๋ ๋ณํ๋ L2 ์ ๊ทํ๊ฐ ํจ๊ป ์ฌ์ฉ
- ์ ๋ ฅ ์ฒ๋ฆฌ: 40,000ํ์ ๋ณํฉ์ ๊ฑฐ์น BPE ์ดํ์ง๊ณผ ํ์ต๋ position embeddings์ ํตํด 512๊ฐ์ ์ฐ์๋ ํ ํฐ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๋ ๊ตฌ์กฐ๋ฅผ ๊ฐ์ถ๊ณ ์์
๋ชจ๋ธ ์ฌ์์ ํ๋์ โ๊ณ ์ฑ๋ฅ ์คํฌ์ธ ์นดโ๋ฅผ ์ ์ํ๋ ๊ณผ์ ์ ๋น์ ํ๋ค๋ฉด,
- Transformer ๊ตฌ์กฐ๋ ์ฐจ์ ๊ฒฌ๊ณ ํ ํ๋ ์
- BPE๋ ๊ณ ํ์ง์ ์ฐ๋ฃ๋ฅผ ์ ์ ํ๋ ๋ฐฉ์
- GELU ํ์ฑํ ํจ์๋ ์์ง์ ์ถ๋ ฅ์ ์ธ๋ฐํ๊ฒ ์กฐ์ ํ์ฌ ๋ถ๋๋ฌ์ฐ๋ฉด์๋ ๊ฐ๋ ฅํ ๊ฐ์์ ๊ฐ๋ฅ์ผํ๋ ์ ๋ฐํ ๊ฐ์ ํ๋ฌ (์ปจํธ๋กค๋ฌ)
๋ฐ๋ผ์ GELU๋ Transformer๋ผ๋ ๊ฐ๋ ฅํ ํ๋์จ์ด๊ฐ ๋ณต์กํ ์ธ์ด ๋ฐ์ดํฐ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋๋ก ๋๋ ํต์ฌ์ ์ธ โ์ํํธ์์ด์ ์ค์ โ์ ์ผ๋ถ์ด๋ค.
๋ถ์ ๋ฐ ์ ์ ์ฐ๊ตฌ
์ ์๋ ํ๋ ์์ํฌ์ ๊ฐ ๊ตฌ์ฑ ์์๊ฐ ์ฑ๋ฅ์ ์ด๋ค ๊ธฐ์ฌ๋ฅผ ํ๋์ง ํ์ ํ๊ณ ๋ชจ๋ธ์ ๋ด๋ถ ๋์ ์๋ฆฌ๋ฅผ ์ดํดํ๋ค.
์ ์ด๋๋ ์ธต์ ์์ ๋ฐ๋ฅธ ์ํฅ (Impact of number of layers transferred)
๋น์ง๋ ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์์ ์ง๋ ํ์ต์ผ๋ก ์ ์ดํ๋ ์ธต์ ๊ฐ์๊ฐ ์ฑ๋ฅ์ ๋ฏธ์น๋ ์ํฅ์ ๋ถ์ํ๋ค.
- ์๋ฒ ๋ฉ๋ง ์ ์ดํ๋ ๊ฒ๋ณด๋ค ์ธต์ ์ถ๊ฐํ ์๋ก ์ฑ๋ฅ์ด ํฅ์๋์๊ณ , MultiNLI ์์
์ ๊ฒฝ์ฐ ๋ชจ๋ ์ธต์ ์ ์ดํ์ ๋ ์ต๋ 9%์ ์ฑ๋ฅ์ด ํฅ์๋๋ค.
=> ์ฌ์ ํ์ต๋ ๋ชจ๋ธ์ ๊ฐ ์ธต์ด ํ๊น ์์ ์ ํด๊ฒฐํ๋ ๋ฐ ํ์ํ ์ ์ฉํ ์ธ์ด์ ๊ธฐ๋ฅ๋ค์ ๊ฐ๋ณ์ ์ผ๋ก ํฌํจํ๊ณ ์์์ ์์ฌํ๋ค.
์๋ฅผ ๋ค์ด โ๊ธฐ์ด ์ง์๋ง ์๋ ๊ฒ๋ณด๋ค ์ฌํ ๊ฐ๋ ๊น์ง ๋ชจ๋ ์ดํดํ์ ๋ ์ฑ์ ์ด ๋ ์ ๋์ค๋๊ฐ?โ๋ฅผ ํ์ธํ๋ ๊ณผ์ ์ธ ๊ฒ์ด๋ค.
Zero-shot Behaviors
๋ชจ๋ธ์ด ๋ช ์์ ์ธ fine-tuning ์์ด๋ ์์ ์ ์ํฅํ ์ ์๋์ง๋ฅผ ํ์ธํ๋ค.
- ์๋ฆฌ: ์ฌ์ ํ์ต๋ ์์ฑ ๋ชจ๋ธ์ด ์ธ์ด ๋ชจ๋ธ๋ง ๋ฅ๋ ฅ์ ๊ฐ์ ํ๋ ๊ณผ์ ์์ ๋ค์ํ ์์ ์ ์ํํ๋ ๋ฒ์ ์ค์ค๋ก ํ์ตํ๋ค๋ ๊ฐ์ค์ ์ธ์ด๋ค.
- ์ธก์ ๋ฐฉ๋ฒ: ๊ฐ์ฑ ๋ถ์ (SST-2) ๊ฒฝ์ฐ ์ ๋ ฅ ๋์ โveryโ๋ฅผ ๋ถ์ฌ ๋ชจ๋ธ์ด โpositiveโ์ โnegativeโ ์ค ์ด๋ค ๋จ์ด์ ๋ ๋์ ํ๋ฅ ์ ์ฃผ๋์ง ํ์ธํ๋ ๋ฑ์ ํด๋ฆฌ์คํฑ ๋ฐฉ์์ ์ฌ์ฉํ๋ค.
- ๊ฒฐ๊ณผ: ์ฌ์ ํ์ต ์
๋ฐ์ดํธ ํ์๊ฐ ๋์ด๋จ์ ๋ฐ๋ผ ์ด๋ฌํ ์ ๋ก์ท ์ฑ๋ฅ์ด ๊พธ์คํ ํฅ์๋์๋ค.
=> ์ฌ์ ํ์ต์ด ๋ค์ํ ์์ ๊ด๋ จ ๊ธฐ๋ฅ์ ํ์ตํ๋๋ก ๋๋๋ค๋ ๊ฒ์ ์ฆ๋ช ํ๋ค.
์๋ฅผ ๋ค์ด โ๋ณธ๊ฒฉ์ ์ธ ์ํ๊ณต๋ถ๋ฅผ ํ๊ธฐ ์ ์ ์์๋ง์ผ๋ก ๋ฌธ์ ๋ฅผ ์ผ๋ง๋ ํ ์ ์๋๊ฐ?โ๋ฅผ ์ธก์ ํ์ฌ ๊ธฐ์ด ์ฒด๋ ฅ์ ํ์ธํ๋ ๊ณผ์ ์ด๋ค.
์ ์ ์ฐ๊ตฌ (Ablation Studies)
๋ชจ๋ธ์ ํต์ฌ ์์๋ค์ ํ๋์ฉ ์ ๊ฑฐํ๋ฉฐ ๊ทธ ํจ๊ณผ๋ฅผ ๊ฒ์ฆํ๋ค.
-
๋ณด์กฐ ์ธ์ด ๋ชจ๋ธ๋ง (Auxiliary LM) ๋ชฉ์ ํจ์
fine-tuning ์ ์ธ์ด ๋ชจ๋ธ๋ง์ ๋ณด์กฐ ๋ชฉํ๋ก ์ฌ์ฉํ๋ ๊ฒ์ NLI ์์ ๊ณผ QQP ๊ฐ์ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ ์์๋ ํจ๊ณผ์ ์ด๋ค. ํ์ง๋ง ๊ท๋ชจ๊ฐ ์์ ๋ฐ์ดํฐ ์ ์์๋ ํฐ ๋์์ด ๋์ง ์์๋ค. -
Transformer vs. LSTM ๋์ผํ ํ๋ ์์ํฌ์์ Transformer๋ฅผ ๋์ LSTM์ ์ฌ์ฉํ์ ๋ ํ๊ท 5.6์ ์ ์ฑ๋ฅ์ด ํ๋ฝํ๋ค.
=> Transformer์ ๊ตฌ์กฐ์ ์ด์ ์ด ์ ์ด ํ์ต์ ๋ ์ ๋ฆฌํ๋ค. -
์ฌ์ ํ์ต ์ ๋ฌด: ์ฌ์ ํ์ต ์์ด ๋ฐ๋ก ์ง๋ ํ์ต์ ์งํํ์ ๋ ์ฑ๋ฅ์ด 14.8%๋ ๊ฐ์ํ๋ค.
=> ๋น์ง๋ ์ฌ์ ํ์ต์ด ์ฑ๋ฅ ํฅ์์ ํต์ฌ์ ์ธ ๊ธฐ์ฌ ์์ธ
์๋ฅผ ๋ค์ด โ์ด ํ์์ ์ฑ์ ์์ โ๋ ์๋ (์ฌ์ ํ์ต)โ์ด๋ โํ์ต ๋๊ตฌ (Transformer)โ๋ฅผ ํ๋์ฉ ๋นผ๋ณธ๋ค๋ฉด ์ฑ์ ์ด ์ผ๋ง๋ ๋จ์ด์ง๊น?โ๋ฅผ ํ ์คํธํ์ฌ ๊ฒฐ๊ณก **๋ค์ํ ๋ ์ (์ฌ์ ํ์ต)์ ์ข์ ๋๋ ๊ตฌ์กฐ (Transformer)**๊ฐ ์ฐ์ํ ์ฑ์ ์ ๋น๊ฒฐ์ด์์์ ์ฆ๋ช ํ๋ ๊ณผ์ ์ด๋ค.
๊ฒฐ๋ก
์ด ๋ ผ๋ฌธ์ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ๋ง๋ ๋ ผ๋ฌธ์ด ์๋๋ค. ํ์ง๋ง **๊ธฐ์กด ๊ตฌ์กฐ (Transfomer)**์ Pre-Training + Fine-Tuning์ด๋ผ๋ ํ์ต ์ ๋ต์ ๋ํด LLM ์๋์ ์ฒซ ํผ์ฆ์ ์์ฑํ๋ค.
GPT ์๋ฆฌ์ฆ์ ๋ชจ๋ ์๋๋ ์ด ํ ๋ฌธ์ฅ์์ ์์๋๋ค.
โWe demonstrate that language modeling can serve as a powerful pretraining objective.โ
์ง๊ธ ์ฐ๋ฆฌ๊ฐ ๋ณด๋ GPT-4, GPT-5๋ ์ด ๋ ผ๋ฌธ์ด ๋ง๋ โ์ง๋ ์์ด ๋ฐฐ์ฐ๊ณ , ํ์ํ ๋ ๋ฏธ์ธ ์กฐ์ ํ๋คโ๋ ์ ๋ต ์์ ์กด์ฌํ๋ค.
Epiloge
์ด ๋ ผ๋ฌธ์ ์ฑ๋ฅ ๊ฒฝ์์ ๊ฒฐ๊ณผ๋ฌผ์ด ์๋๋ผ, ์ธ์ด ๋ชจ๋ธ์ ๋ฐ๋ผ๋ณด๋ ๊ด์ ์ ๋ฐ๊พผ ์ถ๋ฐ์ ์ด์๋ค.
โ๋ผ๋ฒจ ์์ด๋ ์ธ์ด๋ฅผ ์ดํดํ ์ ์์๊น?โ
์ด ๋จ์ํ ์ง๋ฌธ์ด ์ดํ ๋ชจ๋ GPT ๊ณ์ด ๋ชจ๋ธ์ ๋ฐฉํฅ์ ๊ฒฐ์ ํ๋ค.
namdarine์ ์ด๋ ๊ฒ AI์ ์ฑ๋ฅ์ด ์๋๋ผ ์ฌ๊ณ ๋ฐฉ์๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ฐ๊พผ ์๊ฐ๋ค์ ๊ณ์ํด์ ๊ธฐ๋กํ๋ค.
๐ namdarineโs AI Review๋ ๋๊ตฌ๋ AI์ ํต์ฌ ๊ธฐ์ ์ ์ดํดํ ์ ์๋๋ก ๋ ผ๋ฌธ, ์๊ณ ๋ฆฌ์ฆ, ๊ตฌ์กฐ๋ฅผ ์ฝ๊ฒ ํ์ด์ฃผ๋ ์๋ฆฌ์ฆ์ ๋๋ค.
Letโs build it like itโs already happened.
โ ๋ค์ ๋ฆฌ๋ทฐ์์ ๋ง๋์!