[๐ namdarineโs AI Review] Language Models are Few-Shot Learners
GPT-3 ๋ ผ๋ฌธ ํต์ฌ ์ ๋ฆฌ: Few-shot Learning์ด NLP ํจ๋ฌ๋ค์์ ๋ฐ๊พผ ์๊ฐ
ChatGPT, Gemini, Claude๋ฅผ ์ฌ์ฉํด ๋ณธ ์ ์ด ์๋ค๋ฉด, ๋น์ ์ ์ด๋ฏธ ์ด ๋ ผ๋ฌธ์ ๊ฒฐ๊ณผ๋ฌผ์ ๊ฒฝํํ ๊ฒ์ด๋ค. 2020๋ OpenAI๊ฐ ๋ฐํํ โLanguage Models are Few-Shot Learnersโ๋ ์ค๋๋ ๋ํํ AI์ ์๋ ์๋ฆฌ๋ฅผ ๊ท์ ํ ์ถ๋ฐ์ ์ด๋ค. ์ AI์๊ฒ ์์ ๋ช ๊ฐ๋ง ๋ณด์ฌ์ฃผ๋ฉด ์๋ก์ด ์์ ์ ํด๋ด๋์ง ๊ทธ ๋ต์ด ์ฌ๊ธฐ์ ์๋ค.
์ด ๋ ผ๋ฌธ์ ํ๋์ ์ง๋ฌธ์์ ์ถ๋ฐํ๋ค. โ๊ฑฐ๋ํ ์ธ์ด ๋ชจ๋ธ์ fine-tuning ์์ด๋ ๋ฌธ๋งฅ๋ง์ผ๋ก ํ์ตํ ์ ์๋๊ฐ?โ
2020๋ ๋ฐํ๋ Language Models are Few-Shot Learners๋ GPT-3๋ฅผ ํตํด Few-shot learning๊ณผ In-context learning์ ๊ฐ๋ฅ์ฑ์ ์คํ์ ์ผ๋ก ์ฆ๋ช ํ ๋ ผ๋ฌธ์ด๋ค.
์ด ์ฐ๊ตฌ๋ NLP์ ๊ธฐ์กด ํจ๋ฌ๋ค์, Pretrain Fine-tune ๊ตฌ์กฐ,๋ฅผ ๋์ด โ๋ชจ๋ธ์ ์ถฉ๋ถํ ํฌ๊ฒ ๋ง๋ค๋ฉด ๊ฐ์ค์น ์ ๋ฐ์ดํธ ์์ด๋ ๋ฌธ๋งฅ ์ ์์๋ง์ผ๋ก ํ์ตํ ์ ์๋คโ๋ผ๋ ๊ฐ์ค์ ์ ์ํ๋ค.
๋ ผ๋ฌธ ์์ฝ
๋ชจ๋ธ ๊ท๋ชจ๋ฅผ ๊ทน๋จ์ ์ผ๋ก ํ์ฅํ๋ฉด ์ธ์ด ๋ชจ๋ธ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ ์์ด๋ ๋ฌธ๋งฅ ์ ์์๋ง์ผ๋ก ํ์ตํ๋ ๋ฅ๋ ฅ (Few-shot learning)์ด ์์ฐ์ค๋ฝ๊ฒ ํ๋ํ๋ค.
์ด ๋ ผ๋ฌธ์ ์ง์ง ์ง๋ฌธ
GPT-1์ ์ฌ์ ํ์ต ํ ๋ฏธ์ธ ์กฐ์ ์ด๋ผ๋ ์ ๋ต์ ํ๋ฆฝํ๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ค์ ์ง๋ฌธ์ ์์ฐ์ค๋ฝ๋ค.
โFine-tuning ์์ด๋ ๊ฐ๋ฅํ์ง ์์๊น?โ
์ด ๋ ผ๋ฌธ์ ๋ฐ๋ก ๊ทธ ๊ฐ๋ฅ์ฑ์ ์คํํ๋ค.
ํต์ฌ๋ง ์ ๋ฆฌํ๋ฉด
- ๊ธฐ์กด NLP๋ ์์ ๋ง๋ค fine-tuning + ๋๊ท๋ชจ ๋ผ๋ฒจ ๋ฐ์ดํฐ๊ฐ ํ์ํ๋ค.
- GPT-3๋ ๊ฐ์ค์ ์ธ์ด๋ค: โ๋ชจ๋ธ์ ์ถฉ๋ถํ ํฌ๊ฒ ๋ง๋ค๋ฉด, ๊ฐ์ค์น ์ ๋ฐ์ดํธ ์์ด๋ ๋ฌธ๋งฅ ์ ์์๋ง์ผ๋ก ํ์ตํ ์ ์๋ค.โ
- 175B ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ ํตํด ์ด๋ฅผ ์คํํ๋ค.
- ๋ชจ๋ธ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ๊ฒ์ฆ ์์ค์ ๋ฉฑ๋ฒ์น(power-law) ์ ์ผ๋ก ๊ฐ์ํ๋ค.
- ํนํ Few-shot ์ฑ๋ฅ์ด ํญ๋ฐ์ ์ผ๋ก ์์นํ๋ค.
- ๊ฒฐ๋ก : ๊ฑฐ๋ ์ธ์ด ๋ชจ๋ธ์ โํ์ตํ๋ ๋ฒโ์ ๋ด๋ถ์ ์ผ๋ก ์ต๋ํ๋ค. Fine-tuning ์์ด๋ ์๋ก์ด ์์ ์ ์ํํ ์ ์๋ค.
๊ธฐ์กด NLP์ ํ๊ณ: Fine-tuning ํจ๋ฌ๋ค์์ ์ธ ๊ฐ์ง ๋ฌธ์
๊ธฐ์กด ํ๋ฆ์ ๋ค์๊ณผ ๊ฐ์๋ค.
- ๋๊ท๋ชจ ๋ง๋ญ์น ์ฌ์ ํ์ต
- ์์ ๋ณ fine-tuning
์ด ๊ตฌ์กฐ์๋ ์ธ ๊ฐ์ง ๋ฌธ์ ๊ฐ ์์๋ค.
-
๋ฐ์ดํฐ์ ํ์์ฑ ํน์ ์์ ์ ์ํด ์์ฒ์์ ์ ๋ง๊ฐ์ ๋ ์ด๋ธ๋ง๋ ๋ฐ์ดํฐ์ ์ด ํ์ํ๋ค.
-
์ผ๋ฐํ ์ฑ๋ฅ์ ์๋ฌธ Fine-tuning๋ ๋ชจ๋ธ์ ํ์ต ๋ฐ์ดํฐ์ ์ข์ ๋ถํฌ ๋ด์์๋ ์ ์๋ํ์ง๋ง, ๊ทธ ๋ฒ์๋ฅผ ๋ฒ์ด๋ ๋ฐ์ดํฐ์ ๋ํด์๋ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง๊ฑฐ๋ ๋ฐ์ดํฐ์ ๊ฐ์ง ์๊ด๊ด๊ณ (spurious correlations)๋ฅผ ํ์ตํ ์ํ์ด ํฌ๋ค.
-
์ธ๊ฐ๊ณผ์ ์ฐจ์ด ์ธ๊ฐ์ ๋จ ๋ช ๊ฐ์ ์์๋ ์์ฐ์ด ์ค๋ช ๋ง์ผ๋ก๋ ์๋ก์ด ์ธ์ด ์์ ์ ์ํํ ์ ์์ง๋ง, ๊ธฐ์กด ์์คํ ์ ์ด๋ฅผ ๊ตฌํํ๋๋ฐ ํฐ ์ด๋ ค์์ด ์๋ค.
๋ฉํ ํ์ต (Meta-learning)๊ณผ In-context Learning
์ ์๋ ์ด๋ฌํ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ๋์์ผ๋ก ๋ฉํ ํ์ต ๊ด์ ์ ์ ์ํ๋ค.
๋ฉํ ํ์ต์ด๋, ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ๋จ๊ณ์์ ๊ด๋ฒ์ํ ๊ธฐ์ ๊ณผ ํจํด ์ธ์ ๋ฅ๋ ฅ์ ๊ฐ๋ฐํ๊ณ ์ถ๋ก ์์ ์ด๋ฅผ ํ์ฉํด ์๋ก์ด ์์ ์ ๋น ๋ฅด๊ฒ ์ ์ํ๋ ๊ฒ์ด๋ค.
In-context learning์ ๋ฉํ ํ์ต์ ๋ด๋ถ ๋ฃจํ (Inner loop)์ ํด๋นํ๋ฉฐ, pre-training๋ ๋ชจ๋ธ์ ์์ฐ์ด ์ง์์ฌํญ์ด๋ ๋ช ๊ฐ์ ์์๋ฅผ ํ๋กฌํํธ๋ก ์ฃผ์ด ์์ ์ ์ํํ๊ฒ ๋ง๋ ๋ค. ์ด ๊ณผ์ ์์๋ ๋ชจ๋ธ์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ (Gradient update)๊ฐ ์ ํ ๋ฐ์ํ์ง ์๋๋ค.
๋ค๋ง ์ ์๋ค๋ ์ธ์ ํ๋ฏ์ด, In-context learning์ด ์ ์๋ํ๋์ง๋ ์ด ๋ ผ๋ฌธ์์ ์์ ํ ์ค๋ช ๋์ง ์์๋ค. ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ์ ์์๋ก๋ถํฐ ์ค์ ๋ก โํ์ตโ ํ๋ ๊ฒ์ธ์ง, ์๋๋ฉด ์ฌ์ ํ์ต๋ ๋ฅ๋ ฅ์ โ์ธ์ถโ ํ๋ ๊ฒ์ธ์ง์ ๋ํ ๋ ผ์์ ์ดํ ์ฐ๊ตฌ๋ค์ ํต์ฌ ์ฃผ์ ๊ฐ ๋์๋ค.
๊ท๋ชจ์ ๊ฒฝ์ : ๋ชจ๋ธ ํฌ๊ธฐ ํ์ฅ์ ๊ฐ์ค
์ด ๋ ผ๋ฌธ์ ํต์ฌ ๊ฐ์ค์ **โ์ธ์ด ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ๊ท๋ชจ๋ฅผ ํค์ฐ๋ฉด In-context learning ๋ฅ๋ ฅ์ด ๋น์ฝ์ ์ผ๋ก ํฅ์๋ ๊ฒโ**์ด๋ค. GPT-2 (์ฝ 15์ต ๊ฐ)์์ ํจ์ฌ ๋ ๋์๊ฐ 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง GPT-3๋ฅผ ํ์ต์์ผฐ์ผ๋ฉฐ ์ด๋ ๋น์ ๊ฐ์ฅ ํฐ ๋นํฌ์ (Non-sparse) ์ธ์ด ๋ชจ๋ธ์ด์๋ Microsoft์ Turing-NLG (17B)๋ณด๋ค๋ 10๋ฐฐ ์ด์ ํฐ ๊ท๋ชจ์๋ค. ์ ์๋ค์ ๋ชจ๋ธ์ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ๋ฌธ๋งฅ ๋ด ์ ๋ณด๋ฅผ ๋ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ์ฌ ์์ ์ ํ์ตํ๋ ๋ฅ๋ ฅ์ด ๊ฐํ๋จ์ ํ์ธํ๋ ค ํ๋ค.
ํ๊ฐ ์กฐ๊ฑด
์ ์๋ GPT-3์ ์ฑ๋ฅ์ ์ธก์ ํ๊ธฐ ์ํด ๋ค์ 4๊ฐ์ง ์๋๋ฆฌ์ค๋ฅผ ์ ์ํ๋ค.
-
Zero-shot (0S): ์์ ์ ๋ํ ์์ฐ์ด ์ค๋ช ๋ง ์ ๊ณตํ๋ค. ๊ฐ์ฅ ๊ฒฌ๊ณ ํ๊ณ ํธ๋ฆฌํ ๋ฐฉ์์ด์ง๋ง, ์์๊ฐ ์์ผ๋ฉด ์์ ์ ํ์ (format)์ ์ดํดํ๊ธฐ ์ด๋ ค์ธ ์ ์์ด ๊ฐ์ฅ ๋์ ์ ์ธ ์ค์ ์ด๋ค.
-
One-shot (1S): ์ค๋ช ๊ณผ ํจ๊ป ๋ฑ ํ๋์ ์์๋ฅผ ๋ณด์ฌ์ค๋ค. ์ด๋ ์ฌ๋์๊ฒ โ์ด๊ฑด ์ด๋ฐ ๊ฑฐ์ผ, ์ ์ด์ ํด๋ดโ์ ์ ์ฌํ๋ค.
-
Few-shot (FS): ๋ชจ๋ธ์ ์ปจํ ์คํธ ์ฐฝ (๋ณดํต 10~100๊ฐ, nctx=2048)์ ๋ค์ด๊ฐ ์ ์๋ ๋งํผ์ ์์๋ฅผ ์ ๊ณตํ๋ค. ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ ์์ผ๋ฉฐ ๋ชจ๋ธ์ ์ ๋ ฅ๋ ์์์ ํจํด์ ๋ณด๊ณ ์ ๋ต์ ์์ธกํ๋ค.
-
Fine-Tuning: ์๋ง ๊ฐ์ ๋ ์ด๋ธ๋ง๋ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํด ๋ชจ๋ธ์ ๊ฐ์ค์น๋ฅผ ์ง์ ์ ๋ฐ์ดํธํ๋ ์ ํต์ ์ธ ๋ฐฉ์์ด๋ค. ์ฑ๋ฅ์ ๊ฐ๋ ฅํ์ง๋ง ์๋ก์ด ์์ ๋ง๋ค ๋๊ท๋ชจ ๋ฐ์ดํฐ์ ์ด ํ์ํ๊ณ ์ผ๋ฐํ ์ฑ๋ฅ์ด ๋จ์ด์ง ์ ์๋ค๋ ๋จ์ ์ด ์๋ค. ์ด๋ฒ ์ฐ๊ตฌ์์๋ ์ด ๋ฐฉ์์ ์ฌ์ฉํ์ง ์๊ณ ๊ฐ๋ฅ์ฑ๋ง ์ด์ด๋์๋ค.
๋ชจ๋ธ ์ํคํ ์ฒ
-
๊ตฌ์กฐ: GPT-2์ ๊ตฌ์กฐ (์์ ๋ ์ด๊ธฐํ, ์ฌ์ ์ ๊ทํ ๋ฑ) ๊ณ์นํ๋, Sparse Transformer์ ์ ์ฌํ๊ฒ ๊ต์ฐจ ์กฐ๋ฐ (alternating dense) ๋ฐ locally banded sparse attention ํจํด์ ์ ์ฉํ๋ค. ์ฝ๊ฒ ์ด์ผ๊ธฐํด์ ๋ชจ๋ ๋ฌธ์ฅ์ ๊ผผ๊ผผํ ์ฝ๋ ๋ฐฉ์ (Dense)์ ๊ทผ์ฒ์ ์๋ ์ค์ํ ๋จ์ด๋ค ์์ฃผ๋ก ํ์ด๋ณด๋ ๋ฐฉ์ (Sparse)์ ๋ฒ๊ฐ์๊ฐ๋ฉฐ ์ฌ์ฉํ๋ค. ๋ฐฉ๋ํ ์ ๋ณด๋ฅผ ๋ ๋น ๋ฅด๊ณ ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ค. ์ด๋ ์ ์ฒด ๊ณ์ฐ๋์ 10% ๋ฏธ๋ง์ ์ฐจ์งํ๋ค.
-
๊ท๋ชจ: ๋ชจ๋ธ ์ฑ๋ฅ์ด ํฌ๊ธฐ์ ๋ฐ๋ผ ์ด๋ป๊ฒ ๋ณํํ๋์ง ํ์ธํ๊ธฐ ์ํด 1์ต 2,500๋ง ๊ฐ๋ถํฐ 1,750์ต ๊ฐ๊น์ง ์ด 8๊ฐ์ง ํฌ๊ธฐ์ ๋ชจ๋ธ์ ํ๋ จ ์์ผฐ๋ค.
-
์ค์ : ๋ชจ๋ ๋ชจ๋ธ์ 2048๊ฐ์ ํ ํฐ ์ปจํ ์คํธ ์ฐฝ์ ์ฌ์ฉํ๋ฉฐ ๊ฐ์ค์น ์ด๊ธฐํ์ ํ์ดํผ ํ๋ผ๋ฏธํฐ๋ ๊ณ์ฐ ํจ์จ์ฑ์ ๊ณ ๋ คํด ์ค์ ํ๋ค.
ํ๋ จ ๋ฐ์ดํฐ์
์ฝ 1์กฐ ๊ฐ์ ๋จ์ด์ ๋ฌํ๋ ๋ฐฉ๋ํ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ๋ค.
- Common Crawl: ์ธํฐ๋ท ์ ์ธ๋ง ๋ฐ์ดํฐ๋ก ์์ ๋ง์ผ๋ ํ์ง์ด ๋ฎ์ ๊ณ ํ์ง ๋ฌธ์์ ์ ์ฌ์ฑ์ ๊ธฐ์ค์ผ๋ก ํํฐ๋งํ๊ณ ์ค๋ณต์ ์ ๊ฑฐ (fuzzy deduplication`) ํ์ฌ ์ฌ์ฉํ๋ค.
- ๊ณ ํ์ง ์์ค ๋ณด๊ฐ: ๋ฐ์ดํฐ์ ๋ค์์ฑ์ ์ํด WebText2, ๋ ์ข ๋ฅ์ ๋์ ๋ง๋ญ์น (Books1, Books2), ์๋ฌธ ์ํคํผ๋์๋ฅผ ์ถ๊ฐํ๋ค.
- ์ํ๋ง ์ ๋ต: ๋ฐ์ดํฐ์ ํฌ๊ธฐ ๊ทธ๋๋ก ํ๋ จํ๋ ๋์ , ํ์ง์ด ๋๋ค๊ณ ํ๋จ๋๋ ๋ฐ์ดํฐ๋ฅผ ๋ ์์ฃผ ์ํ๋งํ์ฌ ๋ชจ๋ธ์ด ๋ ์์ง์ ์ ๋ณด๋ฅผ ํ์ตํ๋๋ก ์ ๋ํ๋ค.
Fuzzy deduplication
Spark์ MinHashLSH ๊ตฌํ (10๊ฐ์ ํด์ ์ฌ์ฉ)์ ํ์ฉํ์๋ค. ์ด ๊ณผ์ ์ ํตํด ๋ฐ์ดํฐ์ ๋ด์ ์ค๋ณต๋ฟ๋ง ์๋๋ผ ๋ฐ์ดํฐ์ ๊ฐ์ ์ค๋ณต๋ ์ ๊ฑฐํ์ผ๋ฉฐ ๊ฒฐ๊ณผ์ ์ผ๋ก ์ ์ฒด ๋ฐ์ดํฐ์ ์ ํฌ๊ธฐ๊ฐ ํ๊ท ์ ์ผ๋ก 10% ๊ฐ์ํ๋ค.
Fuzzy deduplication์ ์์กฐ ๊ถ์ ์ฑ ์ด ์์ธ ๋์๊ด์์ ๋ด์ฉ์ด ๊ฑฐ์ ์ผ์นํ๋ ๋ณต์ฌ๋ณธ๋ค์ ์ฐพ์๋ด์ด ํ ๊ถ๋ง ๋จ๊ธฐ๊ณ ๋๋จธ์ง๋ ์ ๋ฆฌํจ์ผ๋ก์จ ๋ชจ๋ธ์ด ๋๊ฐ์ ๋ด์ฉ์ ๋ฐ๋ณตํด์ ๊ณต๋ถํ์ง ์๋๋ก ๋ง๋ ๋ค.
ํ๊ฐ ๋ฐ ๋ถ์ (Evaluation)
- ํ๊ฐ ๋ฐฉ์: ๊ฐ๊ด์ ์์ ์ ๊ฒฝ์ฐ ๊ฐ ์ ํ์ง ํ ํฐ์ ํ๋ฅ (likelihood)์ ๋น๊ตํ๊ณ ์ฃผ๊ด์ ์์ ์ ๋น ์์น (beam search)๋ฅผ ์ฌ์ฉํด ๋ต๋ณ์ ์์ฑํ๋ค.
- ๋ฐ์ดํฐ ์ค์ผ ๋ฐฉ์ง`: ์ธํฐ๋ท ๋ฐ์ดํฐ๋ฅผ ๊ธ์ด๋ชจ์ผ๋ค ๋ณด๋ ํ ์คํธ์ฉ ๋ฌธ์ ์ง๊ฐ ํ๋ จ ๋ฐ์ดํฐ์ ์์ฌ๋ค์ด๊ฐ๋ โ๋ฐ์ดํฐ ์ค์ผ (contamination)โ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ ์์ด ์ด๋ฅผ ์ธก์ ํ๊ณ ๊ฑธ๋ฌ๋ด๊ธฐ ์ํ ๋ณ๋์ ๋ถ์ ๊ณผ์ ์ ๊ฑฐ์ณค๋ค.
์ด๋ฅผ ์ธ์์ ๋ชจ๋ ์ฑ ์ ์ฝ์ ๋์๊ด ์ง๊ธฐ์ ๋น์ ํด ๋ณด์. ์ด ์ง๊ธฐ๋ ๋ ผ๋ฌธ ์ ์ฒด๋ฅผ ๊ดํตํ๋ ์ฐ๋ฆฌ์ ์ฃผ์ธ๊ณต์ด๋ค.
-
ํ๋ จ ๋ฐ์ดํฐ (๋ ์): ์ง๊ธฐ๋ ์ธํฐ๋ท์ ์จ๊ฐ ์ก์ง (common crawl)๋ถํฐ ๋ฐฑ๊ณผ์ฌ์ (wikipedia), ์์ค (Books)๊น์ง ๋ฅ์น๋ ๋๋ก ์ฝ๋๋ค. ์ด๋ ๊ทธ๋ฅ ์ฝ๋ ๊ฒ์ด ์๋๋ผ ๊ฒ์ฆ๋ ๋ช ์ (๊ณ ํ์ง ๋ฐ์ดํฐ)๋ฅผ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํด์ ์ฝ์ด ๊น์ ์ง์์ ์๋๋ค.
-
๋ชจ๋ธ ๊ท๋ชจ (๋๋ ์ฉ๋): ์ด ์ง๊ธฐ์ ๋์ธํฌ๊ฐ 1์ต ๊ฐ์ผ ๋์ 1,750์ต ๊ฐ์ผ ๋ ์ฝ์ ๋ด์ฉ์ ์ฐ๊ฒฐํ๊ณ ์ดํดํ๋ ์์ค์ด ๋ค๋ฅด๋ค. ๋๊ฐ ์ปค์ง์๋ก ์ง๊ธฐ๋ ํ ๋ฒ๋ ์ ํด๋ณธ ์ง๋ฌธ์๋ ์ฒ์ฒ ๋๋ตํ๊ธฐ ์์ํ๋ค.
-
์ํ ๋ฐฉ์ (์ํ ์ ํ)
- Fine-tuning: โ๋ด์ผ๋ถํฐ ์ํ ์ํ๋ง ๋ณผ ๊ฑฐ๋๊น ๋ค๋ฅธ ๊ฑด ์๊ณ ์ํ์ ์ ์๋ง ์ธ์โ (ํน์ ๋ถ์ผ ์ ๋ฌธํ)
- Few-shot: โ์, ์ฌ๊ธฐ ๊ธฐ์ถ๋ฌธ์ 5๊ฐ๋ ์ ๋ต์ด์ผ. ์ด์ 6๋ฒ ๋ฌธ์ ํ์ด๋ดโ (ํจํด ํ์ )
- One-shot: โ์ ๋ฐฐ๊ฐ ํผ ์ด ๋ฌธ์ ๋ฑ ํ๋๋ง ์ฐธ๊ณ ํด์ ๋ค์ ๋ฌธ์ ํ์ด๋ดโ (ํต์ฌ ์ดํด)
- Zero-shot: โ๊ทธ๋ฅ ์ด ๋ฌธ์ ํ์ด๋ด. ์ค๋ช ์ ๋ฌธ์ ์ง์ ์ฐ์ฌ์์ด.โ (์์ ์ง๋ฅ ํ ์คํธ)
๊ฒฐ๊ตญ ์ ์๋ โ์ฐ๋ฆฌ ๋์๊ด ์ง๊ธฐ (GPT-3)๊ฐ ์ถฉ๋ถํ ๋ง์ ์ฑ ์ ์ฝ๊ณ ๋๊ฐ ์ถฉ๋ถํ ํฌ๋ค๋ฉด ๊ตณ์ด ์ํ ํ์ (fine-tuning)์ ๋ฐ๋ก ์ ๋ค๋ ๋ ์ํ์ง ์์ ์ ํ ๋ช ๊ฐ์ ์์ (In-context learning)๋ง ๋ณด๊ณ ์์ธ๋ ์ํ์ ํต๊ณผํ ์ ์๋๊ฐ?โ๋ฅผ ๊ฒ์ฆํ๋ ค๋ ๊ฒ์ด๋ค.
๋ฐ์ดํฐ ์ค์ผ ๋ถ์ ๋ฐ ์ฒ๋ฆฌ
- ์ธก์ ๋ฐฉ๋ฒ: ๋ชจ๋ ํ ์คํธ/๊ฐ๋ฐ ๋ฐ์ดํฐ์ ๊ณผ ํ์ต ๋ฐ์ดํฐ ์ฌ์ด์ 13-gram (์ฐ์๋ 13๊ฐ ๋จ์ด) ์ค๋ณต์ ๊ฒ์
- ๋ถ์ ๊ณผ์ : ์ค๋ณต์ด ๋ฐ๊ฒฌ๋ ์ฌ๋ก๋ฅผ โ์ค์ผ๋จ (dirty)โ๋ก ๋ถ๋ฅํ๊ณ ์ด๋ฅผ ์ ๊ฑฐํ โ๊นจ๋ํจ (clean)โ ๋ฒ์ ์ ๋ฒค์น๋งํฌ๋ฅผ ๋ณ๋๋ก ์ ์
- ์ฑ๋ฅ ๋น๊ต: โ๊นจ๋ํจโ ๋ฐ์ดํฐ์ ์์์ ์ฑ์ ๊ณผ ์ ์ฒด ๋ฐ์ดํฐ์ ์์์ ์ฑ์ ์ ๋น๊ต ๋ถ์. ๋ถ์ ๊ฒฐ๊ณผ ๋๋ถ๋ถ์ ๋ฐ์ดํฐ์ ์์ ์ฑ๋ฅ ์ฐจ์ด๊ฐ ๋ฏธ๋ฏธํ์ผ๋ ์ค์ผ์ด ์ฌ๊ฐํ๋ค๊ณ ํ๋จ๋ ์ผ๋ถ ๊ฒฐ๊ณผ๋ ๋ณด๊ณ ์์ ์ ์ธํ๊ฑฐ๋ ๋ณํ(*)๋ฅผ ํ๊ธฐํ์ฌ ์ ๋ขฐ์ฑ์ ํ๋ณดํ๋ค.
์ ์๋ ์๋ฅ ์ํ์ ์น๋ฅด๊ธฐ ์ ํ์์ด ํ์ ์ฝ๋ ์ฑ ์ ์๋ฅ ๋ฌธ์ ๊ฐ ์ ์ถ๋์๋์ง ํ์ธํ๋ ๊ณผ์ ์ ๊ฑฐ์ณค๋ค. ๋ง์ฝ ์ ์ถ๋์๋ค๋ฉด ๊ทธ ๋ฌธ์ ๋ ์ฑ์ ์์ ์ ์ธํ๊ณ ๋๋จธ์ง ๋ฌธ์ ๋ง์ผ๋ก ์ค๋ ฅ์ ๋ค์ ์ธก์ ํ์ฌ ๊ณต์ ์ฑ์ ๋์ด๋ ๊ฒ๊ณผ ๊ฐ๋ค.
์ด๋ฌํ ๋ถ์ ๋จ๊ณ๋ค์ GPT-3๊ฐ ๊ฑฐ๋ ๋ฐ์ด๋ ์ฑ๋ฅ์ด ๋จ์ํ ๋ฐ์ดํฐ๋ฅผ ์๊ธฐํด์ ๋์จ ๊ฒฐ๊ณผ๊ฐ ์๋๋ผ ์ค์ ์ ์ธ ์ธ์ด ์ดํด ๋ฅ๋ ฅ์์ ์ฆ๋ช ํ๋ ์ค์ํ ๊ทผ๊ฑฐ๊ฐ ๋๋ค.
GPT-3 ์ฑ๋ฅ ๋ถ์: Few-shot์ด Fine-tuning์ ๋์ ์๊ฐ
๊ท๋ชจ์ ๊ฒฝ์ (Scaling Laws)
- ๊ฒ์ฆ ๊ฒฐ๊ณผ: ๋ชจ๋ธ์ ํ๋ผ๋ฏธํฐ ์์ ๊ณ์ฐ๋์ด ๋์ด๋ ์๋ก ๊ฒ์ฆ ์์ค (Validation Loss)์ด **๋ฉฑ๋ฒ์น (Power-law)**์ ๋ฐ๋ผ ๊ฐ์ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ๊ณ์ฐ๋์ 10๋ฐฐ ๋๋ฆฌ๋ฉด ์์ค์ด ์ฝ 0.05 ๊ฐ์ํ๋ ์ผ๊ด๋ ํจํด์ ๋ณด์๋ค. ์ด ์์ธก ๊ฐ๋ฅํ ๊ด๊ณ๋ ์ดํ โScaling Lawโ ์ฐ๊ตฌ์ ์ค์ฆ์ ๊ทผ๊ฑฐ๊ฐ ๋์๋ค.
- ๋ฉํ ํ์ต์ ๋ฐํ: ๋ชจ๋ธ์ด ์ปค์ง์๋ก zero-shot, one-shot๋ณด๋ค Few-shot ์ฑ๋ฅ์ด ํจ์ฌ ๋ ๊ฐํ๋ฅด๊ฒ ์์นํ๋ค. ์ฆ, ํฐ ๋ชจ๋ธ์ผ์๋ก ๋ฌธ๋งฅ ์์ ์์๋ฅผ ๋ณด๊ณ โ๋์น๊ปโ ๋ฐฐ์ฐ๋ ๋ฅ๋ ฅ์ด ์๋์ ์ด๋ค.
์ฃผ์ ์์ ๋ณ ์ฑ๋ฅ ์์ฝ
-
์ธ์ด ๋ชจ๋ธ๋ง ๋ฐ ๋ฌธ์ฅ ์์ฑ: LAMBADA ๋ฐ์ดํฐ์ ์์ Few-shot ์ฑ๋ฅ์ด ์ต๊ณ ๊ธฐ๋ก (SOTA)์ 18%๋ ๊ฒฝ์ ํ๋ค. ์ด๋ ์ฅ๊ฑฐ๋ฆฌ ๋ฌธ๋งฅ ํ์ ๋ฅ๋ ฅ์ ์ ์ฆํ๋ค.
-
ํ์ํ ์ง๋ฌธ ๋ต๋ณ (Closed Book QA): ์ธ๋ถ ์ง์ ๊ฒ์ ์์ด ์์ํ๊ฒ ํ๋ผ๋ฏธํฐ์ ์ ์ฅ๋ ์ ๋ณด๋ง์ผ๋ก ๋ต๋ณํ๋ ๋ฅ๋ ฅ์ ์ธก์ ํ๋ค. TriviaQA์์ Few-shot ์ค์ ์ผ๋ก **71.2%**๋ฅผ ๊ธฐ๋กํด fine-tuning์ ๊ฑฐ์น ๋ชจ๋ธ๋ค๋ณด๋ค ๋ ์ฐ์ํ ์ฑ๋ฅ์ ๋ณด์ฌ์ฃผ์๋ค.
-
๋ฒ์ญ: ์์ด ๋ชจ๋ธ์์๋ ๋ถ๊ตฌํ๊ณ ์๋ฌธ ์ํคํผ๋์ ์ธ์ ์๋ ํฌํจ๋ ๋ค๊ตญ์ด ๋ฐ์ดํฐ๋ฅผ ํตํด ๋ฒ์ญ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ฃผ์์ผ๋ฉฐ ํนํ ์์ด๋ก ๋ฒ์ญํด ๋ค์ด์ค๋ ์์ ์์ ๊ฐ์ ์ ๋ณด์๋ค.
-
SAT ์ ์ถ: SAT์ ๋จ์ด ์ ์ถ ๋ฌธ์ ์์ 65.2%์ ์ ํ๋๋ฅผ ๊ธฐ๋กํ์ฌ ์ธ๊ฐ ์์์ ํ๊ท (57%)์ ์ํํ๋ ์ฑ์ ์ ๋ณด์๋ค.
-
ํฉ์ฑ ๋ฐ ์ง์ ์์ (GPT-3์ ๋ฐฑ๋ฏธ):
- ์ฐ์ ์ฐ์ฐ: 3์๋ฆฟ์ ๋ง์ /๋บ์ ์ ๋์ ์ ํ๋๋ก ์ํํ๋ค. ์ด๋ ๋จ์ํ ๋ต์ ์๊ธฐํ ๊ฒ์ด ์๋๋ผ ์ฐ์ฐ ๊ท์น์ ์ดํดํ์์ ์์ฌํ๋ค.
- ๋ด์ค ๊ธฐ์ฌ ์์ฑ: 1,750์ต ๊ฐ ํ๋ผ๋ฏธํฐ ๋ชจ๋ธ์ด ์ด ๊ธฐ์ฌ๋ ์ฌ๋์ด ์ค์ ๊ธฐ์ฌ์ ๊ตฌ๋ณํ ํ๋ฅ ์ด 52%์ ๋ถ๊ณผํ๋ค. ์ด๋ ๋์ ๋์ง๊ธฐ ์์ค์ด๋ค. ๋ฐ๋ฉด ์์ ๋ชจ๋ธ (125M)์ด ์ด ๊ธฐ์ฌ๋ 76%์ ์ ํ๋๋ก ๊ตฌ๋ณ๋์๋๋ฐ ๋ชจ๋ธ์ด ์ปค์ง์๋ก ์ธ๊ฐ์ ํ๋ณ ๋ฅ๋ ฅ์ด ๊ธ๊ฒฉํ ๋จ์ด์ง ๊ฒ์ด๋ค.
GPT-3์ ์ฝ์
์์ฐ์ด ์ถ๋ก (NLI) ๋ฐ ์ผ๋ถ ๋ ํด์์ ์ฝ์ ์ ๋ณด์๋ค. ๋ ๋ฌธ์ฅ์ ๊ด๊ณ๋ฅผ ๋น๊ตํ๋ ANLI๋ QuAC, WIC (๋จ์ด ์๋ฏธ ๋น๊ต) ๊ฐ์ ์์ ์์๋ ๋ชจ๋ธ ๊ท๋ชจ๋ฅผ ํค์๋ ์ฌ์ ํ ์ธ๊ฐ์ด๋ ๋ฏธ์ธ ์กฐ์ ๋ชจ๋ธ์ ๋นํด ํฐ ๊ฒฉ์ฐจ๋ฅผ ๋ณด์ด๋ฉฐ ๊ณ ์ ํ๋ค.
์ ์๋ ์ด๋ฌํ ์ฝ์ ์ด ๊ตฌ์กฐ์ ํ๊ณ๋ก GPT-3๊ฐ ๋จ๋ฐฉํฅ (Autoregressive)` ๊ตฌ์กฐ๋ฅผ ์ฌ์ฉํ๊ธฐ ๋๋ฌธ์ผ ์ ์์ผ๋ฉฐ ์๋ฐฉํฅ (Bidirectional) ์ ๋ณด๊ฐ ํ์ํ ์์ ์์ ๋ถ๋ฆฌํ ์ ์๋ค๊ณ ๋ถ์ํ๋ค.
์ฐ๋ฆฌ ๋์๊ด ์ง๊ธฐ์ ๋ชจ์๊ณ ์ฌ ์ฑ์ ํ๋ฅผ ๋ถ์ํด ๋ณด์.
- ์์/๊ธฐ์ฌ ์ฐ๊ธฐ: ๊ตญ์ด๋ ๋ ผ์ ์ฒ๋ผ ๋ฐฐ๊ฒฝ์ง์์ด ์ค์ํ ๊ณผ๋ชฉ์์๋ ํน์ ๊ณผ๋ชฉ ํ์์ ๋ค๋ ํ์ (fine-tuning ๋ชจ๋ธ)๋ณด๋ค ๋ ๋์ ์ ์๋ฅผ ๋ฐ์๋ค. ์๋ง ๊ถ์ ์ฑ ์ ์ฝ์ ์ง๊ธฐ์ ์ ๋ ฅ์ด ๋ฐํ๋ ๊ฒ์ด๋ค.
- ์ํ/๋ ผ๋ฆฌ: ์ ๊ตํ ์ถ๋ก ์ด ํ์ํ ๊ณ ๋๋ ๋ฌธ์ (NLI)๋ ํจ์ ๋ฌธ์ (WIC)์์๋ ๋นํฉํ๋ค. ์ฑ ์ ๋ง์ด ์ฝ์๋ค๊ณ ์ํ์ ์ํ๋ ๊ฑด ์๋ ์ ์ด๋ค.
- Few-shot ํจ๊ณผ: ์ด ์ง๊ธฐ์ ์ง์ง ๊ฐ์ ์ ์ํ์ง ์์ ์ ํ ์์ 5๊ฐ๋ง ๋ณด๊ณ โ์, ์ด๋ฐ ์์ผ๋ก ํ๋ผ๋ ๊ฑฐ๊ตฌ๋!โ ํ๋ฉฐ ๋ฐ๋ก ์ ์ํ๋ ์์ฉ๋ ฅ์ด๋ค. ํ์์ ์ ๋ค๋ ๋ ๊ธฐ์ถ ๋ช ๊ฐ๋ฉด ์ถฉ๋ถํ๋ค.
๋ชจ๋ธ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก Few-shot ์ฑ๋ฅ์ด ๊ฐํ๋ฅด๊ฒ ์์นํ๋ ์ด์
๊ฑฐ๋ ๋ชจ๋ธ์ผ์๋ก โIn-context learningโ๊ณผ โ๋ฉํ ํ์ตโ ๋ฅ๋ ฅ์ด ๋น์ฝ์ ์ผ๋ก ์ ๊ตํด์ง๊ธฐ ๋๋ฌธ์ด๋ค.
๋ฌธ๋งฅ ์ ๋ณด์ ํจ์จ์ ํ์ฉ (Increased Efficiency in Context Use)
๋ชจ๋ธ์ ๊ท๋ชจ๊ฐ ์ปค์ง์๋ก ์ ๋ ฅ๋ ๋ฌธ๋งฅ ๋ด ์ ๋ณด๋ฅผ ์ฌ์ฉํ๋ ํจ์จ์ฑ์ด ํฌ๊ฒ ํฅ์๋๋ค. ๊ฑฐ๋ ๋ชจ๋ธ์ Few-shot ์ค์ ์์ ์ ๊ณต๋๋ ์ฌ๋ฌ ์์ (Demonstrations) ์ฌ์ด์ ํจํด์ ๋ ๋ฏผ๊ฐํ๊ฒ ํฌ์ฐฉํ๋ฉฐ ์์๊ฐ ์ถ๊ฐ๋ ์๋ก ์ฑ๋ฅ์ด ์์นํ๋ โํ์ต ๊ณก์ โ์ด ์์ ๋ชจ๋ธ๋ณด๋ค ํจ์ฌ ๊ฐํ๋ฅด๊ฒ ๋ํ๋๋ค. ์ฆ, ํฐ ๋ชจ๋ธ์ผ์๋ก ๋ฌธ๋งฅ์ ํฌํจ๋ ์ง์์ฌํญ๊ณผ ์์๋ฅผ ํตํด โ์ง๊ธ ํด์ผ ํ ์์ ์ด ๋ฌด์์ธ์งโ๋ฅผ ๋ ๋น ๋ฅด๊ณ ์ ํํ๊ฒ ์ดํดํ๋ค.
๋ฉํ ํ์ต์๋ก์์ ์๋ จ๋ ํฅ์ (Proficiency as Meta-Learners)
์ ์๋ค์ ์ธ์ด ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ๊ณผ์ ์์ ์๋ง์ ํ ์คํธ๋ฅผ ์ฝ์ผ๋ฉฐ ๋ค์ํ ๊ธฐ์ ๊ณผ ํจํด ์ธ์ ๋ฅ๋ ฅ์ ์ต๋ํ๋ ๊ณผ์ ์ โ๋ฉํ ํ์ตโ์ผ๋ก ์ ์ํ๋ค. ๋ชจ๋ธ์ ์ฉ๋์ด ์ปค์ง์๋ก ์ด๋ฌํ ๋ฉํ ํ์ต ๋ฅ๋ ฅ์ด ๊ฐํ๋์ด ์ถ๋ก ์์ ์ ์ฒ์ ๋ณด๋ ์์ ์ด๋ผ๋ ๋ช ๊ฐ์ง ์์๋ง ์ฃผ์ด์ง๋ฉด ์ฌ์ ํ์ต ๋ ์ตํ ๋ฐฉ๋ํ ์ง์ ์ค ํด๋น ์์ ์ ํ์ํ ๊ธฐ์ ์ ์ฆ์์์ ๊ณจ๋ผ ์ ์ํ๋ ๋ฅ๋ ฅ์ด ๋ฐ์ด๋๋ค. ์ค์ ๋ก ๋ชจ๋ธ ์ฉ๋์ด ์ปค์ง์๋ก Zero-shot๊ณผ Few-shot ์ฌ์ด์ ์ฑ๋ฅ ๊ฒฉ์ฐจ๊ฐ ๋ฒ์ด์ง๋ ํ์์ ๊ฑฐ๋ ๋ชจ๋ธ์ด ๋ ์ฐ์ํ ๋ฉํ ํ์ต์์์ ์์ฌํ๋ค.
ํ๋ผ๋ฏธํฐ ๋ด ์ง์ ํก์๋ ์ฐจ์ด (Knowledge Absorption)
๋ชจ๋ธ ์ํคํ ์ฒ์ ์ฉ๋ (Parameters)์ ๋ชจ๋ธ์ด ์ฌ์ ํ์ต ์ค์ ํก์ํ ์ ์๋ โ์ง์์ ์โ๊ณผ ์ง์ ์ ์ผ๋ก ์ฐ๊ฒฐ๋๋ค. 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง GPT-3์ ๊ฐ์ ๊ฑฐ๋ ๋ชจ๋ธ์ ๋ฐฉ๋ํ ์น ๋ฐ์ดํฐ์ ํฌํจ๋ ๋ฏธ์ธํ๊ณ ๋ณต์กํ ์ธ์ด์ ํจํด๊ณผ ์ธ๊ณ ์ง์์ ํจ์ฌ ๋ ์กฐ๋ฐํ๊ฒ ํ์ตํ๋ค. ์ด๋ ๊ฒ ์ถ์ ๋ ํ๋ถํ ๋ด๋ถ ์ง์ ๋๋ถ์ Few-shot ๋จ๊ณ์์ ์ฝ๊ฐ์ ํํธ (์์)๋ง ์ฃผ์ด์ ธ๋ ๊ด๋ จ ์ง์์ ํญ๋ฐ์ ์ผ๋ก ์ธ์ถํ์ฌ ์ ๋ต์ ๋งํ ํ๋ฅ ์ด ๋์์ง๋ค.
์ฝ๊ฒ ๋งํด ์ฃผ์ด์ง ์์๋ก๋ถํฐ ๊ท์น์ ์ฐพ์๋ด๊ณ ๊ธฐ์กด ์ง์์ ๊ทธ ๊ท์น์ ๋ง๊ฒ ์ฌ๊ตฌ์ฑํ๋ โ์์ฉ ์ง๋ฅ (In-context learning)โ ์์ฒด๋ฅผ ๋ฐ๋ฌ์ํจ๋ค.
๋จ๋ฐฉํฅ ๊ตฌ์กฐ๊ฐ ์๋ฐฉํฅ ๊ตฌ์กฐ๋ณด๋ค ํน์ ์์ ์์ ๋ถ๋ฆฌํ ์ด์
๊ตฌ์กฐ์ , ์๊ณ ๋ฆฌ์ฆ์ ํ๊ณ ๋๋ฌธ์ด๋ค. ๋ฌธ๋งฅ ํ์ ๊ฐ์ ์์ ์์ ๋จ๋ฐฉํฅ ๋ชจ๋ธ์ ํ ์คํธ๋ฅผ ์์์๋ถํฐ ์ฐจ๋ก๋๋ก ์ฒ๋ฆฌํ์ฌ ๋ค์ ํ ํฐ์ ์์ธกํ๋ค. ๋ฐ๋ฉด ์๋ฐฉํฅ ๊ตฌ์กฐ๋ ๋ฌธ์ฅ ์ ์ฒด๋ฅผ ํ๊บผ๋ฒ์ ์ดํ ์ ์์ด ๋ ์ ๊ตํ ํํ์ ํ์ตํ๋๋ฐ ์ ๋ฆฌํ๋ค. ๋จ๋ฐฉํฅ ๊ตฌ์กฐ๋ ์ํ๋ง๊ณผ ํ๋ฅ ๊ณ์ฐ์ด ์ง๊ด์ ์ด๋ผ๋ ์ฅ์ ์ด ์์ง๋ง ๋ฌธ์ฅ์ ์ค๊ฐ์ ์ฑ์ฐ๊ฑฐ๋ (Fill-in-the-blank) ์๋ค ์ ๋ณด๋ฅผ ๋ณตํฉ์ ์ผ๋ก ๋น๊ตํด์ผ ํ๋ โ๋น๊ต (comparison)โ ์ค์ฌ์ ํ์คํฌ์์๋ ์๋ฐฉํฅ ๊ตฌ์กฐ๋ณด๋ค ์ฑ๋ฅ์ด ๋ค์ฒ์ง๋ ํ๊ณ๊ฐ ์๋ค.
BPE ํ ํฌ๋์ด์ ํ๊ณ ๊ทน๋ณต
๋ชจ๋ธ์ด In-context learning์ ํตํด ํ ํฐ์ ๋ด๋ถ ํ์ ๊ตฌ์กฐ๋ฅผ ์ดํดํ๊ณ ๋ถํดํ๋ ๊ณ ๋์ ํจํด ๋งค์นญ ๋ฅ๋ ฅ์ ๊ฐ์ถ์๊ธฐ ๋๋ฌธ์ BPE ํ ํฌ๋์ด์ ์ ํ๊ณ์๋ ๋ถ๊ตฌํ๊ณ ์ฒ ์ ์กฐ์ (Word Manipulation) ํ์คํฌ๋ฅผ ์ํํ ์ ์๋ค.
-
ํ ํฐ ํ์ ๊ตฌ์กฐ์ ์ดํด BPE ์ธ์ฝ๋ฉ์ ๋ณดํต ๋จ์ด์ ์๋น ๋ถ๋ถ (ํ ํฐ๋น ํ๊ท ์ฝ 0.7 ๋จ์ด)์ ํ๋์ ๋จ์๋ก ์ฒ๋ฆฌํ๋ฏ๋ก ๊ฐ๋ณ ๋ฌธ์์ ์ง์ ์ ๊ทผํ๊ธฐ ์ด๋ ต๋ค. GPT-3๋ ํ ํฐ์ ๊ตฌ์ฑํ๋ ๊ฐ๋ณ ๋ฌธ์๋ฅผ โํ์ดํค์ณ์ (Pulling apart)โ ์ดํดํ๋ ๋ฅ๋ ฅ์ ๊ฐ์ง๊ณ ์๋ค.
-
In-context learning์ ํตํ ๊ท์น ์ต๋ ๋ชจ๋ธ์ ์ด๋ฌํ ์กฐ์์ Zero-shot ์ค์ ์์๋ ๊ฑฐ์ ์ํํ์ง ๋ชปํ์ง๋ง Few-shot ์ค์ ์์๋ ์ฑ๋ฅ์ด ๊ธ๊ฒฉํ๊ฒ ํฅ์๋๋ค. ์ด๋ ์ถ๋ก ์์ ์ ์ ์๋ ํ ์คํธ ํจํด์ผ๋ก๋ถํฐ ์๋ก์ด ๊ธฐํธ ์กฐ์ ๊ท์น์ ์ฆ์์์ ํ์ตํ๋ค.
-
๋ชจ๋ธ ๊ท๋ชจ์ ๋ฐ๋ฅธ ์ง๋ฅ์ ๋ฐํ ๋ฌธ์ ์์ค์ ์กฐ์ ๋ฅ๋ ฅ์ ๋ชจ๋ธ์ ํฌ๊ธฐ๊ฐ ์ปค์ง์๋ก ๋งค๋๋ฝ๊ฒ ํฅ์๋๋ค. ํนํ 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง GPT-3๋ ์์ ๋ชจ๋ธ๋ค์ด ์ ํ ํด๊ฒฐํ์ง ๋ชปํ๋ ๋ณต์กํ ์กฐ์ ๋ฐ ๋น์๋ช ํ (non-trivial) ๊ณ์ฐ ์์ ์ ์ํํ ์ ์๋ ์ถฉ๋ถํ ์ฉ๋์ ๊ฐ์ถ๊ณ ์๋ค.
-
๋น๊ฒฐ์ ์ ๊ฒ์ ๋ฅ๋ ฅ ๋ชจ๋ธ์ด ์ฌ๋ฐ๋ฅธ ๋ต์ ์ฐพ๊ธฐ ์ํด ๋ด๋ถ์ ์ธ ๊ฒ์๊ณผ ๋ณต์กํ ์ฐ์ฐ์ ์ํํด์ผ ํ๋๋ฐ ๊ฑฐ๋ ๋ชจ๋ธ์ ์ด๋ฌํ ๋นํ ํฌ๋์ด์ง์ ํจํด ๋งค์นญ ๊ธฐ์ ์ ํจ๊ณผ์ ์ผ๋ก ๋ฐํํ๋ค.
๋ฐ๋ผ์ GPT-3๋ ๋ฌธ์ ๋จ์์ ์ธ๋ฐํ ๊ตฌ์กฐ๋ฅผ ํ์ ํ๊ณ ์ฃผ์ด์ง ์์๋ฅผ ํตํด ์ฆ์์์ ๋ ผ๋ฆฌ์ ์ถ๋ก ์ ์ ์ฉํ์ฌ BPE ๋ฐฉ์์ ๊ตฌ์กฐ์ ์ ์ฝ์ ๊ทน๋ณตํ๋ค.
๋ค๋ฅธ ๊ธฐ์ ์ ํ๊ณ
์๋ฏธ๋ก ์ ๋ฐ๋ณต๊ณผ ์ผ๊ด์ฑ ์์ค
- ๋ฌธ์ ์์ค์ ๋ฐ๋ณต: GPT-3๊ฐ ์์ฑํ ์ํ์ ๋ฌธ์ ์ ์ฒด์ ๋งฅ๋ฝ์์ ๋ณผ ๋ ๋์ผํ ์๋ฏธ๋ฅผ ๊ฐ์ง ๋ฌธ์ฅ์ด๋ ๊ฐ๋ ์ ๋ถํ์ํ๊ฒ ๋ฐ๋ณตํ๋ ๊ฒฝํฅ.
- ์ฅ๊ธฐ ์ผ๊ด์ฑ ๋ถ์กฑ: ๊ธ์ด ๊ธธ์ด์ง์๋ก ์ด๋ฐ์ ์ค์ ํ ๋ ผ๋ฆฌ๋ ์ฃผ์ ๋ฅผ ์์ด๋ฒ๋ฆฌ๊ณ ๋ชจ์๋ ๋ด์ฉ์ ๋งํ๊ฑฐ๋, ์๋ค ๋งฅ๋ฝ์ด ๋ง์ง ์๋ ๋น๋ ผ๋ฆฌ์ ๋น์ฝ (non-sequitur)์ด ๋ํ๋จ.
- ๋ด์ค ๊ธฐ์ฌ ์์ฑ์์์ ๋ ธ์ถ: ์ฌ๋์ด ์ด ๊ธ๊ณผ ๊ตฌ๋ณํ๊ธฐ ์ด๋ ต์ง๋ง, ์์ธํ ๋ฏ์ด๋ณด๋ฉด ๋ํ๋๋ ์ด๋ฌํ ๋ฐ๋ณต๊ณผ ๋ถ์์ฐ์ค๋ฌ์ด ๊ตฌ์ ๋ค์ด ๊ธฐ๊ณ๊ฐ ์ด ๊ธ์์ ์ ์ ์๊ฒ ํ๋ ๊ฒฐ์ ์ ์ธ ๋จ์.
์ด๋ ๋จ๋ฐฉํฅ ๊ตฌ์กฐ์ ํ๊ณ์ด๊ณ , ์ฌ์ ํ์ต ๋ชฉ์ ํจ์์ ํ๋ช ์ฑ`๊ณผ ์ธ๊ณ ์ง์๊ณผ์ ์ ์ ๋ถ์ฌโ ๋๋ฌธ์ด๋ค.
*์ฌ์ ํ์ต ๋ชฉ์ ํจ์์ ํ๋ฉด์ฑ: ๋ชจ๋ ํ ํฐ์ด ๋์ผํ ๊ฐ์ค์น ํต์ฌ ๋จ์ด์ ์กฐ์ฌ๋ฅผ ๊ตฌ๋ถํ์ง ๋ชปํ๋ค.
** ์ธ๊ณ ์ง์๊ณผ์ ์ ์ ๋ถ์ฌ: ํ ์คํธ ํต๊ณ๋ก๋ง ์ธ์์ ๋ฐฐ์ด๋ค. ์ค์ ์ธ๊ณ์ ๊ฒฝํ์ด ๊ฒฐ์ฌ.
ํ์ต ํจ์จ์ฑ ๋ถ์กฑ (์ธ๊ฐ๊ณผ ๋น๊ต๋๋ ์๋์ ์ธ ๋ฐ์ดํฐ์)
GPT-3๋ ์ฌ์ ํ์ต ๊ณผ์ ์์ ์ฝ 3,000์ต ๊ฐ์ ํ ํฐ์ ํ์ตํ๋ค. ์ด๋ ์ธ๊ฐ์ด ํ์ ์ ํ๋ ๊ฒ๋ณด๋ค ํจ์ฌ ๋ ๋ง์ ํ ์คํธ๋ฅผ ๋ด์ผ ํ๋ค. ์์ธ์ ๋ง์ฐฌ๊ฐ์ง๋ก ํ๋ฉด์ ์ธ ํ์ต ๋ชฉ์ ํจ์์ ํ๊ณ์ ์ธ๊ณ ์ง์๊ณผ์ ๋จ์ ๋๋ฌธ์ด๋ค. ์ด๋ ํ์ฅ์ ํ๊ณ`์ ๋์์ ํ์์ฑโ์ ๋ณด์ฌ์ค๋ค.
*๋ชจ๋ธ์ ํฌ๊ธฐ๋ฅผ ํค์ฐ๋ ๊ฒ๋ง์ผ๋ก๋ ํจ์จ์ฑ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
** ๊ทน๋ณตํ๊ธฐ ์ํด ์ธ๊ฐ์ผ๋ก๋ถํฐ ๋ชฉ์ ํจ์๋ฅผ ๋ฐฐ์ฐ๊ฑฐ๋ (RLHF) ์ด๋ฏธ์ง, ๋น๋์ค ๊ฐ์ ๋ค์ค ๋ชจ๋ฌ๋ฆฌํฐ (Multi-modality)๋ฅผ ์ถ๊ฐํ์ฌ ๋ชจ๋ธ์ ์ค์ ์ธ๊ณ์ ์ฐ๊ฒฐํ๋ ๋ฐฉ์.
์ฌํ์ ์ํฅ
์ธ์ด ๋ชจ๋ธ์ ์ค์ฉ
GPT-3๋ fine-tuning ์์ด ๋ช ๊ฐ์ ์์๋ ์ง์๋ง์ผ๋ก ์๋ก์ด ์์ ์ ์ํํ ์ ์๋๋ฐ ์ด๋ฌํ ๋ฒ์ฉ์ฑ๊ณผ ์ ์์ฑ์ ์ ์์ ์ธ ์ฌ์ฉ์์๊ฒ๋ ๊ฐ๋ ฅํ ๋๊ตฌ๊ฐ ๋๋ค.
-
์ง์ ์ฅ๋ฒฝ์ ์ํ: ๊ธฐ์กด์๋ ๊ณ ํ์ง์ ๊ฐ์ง ๋ด์ค๋ ํผ์ฑ ๋ฌธ๊ตฌ๋ฅผ ๋ง๋ค๋ ค๋ฉด ์๋นํ ์ธ์ ์์์ด ํ์ํ์ง๋ง, ์ด์ ๋ ๋ฎ์ ๋น์ฉ์ผ๋ก ๋๋์ ์ค๋๋ ฅ ์๋ ํ ์คํธ๋ฅผ ์์ฑํ ์ ์๊ฒ ํ์ฌ ์ค์ฉ์ ๋ฌธํฑ์ ๋ฎ์ถค.
-
์ธ๊ฐ ์๋ณ ๋ฅ๋ ฅ ํ๊ณ: ์คํ ๊ฒฐ๊ณผ GPT-3๊ฐ ์์ฑํ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์ฌ๋์ด ์ค์ ๊ธฐ์ฌ์ ๊ตฌ๋ณํ ํ๋ฅ ์ ์ฝ 52% ๋ชจ๋ธ์ด ์์ฑํ ์ ๋ณด๊ฐ ์ฌ๋ก ์กฐ์์ด๋ ์คํธ ๋ฑ์ ์ ์ฉ๋ ๊ฒฝ์ฐ ์ฌํ์ ํฐ ํผ๋์ ์ผ๊ธฐํ ์ ์์์ ์์ฌ.
๊ณต์ ์ฑ, ํธํฅ ๋ฐ ๋ํ์ฑ (Fairness, Bias, and Representation)
GPT-3๊ฐ ํ์ตํ ๋ฐฉ๋ํ ์ธํฐ๋ท ๋ฐ์ดํฐ๋ ์ธ๋ฅ์ ์ง์๋ฟ๋ง ์๋๋ผ ์ฌํ์ ํธ๊ฒฌ๊ณผ ๊ณ ์ ๊ด๋ ๋ ๊ณ ์ค๋ํ ๋ด๊ณ ์๋ค.
-
์ธํฐ๋ท ๊ท๋ชจ์ ํธํฅ ๋ฐ์ ํ์ต ๋ฐ์ดํฐ์ ์กด์ฌํ๋ ํธํฅ์ ๊ทธ๋๋ก ํ์ตํ์ฌ ์ถ๋ ฅํ๋ค. ์๋ฅผ ๋ค์ด โ์ง์ โ๊ณผ โ์ฑ๋ณโ์ ์ฐ๊ด ์ง๋ ํ ์คํธ์์ 83%์ ์ง์ ์ด ๋จ์ฑ ์๋ณ์์ ๋ ๊ฐํ๊ฒ ์ฐ๊ฒฐ๋์๊ณ , ์ฌ์ฑ์ ์ฃผ๋ก ์ธ๋ชจ๋ฅผ ๋ฌ์ฌํ๋ ๋จ์ด (beautiful, gorgeous)์ ๋ ์์ฃผ ๊ณตํต ์ถํํ๋ ๊ฒฝํฅ์ ๋ณด์ธ๋ค.
-
์ธ์ข ๋ฐ ์ข ๊ต์ ํธํฅ ํน์ ์ธ์ข ์ ๋ํด ์ผ๊ด๋๊ฒ ๋ถ์ ์ ์ด๊ฑฐ๋ ๊ธ์ ์ ์ธ ๊ฐ์ฑ ์์น๋ฅผ ๋ณด์ด๊ธฐ๋ ํ๊ณ (์๋ฅผ ๋ค์ด โblackโ์ ๋ํ ๋ฎ์ ๊ฐ์ฑ ์ ์), ํน์ ์ข ๊ต๋ฅผ ํญ๋ ฅ์ด๋ ํ ๋ฌ์ ๊ฐ์ ๋ถ์ ์ ์ธ ๋จ์ด์ ๋ ๋น๋ฒํ๊ฒ ์ฐ๊ด ์ง์๋ค.
-
๊ท๋ชจ์์ ์๊ด๊ด๊ณ 1,750์ต ๊ฐ์ ํ๋ผ๋ฏธํฐ๋ฅผ ๊ฐ์ง GPT-3๋ ๋ ์์ ๋ชจ๋ธ๋ค์ ๋นํด ํน์ ํธํฅ ์์ (Winogender ๋ฑ)์์ ๋ ๋์ ์ ํ๋์ ๊ฐ๊ฑดํจ (robustness)์ ๋ณด์ฌ์ค๋ค. ๋ชจ๋ธ์ด ์ปค์ง์๋ก ํธํฅ์ ๋ ์ ๊ตํ๊ฒ ์ฒ๋ฆฌํ ๊ฐ๋ฅ์ฑ์ด ์์์ ์์ํ์ง๋ง ๊ทผ๋ณธ์ ์ผ๋ก ํธ๊ฒฌ์ ๋ณด์ ํ๊ณ ์๋ค.
์๋์ง ํจ์จ์ฑ ๋ฐ ์์ ์๋ชจ (Energy Usage)
๊ฑฐ๋ ๋ชจ๋ธ์ ๋๊ท๋ชจ ์ฌ์ ํ์ต ๊ณผ์ ์์ ๋ง๋ํ ์๋์ง๋ฅผ ์๋ชจํ๋ค.
- ํ๋ จ ๋น์ฉ์ ๊ฐ๊ฐ์๊ฐ (Amortization): GPT-3 175B ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ฐ ์์ฒ ํํํ๋กญ (petaflop/s-days)์ ๊ณ์ฐ๋์ด ํ์ํ๋ค. ํ์ง๋ง ์ ์๋ ํ๋ จ๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ์์ฒ ๊ฐ์ง ์์ ์ ๋ณ๋์ ์ฌํ์ต ์์ด (Few-shot) ํ์ฉ๋ ์ ์๊ธฐ ๋๋ฌธ์ ํน์ ์์ ๋ง๋ค ๋ชจ๋ธ์ ์๋ก ๋ง๋๋ ๊ฒ๋ณด๋ค ์ฅ๊ธฐ์ ์ผ๋ก๋ ์์์ ํจ์จ์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฐ๊ฐ์๊ฐ ํจ๊ณผ๊ฐ ์๋ค๊ณ ํ๋ค.
๋น์
์ฐ๋ฆฌ ๋์๊ด ์ง๊ธฐ์๊ฒ๋ ๋น๊ณผ ๊ทธ๋ฆผ์๊ฐ ์๋ค.
- ์ค์ฉ: ์ง๊ธฐ๋ ์์ ๋ช ๊ฐ๋ง ๋ณด๋ฉด ๊ฐ์ง ์ฐ์ ํธ์ง๋ ์ฌ๊ธฐ ๋ฉ์ผ์ด๋ ๊ธฐ๊ฐ ๋งํ๊ฒ ์จ๋ธ๋ค. ๋ฅ๋ ฅ์ด ํด์๋ก ์ ์ฉ์ ์ํ๋ ํฌ๋ค.
- ํธํฅ: ์ง๊ธฐ๊ฐ ์ฝ์ ์ฑ ์ค ์๋น์๊ฐ ํธ๊ฒฌ์ ๋ด๊ณ ์์๋ค. ์ง๊ธฐ๋ ์์ ๋ ๋ชจ๋ฅด๊ฒ ํน์ ์ธ์ข ์ด๋ ์ฑ๋ณ์ ๋ํด ์ฐจ๋ณ์ ์ธ ๋ง์ ๋ด๋ฑ๋๋ค. ์ธํฐ๋ท ํธํฅ์ด ๊ทธ๋๋ก ํ์ต๋ ๊ฒ์ด๋ค.
- ์๋์ง: ์ด ์ง๊ธฐ๋ฅผ ํค์ฐ๋ ๋ฐ๋ ๋ง๋ํ ๋น์ฉ (์ ๊ธฐ๋ฃ)์ด ๋ ๋ค. ํ์ง๋ง ํ ๋ฒ ์ ํค์๋์ผ๋ฉด ๋ณ๋์ ์ถ๊ฐ ๊ต์ก ์์ด ์์ฒ ๊ฐ์ง ์ผ์ ๋งก๊ธธ ์ ์์ด ์ฅ๊ธฐ์ ์ผ๋ก๋ ํจ์จ์ ์ด๋ผ๋ ๋ ผ๋ฆฌ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก ์ด ๋ ผ๋ฌธ์ GPT-3๊ฐ ๋ณด์ฌ์ค ํ์ ์ ์ธ ์ง๋ฅ์ด ์ธ๋ฅ์๊ฒ ์ ์ตํ ๋ฐฉํฅ์ผ๋ก ์ฐ์ด๊ธฐ ์ํด์๋ ์ค์ฉ ๋ฐฉ์ง ๊ธฐ์ ๊ณผ ํธํฅ ์ํ๋ฅผ ์ํ ์ง์์ ์ธ ์ฐ๊ตฌ๊ฐ ๋ฐ๋์ ๋ณํ๋์ด์ผ ํจ์ ๊ฐ์กฐํ๊ณ ์๋ค.
GPT-3 ๋ ผ๋ฌธ์ ์์: In-context Learning ์๋์ ๊ฐ๋ง
์ด ๋ ผ๋ฌธ์ ์๋ก์ด ๊ตฌ์กฐ๋ฅผ ์ ์ํ์ง ์์๋ค. ๋์ ํ๋์ ๊ฐ๋ฅ์ฑ์ ์ด์๋ค. โFine-tuning ์์ด๋ ํ์ตํ ์ ์๋ค.โ ์ด ๋ฌธ์ฅ์ ์ดํ ํ๋กฌํํธ ์์ง๋์ด๋ง, In-context learning ์ฐ๊ตฌ, ๊ทธ๋ฆฌ๊ณ GPT-4, GPT-5๋ก ์ด์ด์ง๋ ํ์ฅ์ ์ถ๋ฐ์ ์ด ๋์๋ค.
โ์์๋ง์ผ๋ก ๋ฐฐ์ฐ๋ AIโ์ ์ถ๋ฐ์
์ด ๋ ผ๋ฌธ์ ๋จ์ํ ๋ชจ๋ธ์ ํฌ๊ฒ ๋ง๋ ์คํ์ด ์๋๋ค. โํ์ต์ ๋ฐ๋์ ๊ฐ์ค์น ์ ๋ฐ์ดํธ๋ฅผ ํตํด์๋ง ์ด๋ฃจ์ด์ง๋๊ฐ?โ๋ผ๋ ์ ์ ๋ฅผ ์ฒ์์ผ๋ก ํ๋ค์๋ค. Language Models are Few-Shot Learners๋ Fine-tuning ์ค์ฌ์ NLP ํจ๋ฌ๋ค์์ ๋์ด ๋ฌธ๋งฅ ์์์ ์ ์ํ๋ ๋ชจ๋ธ์ด๋ผ๋ ์๋ก์ด ๋ฐฉํฅ์ ์ ์ํ๋ค.
GPT-3๋ ์์ ํ์ง ์์๋ค. ๋ ผ๋ฆฌ์ ์ถ๋ก ์์๋ ์ฝ์ ์ ๋ณด์๊ณ , ํธํฅ๊ณผ ์ค์ฉ์ ๋ฌธ์ ๋ ๋๋ฌ๋๋ค. ๊ทธ๋ผ์๋ ์ด ๋ ผ๋ฌธ์ ํ๋์ ์ฌ์ค์ ๋จ๊ฒผ๋ค.
์ถฉ๋ถํ ํฐ ๋ชจ๋ธ์ ์์๋ง์ผ๋ก๋ ๋ฐฐ์ธ ์ ์๋ค. ์ธ์์ ๋ชจ๋ ์ฑ ์ ์ฝ์ ๋์๊ด ์ง๊ธฐ๋ ์ด์ ํ์ ์์ด๋ ์ํ์ ์น๋ฅผ ์ค๋น๊ฐ ๋์๋ค. ๋ค๋ง ๊ทธ ์ง๊ธฐ๊ฐ ๋ฌด์์ ๋ฐฐ์ ๊ณ , ์ด๋ค ํธ๊ฒฌ์ ํ๊ณ ์๋์ง๋ ์ฐ๋ฆฌ๊ฐ ๊ณ์ ์ดํด๋ด์ผ ํ ๋ชซ์ผ๋ก ๋จ์๋ค.
์ด ์ง๋ฌธ ์์์ ์ดํ์ GPT-4, GPT-5 ๊ทธ๋ฆฌ๊ณ ์ค๋๋ ์ LLM ์ํ๊ณ๊ฐ ํ์ฅ๋์๋ค.
๐ namdarineโs AI Review๋ ๋๊ตฌ๋ AI์ ํต์ฌ ๊ธฐ์ ์ ์ดํดํ ์ ์๋๋ก ๋ ผ๋ฌธ, ์๊ณ ๋ฆฌ์ฆ, ๊ตฌ์กฐ๋ฅผ ์ฝ๊ฒ ํ์ด์ฃผ๋ ์๋ฆฌ์ฆ์ ๋๋ค.
Letโs build it like itโs already happened.
โ ๋ค์ ๋ฆฌ๋ทฐ์์ ๋ง๋์!