Algorithms & Models

[๐Ÿ“Œ namdarineโ€™s AI Review] Improving Language Understanding by Generative pre-Training

namdarine โ€ข

๐Ÿ“š GPT์˜ ํƒ„์ƒ ๋ฐฐ๊ฒฝ์„ ๋งŒ๋“  ๋…ผ๋ฌธ
์˜ค๋Š˜๋‚ ์˜ GPT ๊ณ„์—ด ๋ชจ๋ธ๊ณผ ํ˜„๋Œ€ LLM ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์–ด๋–ป๊ฒŒ ์‹œ์ž‘๋˜์—ˆ๋Š”์ง€, ๊ทธ ์ถœ๋ฐœ์ ์ด ๋œ ๋…ผ๋ฌธ โ€˜Improving Language Understanding by Generative Pre-Trainingโ€™์„ ๋ฆฌ๋ทฐํ•ฉ๋‹ˆ๋‹ค.
์ด ๋…ผ๋ฌธ์€ ChatGPT์˜ ๊ทผ๊ฐ„์ด ๋˜๋Š” โ€œ์‚ฌ์ „ํ•™์Šต + ๋ฏธ์„ธ์กฐ์ •โ€ ํŒจ๋Ÿฌ๋‹ค์ž„, ์ฆ‰ Pretrain โ†’\rightarrow Finetune ์ „๋žต์„ ๊ณต์‹ํ™”ํ•˜๋ฉฐ ๋Œ€๊ทœ๋ชจ unlabeled ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ์–ธ์–ด ์ดํ•ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ์ฒ˜์Œ์œผ๋กœ ์ž…์ฆํ–ˆ์Šต๋‹ˆ๋‹ค.

๋…ผ๋ฌธ ์š”์•ฝ

๋น„์‹ผ ๋ผ๋ฒจ ์—†์ด๋„ ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฑธ ์ฒ˜์Œ ์ฆ๋ช…ํ•œ GPT์˜ ์‹œ์ž‘์ ์ด ๋œ ๋…ผ๋ฌธ์ด๋‹ค.

ํ•ต์‹ฌ๋งŒ ์ •๋ฆฌํ•˜๋ฉด

  • ๊ธฐ์กด ์ง€๋„ ํ•™์Šต ์ค‘์‹ฌ ์–ธ์–ด ๋ชจ๋ธ์€ ๋Œ€๊ทœ๋ชจ ์ˆ˜์ž‘์—… ๋ผ๋ฒจ๋ง ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•œ ๋†’์€ ์˜์กด์„ฑ์ด๋ผ๋Š” ๊ตฌ์กฐ์  ํ•œ๊ณ„๋ฅผ ๊ฐ–๊ณ  ์žˆ์—ˆ๋‹ค.
  • ์ด ๋…ผ๋ฌธ์€ ๋ผ๋ฒจ์ด ์—†๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ ํ™œ์šฉํ•œ ๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต์ด ๊ฐ•๋ ฅํ•œ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ํ˜•์„ฑํ•  ์ˆ˜ ์žˆ์Œ์„ ์ฒ˜์Œ์œผ๋กœ ์ž…์ฆํ–ˆ๋‹ค.
  • ์‚ฌ์ „ ํ•™์Šต๋œ ์–ธ์–ด ๋ชจ๋ธ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ Pretrain โ†’\rightarrow Finetune ๋‘ ๋‹จ๊ณ„ ํ•™์Šต ์ „๋žต์€ ์ ์€ ์ˆ˜์ •๋งŒ์œผ๋กœ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ „์ด ๊ฐ€๋Šฅํ•œ ๋ณดํŽธ์  ํ‘œํ˜„์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ–ˆ๋‹ค.
  • Transformer ๊ธฐ๋ฐ˜ ์–ธ์–ด ๋ชจ๋ธ๊ณผ ๋ณด์กฐ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉ์  ํ•จ์ˆ˜๋Š” ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ๊ณผ ํ•™์Šต ์•ˆ์ •์„ฑ์„ ํ•จ๊ป˜ ํ–ฅ์ƒ์‹œ์ผฐ๋‹ค.
  • ์ด ๋…ผ๋ฌธ์€ ์ƒˆ๋กœ์šด ๊ตฌ์กฐ๋ฅผ ์ œ์•ˆํ•œ ๊ฒƒ์ด ์•„๋‹ˆ๋ผ LLM ์‹œ๋Œ€์˜ ํ‘œ์ค€ ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์„ ์ฒ˜์Œ ์™„์„ฑํ•œ ์ถœ๋ฐœ์ ์œผ๋กœ์„œ GPT ๊ณ„์—ด ๋ชจ๋ธ์˜ ๊ทผ๊ฐ„์ด ๋˜์—ˆ๋‹ค.

๊ธฐ์กด ๋ชจ๋ธ์˜ ํ•œ๊ณ„ ๋ฐ ๋ฌธ์ œ ์ •์˜

Motivation

๊ฐ€์žฅ ํฐ ๋™๊ธฐ๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋“ค์ด ๋Œ€๊ทœ๋ชจ์˜ ์ˆ˜์ž‘์—… ๋ผ๋ฒจ๋ง ๋ฐ์ดํ„ฐ์— ํฌ๊ฒŒ ์˜์กดํ•˜๋Š” ์ง€๋„ ํ•™์Šต ๊ตฌ์กฐ๋ฅผ ์ „์ œ๋กœ ํ•˜๊ณ  ์žˆ๋‹ค๋Š” ์ ์ด๋‹ค. ์ €์ž๋Š” ์ด์— ๋Œ€ํ•œ ๋Œ€์•ˆ์œผ๋กœ ๋ผ๋ฒจ๋ง ๋˜์ง€ ์•Š์€ ๋ฐ์ดํ„ฐ์˜ ๊ฐ€๋Šฅ์„ฑ์„ ๊ฐ•์กฐํ•œ๋‹ค. ๋ผ๋ฒจ์ด ์—†๋Š” ๋ฐ์ดํ„ฐ๋Š” ํ›จ์”ฌ ํ’๋ถ€ํ•˜๊ฒŒ ์กด์žฌํ•˜๋ฉฐ ์ˆ˜์ž‘์—…์œผ๋กœ ์ฃผ์„์„ ์ˆ˜์ง‘ํ•˜๋Š” ๊ฒƒ์— ๋น„ํ•ด ๋น„์šฉ ๋ถ€๋‹ด๋„ ํ˜„์ €ํžˆ ๋‚ฎ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋˜ํ•œ ์„ค๋ น ๋ผ๋ฒจ๋ง ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ถฉ๋ถ„ํžˆ ์กด์žฌํ•˜๋”๋ผ๋„ ๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต(Unsupervised pre-training)์€ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ์˜๋ฏธ ์žˆ๊ฒŒ ๋Œ์–ด์˜ฌ๋ฆด ์ˆ˜ ์žˆ๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค. ์ด๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๋‹จ์–ด ์ž„๋ฒ ๋”ฉ๋“ค์ด ์‹ค์ œ ๋‹ค์–‘ํ•œ ํƒœ์Šคํฌ์—์„œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ์ด๋Œ์–ด๋‚ธ ์‚ฌ๋ก€๋ฅผ ํ†ตํ•ด ๊ทธ ๊ฐ€๋Šฅ์„ฑ์ด ์ด๋ฏธ ์ž…์ฆ๋˜์—ˆ๋‹ค๋Š” ์ ์—์„œ ๋”์šฑ ์„ค๋“๋ ฅ์„ ๊ฐ–๋Š”๋‹ค.

ํ•œ๊ณ„

  1. ๋ ˆ์ด๋ธ”๋ง ๋œ ๋ฐ์ดํ„ฐ์˜ ๋ถ€์กฑ
    ๋Œ€๋ถ€๋ถ„์˜ deep learning model์€ ์ˆ˜๋™์œผ๋กœ ๋ ˆ์ด๋ธ”๋ง ๋œ ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœ ํ•˜์ง€๋งŒ ๋งŽ์€ ๋ถ„์•ผ์—์„œ ์ด๋Ÿฌํ•œ ๋ ˆ์ด๋ธ” ๋œ ๋ฐ์ดํ„ฐ๊ฐ€ ๋ถ€์กฑํ•˜์—ฌ ๋ชจ๋ธ์˜ ์ ์šฉ ๋ฒ”์œ„๊ฐ€ ์ œํ•œ๋œ๋‹ค.

  2. ๋‹จ์–ด ์ˆ˜์ค€ ์ •๋ณด ์ „๋‹ฌ์˜ ํ•œ๊ณ„
    ๊ธฐ์กด์—๋Š” ์‚ฌ์ „ ํ›ˆ๋ จ๋œ word-embeddings์„ ํ™œ์šฉํ•ด ์„ฑ๋Šฅ์„ ๋†’์˜€์œผ๋‚˜ ์ด๋Š” ์ฃผ๋กœ ๋‹จ์–ด ์ˆ˜์ค€์˜ ์ •๋ณด๋งŒ์„ ์ „๋‹ฌํ•˜๋ฉฐ ๋ฌธ์žฅ ์ˆ˜์ค€ ์ด์ƒ์˜ ๊ณ ์ฐจ์›์ ์ธ ์˜๋ฏธ๋ฅผ ํฌ์ฐฉํ•˜๋Š” ๋ฐ๋Š” ํ•œ๊ณ„๊ฐ€ ์žˆ๋‹ค.

  3. ์ตœ์ ํ™” ๋ชฉํ‘œ์˜ ๋ถˆํ™•์‹ค์„ฑ
    ๋‹จ์–ด ์ˆ˜์ค€ ์ด์ƒ์˜ ํ…์ŠคํŠธ ํ‘œํ˜„์„ ๋ฐฐ์šฐ๊ธฐ ์œ„ํ•ด ์–ด๋–ค ์ตœ์ ํ™” ๋ชฉํ‘œ (์˜ˆ: ์–ธ์–ด ๋ชจ๋ธ๋ง, ๊ธฐ๊ณ„ ๋ฒˆ์—ญ, ๋‹ดํ™” ์ผ๊ด€์„ฑ ๋“ฑ)๊ฐ€ ์ „์ด ํ•™์Šต (Transfer learning)์— ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ์ง€ ๋ช…ํ™•ํ•˜์ง€ ์•Š๋‹ค.

  4. ์ „์ด ๋ฐฉ๋ฒ•์˜ ํ‘œ์ค€ ๋ถ€์žฌ
    ํ•™์Šต๋œ ํ‘œํ˜„์„ ๋Œ€์ƒ ์ž‘์—…์œผ๋กœ ์ „์ดํ•˜๋Š” ๊ฐ€์žฅ ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์— ๋Œ€ํ•ด ํ•ฉ์˜๋œ ๋ฐฉ์‹์ด ์—†๋‹ค. ๊ธฐ์กด ๊ธฐ์ˆ ๋“ค์€ ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ๋Œ€ํญ ์ˆ˜์ •ํ•˜๊ฑฐ๋‚˜ ๋ณต์žกํ•œ ํ•™์Šต ์ฒด๊ณ„ ๋ฐ ๋ณด์กฐ ํ•™์Šต ๋ชฉํ‘œ๋ฅผ ์ถ”๊ฐ€ํ•ด์•ผ ํ•˜๋Š” ์–ด๋ ค์›€์ด ์žˆ๋‹ค.

์ œ์•ˆํ•œ ํ•ด๊ฒฐ ๋ฐฉ๋ฒ•

Two-stage training procedure = semi-supervised = ๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต + ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •

  • semi-supervised: ์ด ๋ฐฉ์‹์˜ ๋ชฉํ‘œ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฏธ๋ถ„๋ฅ˜ ๋ง๋ญ‰์น˜๋ฅผ ํ™œ์šฉํ•ด ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์ ์€ ์ˆ˜์ •๋งŒ์œผ๋กœ ์ „์ด๋  ์ˆ˜ ์žˆ๋Š” ๋ณดํŽธ์ ์ธ ํ‘œํ˜„ (universal representation)์„ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์ด๋‹ค.
GPT-1 pipeline
์ „์ฒด ํ›ˆ๋ จ ํ๋ฆ„์€ ์œ„์™€ ๊ฐ™๋‹ค. ์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.

๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต (Unsupervised pre-training)

๋ชฉํ‘œ

๋ ˆ์ด๋ธ”์ด ์—†๋Š” ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ (UU)๋กœ๋ถ€ํ„ฐ ์–ธ์–ด์˜ ๊ตฌ์กฐ์™€ ์ง€์‹์„ ์Šค์Šค๋กœ ํ•™์Šตํ•˜์—ฌ ์ข‹์€ ์ดˆ๊ธฐ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ์ฐพ๋Š” ๊ฒƒ.

๋ฐฉ์‹

โ€˜์–ธ์–ด ๋ชจ๋ธ๋งโ€™ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋ฌธ๋งฅ์ƒ ๋‹ค์Œ ํ† ํฐ์ด ๋ฌด์—‡์ธ์ง€ ์˜ˆ์ธกํ•˜๋„๋ก ๋ชจ๋ธ์„ ํ›ˆ๋ จํ•œ๋‹ค.

L1(U)=โˆ‘ilogโกP(uiโˆฃuiโˆ’k,โ‹ฏโ€‰,uiโˆ’1;ฮธ) L_{1}(U) = \sum_{i}{\log{P(u_{i}|u_{i-k}, \cdots, u_{i-1};\theta)}}

๋ชจ๋ธ ๊ตฌ์กฐ

์žฅ๊ธฐ ์˜์กด์„ฑ (long-term dependencies)์„ ์ฒ˜๋ฆฌํ•˜๋Š”๋ฐ ์œ ๋ฆฌํ•œ Transformer decoder๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ธฐ์กด์˜ LSTM ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋ณด๋‹ค ๋” ๊ตฌ์กฐํ™”๋œ ๋ฉ”๋ชจ๋ฆฌ ๋Šฅ๋ ฅ์„ ๊ฐ–์ถ”๋„๋ก ํ•œ๋‹ค.

GPT-1 architecture
GPT๋Š” Transformer Decoder-only ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์ƒ์„ฑํ•œ ์ด๋ฏธ์ง€์ž…๋‹ˆ๋‹ค.

Supervised Fine-tuning

๋ชฉ์ 

์‚ฌ์ „ ํ•™์Šต์„ ํ†ตํ•ด ์–ป์€ ํŒŒ๋ผ๋ฏธํ„ฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ์‹ค์ œ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ํŠน์ • ์ž‘์—… (์˜ˆ: ์งˆ๋ฌธ ๋‹ต๋ณ€, ๊ฐ์„ฑ ๋ถ„์„ ๋“ฑ)์˜ ๋ ˆ์ด๋ธ”๋ง ๋œ ๋ฐ์ดํ„ฐ CC์— ๋งž์ถฐ ๋ชจ๋ธ์„ ์ตœ์ ํ™”ํ•˜๋Š” ๋‹จ๊ณ„์ด๋‹ค.

๋ฐฉ์‹

์ž…๋ ฅ ์‹œํ€€์Šค๋ฅผ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์— ํ†ต๊ณผ์‹œํ‚จ ๋’ค, ๋งˆ์ง€๋ง‰ ๋ธ”๋ก์˜ ํ™œ์„ฑ ๊ฐ’ (hmlh_{m}^{l})์„ ์ƒˆ๋กญ๊ฒŒ ์ถ”๊ฐ€๋œ ์„ ํ˜• ์ถœ๋ ฅ ์ธต (WyW_{y}) ์— ์ž…๋ ฅํ•˜์—ฌ ๋ ˆ์ด๋ธ” (yy)์„ ์˜ˆ์ธกํ•œ๋‹ค.

P(yโˆฃx1,โ‹ฏโ€‰,xm)=softmax(hlmWy) P(y|x^{1}, \cdots, x^{m}) = softmax(h_{l}^{m}W_{y})

๋ณด์กฐ ๋ชฉ์  ํ•™์Šต

fine-tuning ์‹œ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉ์  ํ•จ์ˆ˜`๋ฅผ ๋ณด์กฐ์ ์œผ๋กœ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉด ์ง€๋„ ํ•™์Šต ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ๋Šฅ๋ ฅ์„ ๋†’์ด๊ณ  ์ˆ˜๋ ด ์†๋„๋ฅผ ์•ž๋‹น๊ธธ ์ˆ˜ ์žˆ๋‹ค.

์ „์ด๋ฅผ ์œ„ํ•œ ์ž…๋ ฅ ๋ณ€ํ™˜ (Task-specific Input Transformations)

๋ชจ๋ธ ๊ตฌ์กฐ์˜ ๋ณ€๊ฒฝ์„ ์ตœ์†Œํ™”ํ•˜๊ธฐ ์œ„ํ•ด ์ˆœํšŒ ๋ฐฉ์‹ (traversal-style approach) ์„ ์ œ์•ˆํ•œ๋‹ค.
์˜ˆ๋ฅผ ๋“ค์–ด, ๋ฌธ์žฅ ์Œ์„ ๋‹ค๋ฃจ๋Š” ์ž‘์—… (๋ฌธ์žฅ ํ•จ์˜๋‚˜ ์œ ์‚ฌ๋„ ์ธก์ •)์˜ ๊ฒฝ์šฐ ๋‘ ๋ฌธ์žฅ ์‚ฌ์ด์— ๊ตฌ๋ถ„์ž (delimiter)๋ฅผ ๋„ฃ์–ด ํ•˜๋‚˜์˜ ์—ฐ์†๋œ ํ† ํฐ ์‹œํ€€์Šค๋กœ ๋ณ€ํ™˜ํ•˜์—ฌ ๋ชจ๋ธ์ด ์ฒ˜๋ฆฌํ•˜๊ฒŒ ํ•œ๋‹ค.

๋น„์œ 

์ด ๋ฐ˜์ง€๋„ ํ•™์Šต ๊ณผ์ •์„ ๊ต์–‘ ๊ต์œก ํ›„ ์ „๋ฌธ ์ž๊ฒฉ์ฆ ์‹œํ—˜ ๋Œ€๋น„ ๊ณผ์ •์— ๋น„์œ ๋ฅผ ํ•œ๋‹ค๋ฉด,

  1. ๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต: ํ•™์ƒ์ด ์ „๊ณต์„ ์ •ํ•˜๊ธฐ ์ „ ์ˆ˜๋งŒ ๊ถŒ์˜ ๋‹ค์–‘ํ•œ ์ฑ… (๋ฏธ๋ถ„๋ฅ˜ ๋ง๋ญ‰์น˜)์„ ์ฝ์œผ๋ฉฐ ์–ธ์–ด์˜ ๊ธฐ๋ณธ ์›๋ฆฌ, ์ƒ์‹, ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๋Š” ๋Šฅ๋ ฅ์„ ๊ธฐ๋ฅด๋Š” ๋‹จ๊ณ„์ด๋‹ค. (๊ธฐ์ดˆ ์ง€๋Šฅ ํ˜•์„ฑ)
  2. ์ง€๋„ ๋ฏธ์„ธ ์กฐ์ •: ์ด์ œ ๋ฌธํ•ด๋ ฅ์ด ๊ฐ–์ถฐ์ง„ ํ•™์ƒ์ด ํŠน์ • ์‹œํ—˜์˜ ๊ธฐ์ถœ๋ฌธ์ œ์ง‘ (๋ ˆ์ด๋ธ”๋ง ๋œ ๋ฐ์ดํ„ฐ)์„ ์งง๊ฒŒ ๊ณต๋ถ€ํ•˜๋ฉฐ ํ•ด๋‹น ๋ฌธ์ œ์˜ ์ •๋‹ต์„ ๋งžํžˆ๋Š” ์š”๋ น์„ ์ตํžˆ๋Š” ๋‹จ๊ณ„์ด๋‹ค. (์ „๋ฌธ์„ฑ ํ™•๋ณด)

์ด๋Ÿฌํ•œ ๋ฐฉ์‹ ๋•๋ถ„์— ๋ชจ๋ธ์€ ์ฒ˜์Œ๋ถ€ํ„ฐ ํŠน์ • ๋ฌธ์ œ๋งŒ ํ‘ผ ํ•™์ƒ (์ง€๋„ ํ•™์Šต๋งŒ ์ˆ˜ํ–‰ํ•œ ๋ชจ๋ธ)๋ณด๋‹ค ํ›จ์”ฌ ๋” ๊นŠ์€ ์ดํ•ด๋ ฅ์„ ๋ฐ”ํƒ•์œผ๋กœ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ๋ฅผ ๋Šฅ์ˆ™ํ•˜๊ฒŒ ํ•ด๊ฒฐํ•˜๊ฒŒ ๋œ๋‹ค.

๋ณด์กฐ ์–ธ์–ด ๋ชจ๋ธ๋ง (Auxiliary Language Modeling) ๋ชฉ์  ํ•จ์ˆ˜

Fine-tuning ๋‹จ๊ณ„์—์„œ ๋ณด์กฐ ์–ธ์–ด ๋ชจ๋ธ๋ง ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ•˜๋Š” ๊ฒƒ์€ ๋ชจ๋ธ์˜ ํ•™์Šต ํšจ์œจ๊ณผ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”ํ•˜๊ธฐ ์œ„ํ•œ ์ „๋žต์ ์ธ ์žฅ์น˜์ด๋‹ค.

์ฃผ์š” ์—ญํ•  ๋ฐ ํšจ๊ณผ

  • ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ ํ–ฅ์ƒ (Improving Generalization)

    • ์ง€๋„ ํ•™์Šต ๊ณผ์ •์—์„œ ๋ชจ๋ธ์ด ํŠน์ • ์ž‘์—…์˜ ๋ฐ์ดํ„ฐ์—๋งŒ ์ง€๋‚˜์น˜๊ฒŒ ์ตœ์ ํ™”๋˜์–ด ํŽธํ–ฅ๋˜๋Š” ๊ฒƒ์„ ๋ฐฉ์ง€
    • ์‚ฌ์ „ ํ•™์Šต์—์„œ ์–ป์€ ๋ณดํŽธ์ ์ธ ์–ธ์–ด ์ดํ•ด ๋Šฅ๋ ฅ์„ ์œ ์ง€ํ•จ์œผ๋กœ์จ ๋ชจ๋ธ์˜ ์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ์„ ๊ฐœ์„ 
  • ํ•™์Šต ์ˆ˜๋ ด ๊ฐ€์†ํ™” (Accelerating Convergence) ๋ณด์กฐ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ํ•จ๊ป˜ ์‚ฌ์šฉํ•˜๋ฉด ๋ชจ๋ธ์ด ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ์ƒํƒœ์— ๋„๋‹ฌํ•˜๋Š” ํ•™์Šต ์ˆ˜๋ ด ์†๋„๋ฅผ ์•ž๋‹น๊ธฐ๋Š” ํšจ๊ณผ

๊ธฐ์ˆ ์  ๊ตฌํ˜„

Fine-tuning ๋‹จ๊ณ„์—์„œ ๋ชจ๋ธ์€ ๋‹จ์ˆœํžˆ ํŠน์ • ์ž‘์—…์˜ ์†์‹ค ํ•จ์ˆ˜(L2L_{2})๋งŒ ๊ณ„์‚ฐํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์‚ฌ์ „ ํ•™์Šต์—์„œ ์‚ฌ์šฉํ–ˆ๋˜ ์–ธ์–ด ๋ชจ๋ธ๋ง ์†์‹ค ํ•จ์ˆ˜(L1L_{1})๋ฅผ ์ผ์ • ๋น„์œจ(ฮป\lambda)๋กœ ์„ž์–ด์„œ ์ตœ์ ํ™”ํ•œ๋‹ค.

L3(C)=L2(C)+ฮปL1(C) L_{3}(C) = L_{2}(C) + \lambda L_{1}(C)

์ด ๊ณผ์ •์—์„œ ์ถ”๊ฐ€๋˜๋Š” ํŒŒ๋ผ๋ฏธํ„ฐ๋Š” ์„ ํ˜• ์ถœ๋ ฅ ์ธต (WyW_{y})๊ณผ ๊ตฌ๋ถ„์ž ํ† ํฐ์„ ์œ„ํ•œ ์ž„๋ฒ ๋”ฉ๋ฟ์ด๋ฏ€๋กœ ๋ชจ๋ธ ๊ตฌ์กฐ์˜ ํฐ ๋ณ€๊ฒฝ ์—†์ด๋„ ์ด๋Ÿฌํ•œ ์ด์ ์„ ๋ˆ„๋ฆด ์ˆ˜ ์žˆ๋‹ค.

๋ฐ์ดํ„ฐ ๊ทœ๋ชจ์— ๋”ฐ๋ฅธ ์ฐจ์ด (์ ˆ์ œ ์—ฐ๊ตฌ ๊ฒฐ๊ณผ)

์ ˆ์ œ ์—ฐ๊ตฌ (Ablation studies)์— ๋”ฐ๋ฅด๋ฉด, ์ด ๋ณด์กฐ ๋ชฉ์  ํ•จ์ˆ˜์˜ ํšจ๊ณผ๋Š” ๋ฐ์ดํ„ฐ ์…‹์˜ ํฌ๊ธฐ์— ๋”ฐ๋ผ ๋‹ค๋ฅด๊ฒŒ ๋‚˜ํƒ€๋‚œ๋‹ค.

  • ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์…‹: NLI (์ž์—ฐ์–ด ์ถ”๋ก ) ๊ณผ์ œ๋‚˜ QQP์™€ ๊ฐ™์ด ๋ฐ์ดํ„ฐ ์–‘์ด ๋งŽ์€ ๊ฒฝ์šฐ ๋ณด์กฐ ๋ชฉ์  ํ•จ์ˆ˜๋ฅผ ์ถ”๊ฐ€ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ๋šœ๋ ทํ•˜๊ฒŒ ๊ด€์ฐฐ๋œ๋‹ค.
  • ์†Œ๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์…‹: ์ƒ๋Œ€์ ์œผ๋กœ ํฌ๊ธฐ๊ฐ€ ์ž‘์€ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ๋ณด์กฐ ๋ชฉ์  ํ•จ์ˆ˜๊ฐ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์— ํฐ ๊ธฐ์—ฌ๋ฅผ ํ•˜์ง€ ๋ชปํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, fine-tuning ์ค‘ ๋ณด์กฐ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ โ€œ์ „๊ณต ์„œ์ ์„ ๊ณต๋ถ€ํ•˜๋ฉด์„œ๋„ ํ‹ˆํ‹ˆ์ด ์‹ ๋ฌธ์„ ์ฝ์–ด ๊ธฐ์ดˆ ๋ฌธํ•ด๋ ฅ์„ ์œ ์ง€ํ•˜๋Š” ๊ฒƒโ€๊ณผ ๊ฐ™๋‹ค.

  • ์ „๊ณต ๊ณต๋ถ€ (์ง€๋„ ํ•™์Šต): ํŠน์ • ์‹œํ—˜ (ํŠน์ • ์ž‘์—…)์˜ ์ •๋‹ต์„ ๋งžํžˆ๊ธฐ ์œ„ํ•œ ์ง‘์ค‘ ํ›ˆ๋ จ
  • ์‹ ๋ฌธ ์ฝ๊ธฐ (๋ณด์กฐ ์–ธ์–ด ๋ชจ๋ธ๋ง): ์ „๊ณต์—๋งŒ ๋งค๋ชฐ๋˜์ง€ ์•Š๊ณ  ์–ธ์–ด ์ „๋ฐ˜์— ๋Œ€ํ•œ ๊ฐ๊ฐ (์ผ๋ฐ˜ํ™” ์„ฑ๋Šฅ)์„ ์œ ์ง€ํ•˜๊ฒŒ ํ•ด์ฃผ๋ฉฐ ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ „๊ณต ๋‚ด์šฉ์„ ๋” ๋น ๋ฅด๊ณ  ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ด (ํ•™์Šต ์ˆ˜๋ ด)ํ•˜๋„๋ก ๋•๋Š” ๊ธฐ์ดˆ ์ฒด๋ ฅ์ด ๋œ๋‹ค.

์‹คํ—˜

์‹คํ—˜ ์„ค์ •

  • ์‚ฌ์ „ ๋ฐ์ดํ„ฐ ํ•™์Šต: BookCorpus ๋ฐ์ดํ„ฐ ์…‹ ์‚ฌ์šฉ

    • ํ•ด๋‹น ๋ฐ์ดํ„ฐ ์…‹์—๋Š” ๋ชจํ—˜, ํŒํƒ€์ง€, ๋กœ๋งจ์Šค ๋“ฑ ๋‹ค์–‘ํ•œ ์žฅ๋ฅด์˜ ๋ฏธ์ถœํŒ ๋„์„œ 7,000๊ถŒ ์ด์ƒ ํฌํ•จ
    • ๋ชจ๋ธ์ด ์žฅ๊ฑฐ๋ฆฌ ์ •๋ณด (long-range information)๋ฅผ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋„๋ก ์—ฐ์†์ ์ธ ๊ธด ํ…์ŠคํŠธ๋ฅผ ์ œ๊ณต
  • ๋ชจ๋ธ ์‚ฌ์–‘`: 12์ธต์˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋””์ฝ”๋” (decoder-only Transformer) ๊ตฌ์กฐ๋ฅผ ์‚ฌ์šฉ

    • 768 ์ฐจ์›์˜ ์ƒํƒœ ๋ฒกํ„ฐ์™€ 12๊ฐœ์˜ attention head
    • ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋กœ GELU` ์‚ฌ์šฉ -> ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ๊ฒฐ์ •์ง“๋Š” ํ•ต์‹ฌ์ ์ธ ๋ชจ๋ธ ์‚ฌ์–‘
    • Adam ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๊ณผ์ ํ•ฉ ๋ฐฉ์ง€๋ฅผ ์œ„ํ•œ dropouts(0.1), modified L2 regulation (w=0.01w = 0.01) ์‚ฌ์šฉ
  • ๋ฏธ์„ธ ์กฐ์ • ์„ธ๋ถ€ ์‚ฌํ•ญ

    • 3 epochs์˜ ํ•™์Šต๋งŒ์œผ๋กœ ๋Œ€๋ถ€๋ถ„ ์ž‘์—…์—์„œ ์ถฉ๋ถ„ํ–ˆ๋‹ค.
    • ํ•™์Šต๋ฅ : 6.25ร—10โˆ’56.25 \times 10^{-5}
    • batch size: 32

์ฃผ์š” ์‹คํ—˜ ๊ฒฐ๊ณผ

12๊ฐœ์˜ ์ž‘์—…์—์„œ ๋ชจ๋ธ์„ ํ‰๊ฐ€ํ–ˆ๊ณ  ๊ทธ์ค‘ 9๊ฐœ ์ž‘์—…์—์„œ SOTA ๊ฒฝ์‹ ํ–ˆ๋‹ค.

  • ์ž์—ฐ์–ด ์ถ”๋ก  (NLI)

    • MNLI, SciTail, QNLI, SNLI ๋“ฑ 5๊ฐœ ๋ฐ์ดํ„ฐ ์…‹ ์ค‘ 4๊ฐœ์—์„œ ๊ธฐ์กด ๋ชจ๋ธ์„ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค.
    • ํŠนํžˆ QNLI์—์„œ 5.8%, SciTail์—์„œ 5%์˜ ์ ˆ๋Œ€์  ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๋ณด์˜€๋‹ค.
    • ๋‹ค๋งŒ ๋ฐ์ดํ„ฐ ์…‹ ๊ทœ๋ชจ๊ฐ€ ์ž‘์€ RTE์—์„œ๋Š” ๊ธฐ์กด ๋ชจ๋ธ๋ณด๋‹ค ๋‚ฎ์€ ์„ฑ์ ์„ ๋ณด์˜€๋‹ค.
  • ์งˆ๋ฌธ ๋‹ต๋ณ€ ๋ฐ ์ƒ์‹ ์ถ”๋ก 

    • ์ค‘๊ณ ๋“ฑํ•™๊ต ์‹œํ—˜ ๋ฌธ์ œ์ธ RACE ๋ฐ์ดํ„ฐ ์…‹์—์„œ 5.7%, story cloze ํ…Œ์ŠคํŠธ์—์„œ 8.9%์˜ ํฐ ํญ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ๊ธฐ๋กํ–ˆ๋‹ค.
      -> ์žฅ๊ฑฐ๋ฆฌ ๋ฌธ๋งฅ ์ฒ˜๋ฆฌ ๋Šฅ๋ ฅ์„ ์ž…์ฆํ–ˆ๋‹ค.
  • ์˜๋ฏธ ์œ ์‚ฌ๋„ ๋ฐ ๋ถ„๋ฅ˜

    • ๋ฌธ๋ฒ•์  ์ ํ•ฉ์„ฑ์„ ํŒ๋‹จํ•˜๋Š” CoLA ์ ์ˆ˜๊ฐ€ ๊ธฐ์กด 35.0์—์„œ 45.4๋กœ ํฌ๊ฒŒ ์˜ฌ๋ž๋‹ค.
    • GLUE ๋ฒค์น˜๋งˆํฌ ์ „์ฒด ์ ์ˆ˜์—์„œ๋„ 72.8์ ์„ ๊ธฐ๋กํ•ด ๊ธฐ์กด ์ตœ๊ณ ์น˜์ธ 68.9๋ฅผ ๋„˜์—ˆ๋‹ค.

BPE ํ† ํฐํ™”

BPE๋กœ ์ฒ˜๋ฆฌ๋œ ํ† ํฐ๋“ค์€ ์ด ๋ชจ๋ธ ๊ตฌ์กฐ๋ฅผ ํ†ตํ•ด ๋งฅ๋ฝ์ด ํŒŒ์•…๋œ๋‹ค.
์ด ๋…ผ๋ฌธ์—์„œ ์ €์ž๋Š” ๋ชจ๋ธ์˜ ์–ดํœ˜ ์ง‘ํ•ฉ์„ ๊ตฌ์ถ•ํ•˜๊ธฐ ์œ„ํ•ด 40,000ํšŒ์˜ ๋ณ‘ํ•ฉ์„ ๊ฑฐ์นœ BPE๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.
BPE๋Š” ํฌ๊ท€ ๋‹จ์–ด ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋‹จ์–ด๋ฅผ ๋” ์ž‘์€ ํ•˜์œ„ ๋‹จ์œ„ (subword unit)๋กœ ๋‚˜๋ˆ„์–ด ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐฉ์‹์ด๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ๋‹จ์–ด ํ˜•ํƒœ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ํ•™์Šตํ•˜๋„๋ก ๋•๋Š”๋‹ค.
BPE๋Š” ๋ฐฉ๋Œ€ํ•œ ์–‘์˜ ์—ฐ์†๋œ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋ฅผ Transformer ๋ชจ๋ธ์ด ์†Œํ™”ํ•  ์ˆ˜ ์žˆ๋Š” ํšจ์œจ์ ์ธ ๋‹จ์œ„๋กœ ์ชผ๊ฐœ ์ฃผ๋Š” ํ•„ํ„ฐ์ด๋‹ค.

GELU

  1. ๋น„์„ ํ˜•์„ฑ ๋ฐ ๋„คํŠธ์›Œํฌ ๊ตฌ์กฐ์—์„œ์˜ ์—ญํ• 
  • ํ™œ์„ฑํ™” ํ•จ์ˆ˜ ์ฑ„ํƒ: ๋ชจ๋ธ์˜ ๋น„์„ ํ˜•์„ฑ์„ ๊ตฌํ˜„ํ•˜๊ธฐ ์œ„ํ•ด GELU๋ฅผ ์‚ฌ์šฉ
    -> Transformer ๋ธ”๋ก ๋‚ด๋ถ€์˜ position-wise feed-forward networks์—์„œ ๋ฐ์ดํ„ฐ์˜ ๋ณต์žกํ•œ ํŒจํ„ด์„ ํ•™์Šตํ•˜๋Š”๋ฐ ๊ธฐ์—ฌ

  • Transformer ์•„ํ‚คํ…์ฒ˜์™€์˜ ๊ฒฐํ•ฉ

    • GELU๋Š” 12์ธต์˜ Transformer decoder ๊ตฌ์กฐ (768 ์ฐจ์› ์ƒํƒœ ๋ฒกํ„ฐ, 12๊ฐœ์˜ attention head) ๋‚ด์—์„œ ์ž‘๋™
    • 3072 ์ฐจ์›์˜ ๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ๊ฐ€์ง„ feed-forward ์ธต๊ณผ ๊ฒฐํ•ฉ๋˜์–ด ๋ชจ๋ธ์˜ ํ‘œํ˜„๋ ฅ์„ ๋†’์ž„
  1. Model Specifications
    GELU๋Š” ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘๋™ํ•˜๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ์ตœ์ ์˜ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋‚ด๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ๋‹ค๋ฅธ ์‚ฌ์–‘๋“ค๊ณผ ์กฐํ™”๋ฅผ ์ด๋ฃฌ๋‹ค.
  • ์ •๊ทœํ™” ๋ฐ ์ดˆ๊ธฐํ™”: ๋ชจ๋ธ ์ „๋ฐ˜์— ๊ฑธ์ณ ๋ ˆ์ด์–ด ์ •๊ทœํ™” (layernorm)๊ฐ€ ๊ด‘๋ฒ”์œ„ํ•˜๊ฒŒ ์‚ฌ์šฉ๋˜์—ˆ๊ธฐ ๋•Œ๋ฌธ์— N(0,0.02)N(0, 0.02)์˜ ๋‹จ์ˆœํ•œ ๊ฐ€์ค‘์น˜ ์ดˆ๊ธฐํ™”๋งŒ์œผ๋กœ๋„ ์ถฉ๋ถ„
  • ์ตœ์ ํ™” ์•Œ๊ณ ๋ฆฌ์ฆ˜: ์ตœ๋Œ€ ํ•™์Šต๋ฅ  2.5ร—10โˆ’42.5 \times 10^{-4}๋ฅผ ๊ฐ€์ง„ Adam ์ตœ์ ํ™” ๊ธฐ๋ฒ•๊ณผ ์ฝ”์‚ฌ์ธ ์Šค์ผ€์ค„ (cosine schedule)์— ๋”ฐ๋ฅธ ํ•™์Šต๋ฅ  ๊ฐ์†Œ๊ฐ€ ์ ์šฉ๋จ
  • ๊ทœ์ œ (Regularization): ๊ณผ์ ํ•ฉ์„ ๋ฐฉ์ง€ํ•˜๊ธฐ ์œ„ํ•ด dropouts(0.1)๊ณผ ๊ฐ€์ค‘์น˜ ๋ถ€ํŒจ (weight decay)๊ฐ€ ์ ์šฉ๋œ ๋ณ€ํ˜•๋œ L2 ์ •๊ทœํ™”๊ฐ€ ํ•จ๊ป˜ ์‚ฌ์šฉ
  • ์ž…๋ ฅ ์ฒ˜๋ฆฌ: 40,000ํšŒ์˜ ๋ณ‘ํ•ฉ์„ ๊ฑฐ์นœ BPE ์–ดํœ˜์ง‘๊ณผ ํ•™์Šต๋œ position embeddings์„ ํ†ตํ•ด 512๊ฐœ์˜ ์—ฐ์†๋œ ํ† ํฐ ์‹œํ€€์Šค๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ตฌ์กฐ๋ฅผ ๊ฐ–์ถ”๊ณ  ์žˆ์Œ

๋ชจ๋ธ ์‚ฌ์–‘์„ ํ•˜๋‚˜์˜ โ€˜๊ณ ์„ฑ๋Šฅ ์Šคํฌ์ธ ์นดโ€™๋ฅผ ์ œ์ž‘ํ•˜๋Š” ๊ณผ์ •์— ๋น„์œ ํ•œ๋‹ค๋ฉด,

  • Transformer ๊ตฌ์กฐ๋Š” ์ฐจ์˜ ๊ฒฌ๊ณ ํ•œ ํ”„๋ ˆ์ž„
  • BPE๋Š” ๊ณ ํ’ˆ์งˆ์˜ ์—ฐ๋ฃŒ๋ฅผ ์ •์ œํ•˜๋Š” ๋ฐฉ์‹
  • GELU ํ™œ์„ฑํ™” ํ•จ์ˆ˜๋Š” ์—”์ง„์˜ ์ถœ๋ ฅ์„ ์„ธ๋ฐ€ํ•˜๊ฒŒ ์กฐ์ ˆํ•˜์—ฌ ๋ถ€๋“œ๋Ÿฌ์šฐ๋ฉด์„œ๋„ ๊ฐ•๋ ฅํ•œ ๊ฐ€์†์„ ๊ฐ€๋Šฅ์ผ€ํ•˜๋Š” ์ •๋ฐ€ํ•œ ๊ฐ€์† ํŽ˜๋‹ฌ (์ปจํŠธ๋กค๋Ÿฌ)

๋”ฐ๋ผ์„œ GELU๋Š” Transformer๋ผ๋Š” ๊ฐ•๋ ฅํ•œ ํ•˜๋“œ์›จ์–ด๊ฐ€ ๋ณต์žกํ•œ ์–ธ์–ด ๋ฐ์ดํ„ฐ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋„๋ก ๋•๋Š” ํ•ต์‹ฌ์ ์ธ โ€˜์†Œํ”„ํŠธ์—์–ด์  ์„ค์ •โ€™์˜ ์ผ๋ถ€์ด๋‹ค.

๋ถ„์„ ๋ฐ ์ ˆ์ œ ์—ฐ๊ตฌ

์ œ์•ˆ๋œ ํ”„๋ ˆ์ž„์›Œํฌ์˜ ๊ฐ ๊ตฌ์„ฑ ์š”์†Œ๊ฐ€ ์„ฑ๋Šฅ์— ์–ด๋–ค ๊ธฐ์—ฌ๋ฅผ ํ•˜๋Š”์ง€ ํŒŒ์•…ํ•˜๊ณ  ๋ชจ๋ธ์˜ ๋‚ด๋ถ€ ๋™์ž‘ ์›๋ฆฌ๋ฅผ ์ดํ•ดํ•œ๋‹ค.

์ „์ด๋˜๋Š” ์ธต์˜ ์ˆ˜์— ๋”ฐ๋ฅธ ์˜ํ–ฅ (Impact of number of layers transferred)

๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์—์„œ ์ง€๋„ ํ•™์Šต์œผ๋กœ ์ „์ดํ•˜๋Š” ์ธต์˜ ๊ฐœ์ˆ˜๊ฐ€ ์„ฑ๋Šฅ์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ์„ ๋ถ„์„ํ•œ๋‹ค.

  • ์ž„๋ฒ ๋”ฉ๋งŒ ์ „์ดํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค ์ธต์„ ์ถ”๊ฐ€ํ• ์ˆ˜๋ก ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋˜์—ˆ๊ณ , MultiNLI ์ž‘์—…์˜ ๊ฒฝ์šฐ ๋ชจ๋“  ์ธต์„ ์ „์ดํ–ˆ์„ ๋•Œ ์ตœ๋Œ€ 9%์˜ ์„ฑ๋Šฅ์ด ํ–ฅ์ƒ๋œ๋‹ค.
    => ์‚ฌ์ „ ํ•™์Šต๋œ ๋ชจ๋ธ์˜ ๊ฐ ์ธต์ด ํƒ€๊นƒ ์ž‘์—…์„ ํ•ด๊ฒฐํ•˜๋Š” ๋ฐ ํ•„์š”ํ•œ ์œ ์šฉํ•œ ์–ธ์–ด์  ๊ธฐ๋Šฅ๋“ค์„ ๊ฐœ๋ณ„์ ์œผ๋กœ ํฌํ•จํ•˜๊ณ  ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๊ธฐ์ดˆ ์ง€์‹๋งŒ ์žˆ๋Š” ๊ฒƒ๋ณด๋‹ค ์‹ฌํ™” ๊ฐœ๋…๊นŒ์ง€ ๋ชจ๋‘ ์ดํ•ดํ–ˆ์„ ๋•Œ ์„ฑ์ ์ด ๋” ์ž˜ ๋‚˜์˜ค๋Š”๊ฐ€?โ€๋ฅผ ํ™•์ธํ•˜๋Š” ๊ณผ์ •์ธ ๊ฒƒ์ด๋‹ค.

Zero-shot Behaviors

๋ชจ๋ธ์ด ๋ช…์‹œ์ ์ธ fine-tuning ์—†์ด๋„ ์ž‘์—…์„ ์ˆ˜ํ–ฅํ•  ์ˆ˜ ์žˆ๋Š”์ง€๋ฅผ ํ™•์ธํ•œ๋‹ค.

  • ์›๋ฆฌ: ์‚ฌ์ „ ํ•™์Šต๋œ ์ƒ์„ฑ ๋ชจ๋ธ์ด ์–ธ์–ด ๋ชจ๋ธ๋ง ๋Šฅ๋ ฅ์„ ๊ฐœ์„ ํ•˜๋Š” ๊ณผ์ •์—์„œ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ˆ˜ํ–‰ํ•˜๋Š” ๋ฒ•์„ ์Šค์Šค๋กœ ํ•™์Šตํ•œ๋‹ค๋Š” ๊ฐ€์„ค์„ ์„ธ์šด๋‹ค.
  • ์ธก์ • ๋ฐฉ๋ฒ•: ๊ฐ์„ฑ ๋ถ„์„ (SST-2) ๊ฒฝ์šฐ ์ž…๋ ฅ ๋์— โ€œveryโ€๋ฅผ ๋ถ™์—ฌ ๋ชจ๋ธ์ด โ€œpositiveโ€์™€ โ€œnegativeโ€ ์ค‘ ์–ด๋–ค ๋‹จ์–ด์— ๋” ๋†’์€ ํ™•๋ฅ ์„ ์ฃผ๋Š”์ง€ ํ™•์ธํ•˜๋Š” ๋“ฑ์˜ ํœด๋ฆฌ์Šคํ‹ฑ ๋ฐฉ์‹์„ ์‚ฌ์šฉํ–ˆ๋‹ค.
  • ๊ฒฐ๊ณผ: ์‚ฌ์ „ ํ•™์Šต ์—…๋ฐ์ดํŠธ ํš์ˆ˜๊ฐ€ ๋Š˜์–ด๋‚จ์— ๋”ฐ๋ผ ์ด๋Ÿฌํ•œ ์ œ๋กœ์ƒท ์„ฑ๋Šฅ์ด ๊พธ์ค€ํžˆ ํ–ฅ์ƒ๋˜์—ˆ๋‹ค.
    => ์‚ฌ์ „ ํ•™์Šต์ด ๋‹ค์–‘ํ•œ ์ž‘์—… ๊ด€๋ จ ๊ธฐ๋Šฅ์„ ํ•™์Šตํ•˜๋„๋ก ๋•๋Š”๋‹ค๋Š” ๊ฒƒ์„ ์ฆ๋ช…ํ–ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด โ€œ๋ณธ๊ฒฉ์ ์ธ ์‹œํ—˜๊ณต๋ถ€๋ฅผ ํ•˜๊ธฐ ์ „์— ์ƒ์‹๋งŒ์œผ๋กœ ๋ฌธ์ œ๋ฅผ ์–ผ๋งˆ๋‚˜ ํ’€ ์ˆ˜ ์žˆ๋Š”๊ฐ€?โ€๋ฅผ ์ธก์ •ํ•˜์—ฌ ๊ธฐ์ดˆ ์ฒด๋ ฅ์„ ํ™•์ธํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.

์ ˆ์ œ ์—ฐ๊ตฌ (Ablation Studies)

๋ชจ๋ธ์˜ ํ•ต์‹ฌ ์š”์†Œ๋“ค์„ ํ•˜๋‚˜์”ฉ ์ œ๊ฑฐํ•˜๋ฉฐ ๊ทธ ํšจ๊ณผ๋ฅผ ๊ฒ€์ฆํ•œ๋‹ค.

  • ๋ณด์กฐ ์–ธ์–ด ๋ชจ๋ธ๋ง (Auxiliary LM) ๋ชฉ์  ํ•จ์ˆ˜
    fine-tuning ์‹œ ์–ธ์–ด ๋ชจ๋ธ๋ง์„ ๋ณด์กฐ ๋ชฉํ‘œ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ NLI ์ž‘์—…๊ณผ QQP ๊ฐ™์€ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ํšจ๊ณผ์ ์ด๋‹ค. ํ•˜์ง€๋งŒ ๊ทœ๋ชจ๊ฐ€ ์ž‘์€ ๋ฐ์ดํ„ฐ ์…‹์—์„œ๋Š” ํฐ ๋„์›€์ด ๋˜์ง€ ์•Š์•˜๋‹ค.

  • Transformer vs. LSTM ๋™์ผํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ Transformer๋ฅผ ๋Œ€์‹  LSTM์„ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ ํ‰๊ท  5.6์ ์˜ ์„ฑ๋Šฅ์ด ํ•˜๋ฝํ–ˆ๋‹ค.
    => Transformer์˜ ๊ตฌ์กฐ์  ์ด์ ์ด ์ „์ด ํ•™์Šต์— ๋” ์œ ๋ฆฌํ•˜๋‹ค.

  • ์‚ฌ์ „ ํ•™์Šต ์œ ๋ฌด: ์‚ฌ์ „ ํ•™์Šต ์—†์ด ๋ฐ”๋กœ ์ง€๋„ ํ•™์Šต์„ ์ง„ํ–‰ํ–ˆ์„ ๋•Œ ์„ฑ๋Šฅ์ด 14.8%๋‚˜ ๊ฐ์†Œํ–ˆ๋‹ค.
    => ๋น„์ง€๋„ ์‚ฌ์ „ ํ•™์Šต์ด ์„ฑ๋Šฅ ํ–ฅ์ƒ์˜ ํ•ต์‹ฌ์ ์ธ ๊ธฐ์—ฌ ์š”์ธ

์˜ˆ๋ฅผ ๋“ค์–ด โ€œ์ด ํ•™์ƒ์˜ ์„ฑ์ ์—์„œ โ€˜๋…์„œ๋Ÿ‰ (์‚ฌ์ „ ํ•™์Šต)โ€˜์ด๋‚˜ โ€˜ํ•™์Šต ๋„๊ตฌ (Transformer)โ€˜๋ฅผ ํ•˜๋‚˜์”ฉ ๋นผ๋ณธ๋‹ค๋ฉด ์„ฑ์ ์ด ์–ผ๋งˆ๋‚˜ ๋–จ์–ด์งˆ๊นŒ?โ€๋ฅผ ํ…Œ์ŠคํŠธํ•˜์—ฌ ๊ฒฐ๊ณก **๋‹ค์–‘ํ•œ ๋…์„œ (์‚ฌ์ „ ํ•™์Šต)์™€ ์ข‹์€ ๋‘๋‡Œ ๊ตฌ์กฐ (Transformer)**๊ฐ€ ์šฐ์ˆ˜ํ•œ ์„ฑ์ ์˜ ๋น„๊ฒฐ์ด์—ˆ์Œ์„ ์ฆ๋ช…ํ•˜๋Š” ๊ณผ์ •์ด๋‹ค.

๊ฒฐ๋ก 

์ด ๋…ผ๋ฌธ์€ ์ƒˆ๋กœ์šด ๊ตฌ์กฐ๋ฅผ ๋งŒ๋“  ๋…ผ๋ฌธ์ด ์•„๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ **๊ธฐ์กด ๊ตฌ์กฐ (Transfomer)**์— Pre-Training + Fine-Tuning์ด๋ผ๋Š” ํ•™์Šต ์ „๋žต์„ ๋”ํ•ด LLM ์‹œ๋Œ€์˜ ์ฒซ ํผ์ฆ์„ ์™„์„ฑํ–ˆ๋‹ค.

GPT ์‹œ๋ฆฌ์ฆˆ์˜ ๋ชจ๋“  ์‹œ๋„๋Š” ์ด ํ•œ ๋ฌธ์žฅ์—์„œ ์‹œ์ž‘๋๋‹ค.

โ€œWe demonstrate that language modeling can serve as a powerful pretraining objective.โ€

์ง€๊ธˆ ์šฐ๋ฆฌ๊ฐ€ ๋ณด๋Š” GPT-4, GPT-5๋Š” ์ด ๋…ผ๋ฌธ์ด ๋งŒ๋“  โ€˜์ง€๋„ ์—†์ด ๋ฐฐ์šฐ๊ณ , ํ•„์š”ํ•  ๋•Œ ๋ฏธ์„ธ ์กฐ์ •ํ•œ๋‹คโ€™๋Š” ์ „๋žต ์œ„์— ์กด์žฌํ•œ๋‹ค.

Epiloge

์ด ๋…ผ๋ฌธ์€ ์„ฑ๋Šฅ ๊ฒฝ์Ÿ์˜ ๊ฒฐ๊ณผ๋ฌผ์ด ์•„๋‹ˆ๋ผ, ์–ธ์–ด ๋ชจ๋ธ์„ ๋ฐ”๋ผ๋ณด๋Š” ๊ด€์ ์„ ๋ฐ”๊พผ ์ถœ๋ฐœ์ ์ด์—ˆ๋‹ค.

โ€œ๋ผ๋ฒจ ์—†์ด๋„ ์–ธ์–ด๋ฅผ ์ดํ•ดํ•  ์ˆ˜ ์žˆ์„๊นŒ?โ€
์ด ๋‹จ์ˆœํ•œ ์งˆ๋ฌธ์ด ์ดํ›„ ๋ชจ๋“  GPT ๊ณ„์—ด ๋ชจ๋ธ์˜ ๋ฐฉํ–ฅ์„ ๊ฒฐ์ •ํ–ˆ๋‹ค.

namdarine์€ ์ด๋ ‡๊ฒŒ AI์˜ ์„ฑ๋Šฅ์ด ์•„๋‹ˆ๋ผ ์‚ฌ๊ณ ๋ฐฉ์‹๊ณผ ๊ตฌ์กฐ๋ฅผ ๋ฐ”๊พผ ์ˆœ๊ฐ„๋“ค์„ ๊ณ„์†ํ•ด์„œ ๊ธฐ๋กํ•œ๋‹ค.


๐Ÿ“Œ namdarineโ€™s AI Review๋Š” ๋ˆ„๊ตฌ๋‚˜ AI์˜ ํ•ต์‹ฌ ๊ธฐ์ˆ ์„ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋„๋ก ๋…ผ๋ฌธ, ์•Œ๊ณ ๋ฆฌ์ฆ˜, ๊ตฌ์กฐ๋ฅผ ์‰ฝ๊ฒŒ ํ’€์–ด์ฃผ๋Š” ์‹œ๋ฆฌ์ฆˆ์ž…๋‹ˆ๋‹ค.

Letโ€™s build it like itโ€™s already happened.
โ†’ ๋‹ค์Œ ๋ฆฌ๋ทฐ์—์„œ ๋งŒ๋‚˜์š”!