Algorithms & Models

[๐Ÿ“Œ namdarineโ€™s AI Review] BERT๊ฐ€ ๋ฐ”๊พผ ๊ฒƒ์€ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ์•„๋‹ˆ์—ˆ๋‹ค - ์–ธ์–ด๋ฅผ ์ฝ๋Š” ๋ฐฉํ–ฅ์ด์—ˆ๋‹ค

namdarine โ€ข

2018๋…„, ๊ตฌ๊ธ€์ด ๋…ผ๋ฌธ ํ•˜๋‚˜๋ฅผ ๋ฐœํ‘œํ–ˆ๋‹ค. ๋ช‡ ๋‹ฌ ๋’ค, NLP ๋ฒค์น˜๋งˆํฌ ์ˆœ์œ„ํ‘œ๊ฐ€ ๋’ค์ง‘ํ˜”๋‹ค. 1๋…„ ๋’ค, ๊ฑฐ์˜ ๋ชจ๋“  NLP ์—ฐ๊ตฌ๊ฐ€ ์ด ๋…ผ๋ฌธ์„ ์ธ์šฉํ•˜๊ณ  ์žˆ์—ˆ๋‹ค. ๊ทธ ๋…ผ๋ฌธ์ด BERT (Bidirectional Encoder Representations from Transformers)์ด๋‹ค. ์ด ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ์€ ์–ธ์–ด๋ฅผ ๋” ์ •ํ™•ํ•˜๊ฒŒ ์ดํ•ดํ•˜๊ฒŒ ๋งŒ๋“ค๊ณ , ๊ฒฐ๊ณผ์ ์œผ๋กœ ํ™˜๊ฐ(hallucination)๊ณผ ๊ฐ™์€ ์˜ค๋ฅ˜๋ฅผ ์ค„์ผ ์ˆ˜ ์žˆ๋Š” ๋ฐฉํ–ฅ์ฒ˜๋Ÿผ ๋ณด์ธ๋‹ค. ํ•˜์ง€๋งŒ ๊ตฌ์กฐ์  ๋ฌธ์ œ๋กœ ์ด ๊ธฐ์ˆ ์ด ๋‚˜์˜จ 8๋…„์ด ์ง€๋‚œ ํ›„ BERT๋Š” ์ƒ์„ฑํ˜• ์ธ๊ณต์ง€๋Šฅ์ด ์•„๋‹Œ ๋‹ค๋ฅธ ๋ถ„์•ผ์—์„œ์˜ ํ‘œ์ค€์ด ๋˜์—ˆ๋‹ค. ์˜ค๋Š˜์€ GPT์˜ ์•ฝ์ ์„ ๋ณด์™„ํ•  ์ค„ ์•Œ์•˜์ง€๋งŒ ๋‹ค๋ฅธ ์ž๋ฆฌ๋ฅผ ์ฐพ์•„๊ฐ„ BERT๋ฅผ ์ด์•ผ๊ธฐํ•ด๋ณด๋ ค ํ•œ๋‹ค.

BERT์˜ ์ง„์ •ํ•œ ๊ธฐ์—ฌ๋Š” ์„ฑ๋Šฅ ์ˆ˜์น˜์— ์žˆ์ง€ ์•Š๋‹ค. 11๊ฐœ NLP ๊ณผ์ œ์—์„œ ๋‹ฌ์„ฑํ•œ ์ตœ๊ณ  ์„ฑ๋Šฅ์€ ๊ฒฐ๊ณผ์ผ๋ฟ, ์›์ธ์ด ์•„๋‹ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ ๊ฒƒ์€ ํ›จ์”ฌ ๋” ๊ทผ๋ณธ์ ์ธ ์งˆ๋ฌธ์— ๋Œ€ํ•œ ๋‹ต์ด์—ˆ๋‹ค. โ€œ์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ๋ฅผ ์ฝ๋Š” ๋ฐฉํ–ฅ์ด ํ‘œํ˜„์˜ ์งˆ์„ ๊ฒฐ์ •ํ•˜๋Š”๊ฐ€?โ€ BERT๋Š” ๊ทธ๋ ‡๋‹ค๊ณ  ๋‹ตํ–ˆ๊ณ , ๋™์‹œ์— ๊ทธ ์ œ์•ฝ์„ ์ œ๊ฑฐํ•˜๋Š” ๋ฐฉ๋ฒ•์„ ์ฐพ์•„๋ƒˆ๋‹ค. ๊ทธ ๊ณผ์ •์—์„œ ํŒŒํŽธํ™”๋˜์–ด ์žˆ๋˜ NLP์˜ ์ง€ํ˜•์€ ํ•˜๋‚˜์˜ ์ˆ˜๋ ดํ•˜๋Š” ํŒจ๋Ÿฌ๋‹ค์ž„์œผ๋กœ ํ†ตํ•ฉ๋˜์—ˆ๋‹ค. ํ•˜๋‚˜์˜ pre-training๋œ ๋‹จ์ผ ๋ชจ๋ธ์„ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ๋ฒ”์šฉ์ ์œผ๋กœ ์ ์šฉํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๋ฐœ์ƒ์ด ์—ฌ๊ธฐ์„œ ํž˜์„ ์–ป์—ˆ๋‹ค. BERT๊ฐ€ ๋ฐ”๊พผ ๊ฒƒ์€ ํŠน์ • ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์ด ์•„๋‹ˆ๋ผ, ๊ทธ ์ดํ›„์˜ ๋ชจ๋“  NLP ์—ฐ๊ตฌ์ž๋“ค์ด ๋ฌธ์ œ๋ฅผ ์ •์˜ํ•˜๋Š” ๋ฐฉ์‹์ด์—ˆ๋‹ค.

2018๋…„์˜ ๋ฒฝ: ์™œ ์–‘๋ฐฉํ–ฅ์ด ๋ถˆ๊ฐ€๋Šฅํ–ˆ๋‚˜

Bidirectional vs Autoregressive
Generated by Gen AI

2018๋…„ ์ด์ „, ์–ธ์–ด ํ‘œํ˜„ ํ•™์Šต์—๋Š” ๊ตฌ์กฐ์ ์œผ๋กœ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์€ ์ œ์•ฝ์ด ํ•˜๋‚˜ ์žˆ์—ˆ๋‹ค. ๋ชจ๋“  ์–ธ์–ด ๋ชจ๋ธ์ด ๋‹จ๋ฐฉํ–ฅ์ด์—ˆ๋‹ค๋Š” ์ ์ด๋‹ค. ์ด๊ฒƒ์ด ๋‹จ์ˆœํ•œ ์„ค๊ณ„ ์„ ํƒ์ฒ˜๋Ÿผ ๋ณด์ผ ์ˆ˜ ์žˆ์ง€๋งŒ, ์‚ฌ์‹ค ํ”ผํ•  ์ˆ˜ ์—†๋Š” ์ˆ˜ํ•™์  ๊ทผ๊ฑฐ๊ฐ€ ์žˆ์—ˆ๋‹ค. ํ‘œ์ค€ ์ž๊ธฐํšŒ๊ท€ ์–ธ์–ด ๋ชจ๋ธ์€ ์กฐ๊ฑด๋ถ€ ํ™•๋ฅ ์„ ์ˆœ์ฐจ์ ์œผ๋กœ ๊ณ„์‚ฐํ•œ๋‹ค. ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ, ํ˜น์€ ์˜ค๋ฅธ์ชฝ์—์„œ ์™ผ์ชฝ์œผ๋กœ. ๋งŒ์•ฝ ์–‘๋ฐฉํ–ฅ์„ ๋™์‹œ์— ์กฐ๊ฑด์œผ๋กœ ์‚ผ์œผ๋ฉด, ๋ชจ๋ธ์€ ์˜ˆ์ธกํ•ด์•ผ ํ•  ํ† ํฐ์„ ์ด๋ฏธ โ€œ๋ณด๊ณ โ€์žˆ๋Š” ์ƒํƒœ๊ฐ€ ๋œ๋‹ค. ๊ทธ๋ ‡๊ฒŒ ๋˜๋ฉด ๋ชจ๋ธ์€ ๋ฌธ๋งฅ์—์„œ ์˜๋ฏธ๋ฅผ ์ถ”๋ก ํ•˜๋Š” ๋Œ€์‹ , ํ•ด๋‹น ํ† ํฐ์„ ๊ทธ๋Œ€๋กœ ๋ณต์‚ฌํ•˜๋Š” ์†์‰ฌ์šด ๋ฐฉ๋ฒ•์„ ํ•™์Šตํ•œ๋‹ค. ์ฆ‰, ์–‘๋ฐฉํ–ฅ์„ฑ๊ณผ ์ž๊ธฐํšŒ๊ท€ ํ•™์Šต์€ ์ด๋ก ์ ์œผ๋กœ ์–‘๋ฆฝํ•  ์ˆ˜ ์—†์—ˆ๋‹ค.

ELMo๋Š” ์ด ๋ฌธ์ œ๋ฅผ ์šฐํšŒํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์ ‘๊ทผํ–ˆ๋‹ค. ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ฝ๋Š” LSTM๊ณผ ์˜ค๋ฅธ์ชฝ์—์„œ ์™ผ์ชฝ์œผ๋กœ ์ฝ๋Š” LSTM์„ ๊ฐ๊ฐ ๋…๋ฆฝ์ ์œผ๋กœ ํ•™์Šต์‹œํ‚จ ๋’ค, ๊ทธ ์ถœ๋ ฅ์„ ์–•๊ฒŒ ์ด์–ด ๋ถ™์˜€๋‹ค. ํ‘œ๋ฉด์ ์œผ๋กœ๋Š” ์–‘๋ฐฉํ–ฅ์ฒ˜๋Ÿผ ๋ณด์ด์ง€๋งŒ, ๋‚ด๋ถ€์ ์œผ๋กœ๋Š” ๊ทธ๋ ‡์ง€ ์•Š์•˜๋‹ค. ๊ฐ ๋ฐฉํ–ฅ์˜ ํ‘œํ˜„์€ ๋ฐ˜๋Œ€ ๋ฐฉํ–ฅ์˜ ๋ฌธ๋งฅ์„ ์ „ํ˜€ ์•Œ์ง€ ๋ชปํ•œ ์ฑ„ ํ˜•์„ฑ๋˜์—ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด โ€œbankโ€๋ผ๋Š” ๋‹จ์–ด๋ฅผ ์ธ์ฝ”๋”ฉํ•  ๋•Œ, ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ฝ๋Š” LSTM์€ ๊ทธ ์•ž์— ์˜ค๋Š” ๋‚ด์šฉ๋งŒ ๋ณด๊ณ , ์˜ค๋ฅธ์ชฝ์—์„œ ์™ผ์ชฝ์œผ๋กœ ์ฝ๋Š” LSTM์€ ๊ทธ ๋’ค์— ์˜ค๋Š” ๋‚ด์šฉ๋งŒ ๋ณธ๋‹ค. ์ด๋ ‡๊ฒŒ ์‚ฌํ›„์ ์œผ๋กœ ๋‘ ํ‘œํ˜„์„ ์ด์–ด๋ถ™์ด๋Š” ๊ฒƒ์€, ๋ชจ๋“  ๋ ˆ์ด์–ด์—์„œ ๋‘ ๋ฌธ๋งฅ์„ ๋™์‹œ์— ํ†ตํ•ฉํ•˜๋Š” ๊ฒƒ๊ณผ ๊ทผ๋ณธ์ ์œผ๋กœ ๋‹ค๋ฅด๋‹ค. ๋น„์œ ํ•˜์ž๋ฉด ์ด๋ ‡๋‹ค. ๋‘ ๋ช…์˜ ํƒ์ •์ด ํ•œ ์‚ฌ๊ฑด์„ ๋งก์•˜๋‹ค. ํ•œ ๋ช…์€ ์‚ฌ๊ฑด์˜ ์ „๋ฐ˜๋ถ€๋งŒ ์กฐ์‚ฌํ•˜๊ณ , ๋‹ค๋ฅธ ํ•œ ๋ช…์€ ํ›„๋ฐ˜๋ถ€๋งŒ ์กฐ์‚ฌํ•œ๋‹ค. ์ˆ˜์‚ฌ๊ฐ€ ๋๋‚œ ๋’ค ๋‘˜์˜ ๋ณด๊ณ ์„œ๋ฅผ ์Šคํ…Œ์ดํ”Œ๋Ÿฌ๋กœ ์ฐ์–ด ๋ถ™์ด๋Š” ๊ฒƒ์ด ELMo์ด๋‹ค. ๋ฐ˜๋ฉด BERT๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ๋‘ ํƒ์ •์ด ๊ฐ™์€ ๋ฐฉ์— ์•‰์•„ ๋ชจ๋“  ์ฆ๊ฑฐ๋ฅผ ํ•จ๊ป˜ ๋ณด๋ฉฐ ํ† ๋ก ์„ ํ•œ๋‹ค. ๊ฒฐ๊ณผ๋ฌผ์˜ ๊นŠ์ด๊ฐ€ ๋‹ค๋ฅผ ์ˆ˜๋ฐ–์— ์—†๋‹ค. OpenAI์˜ GPT๋Š” ์ด ๋ฌธ์ œ ์ž์ฒด๋ฅผ ํฌ๊ธฐํ•˜๊ณ , ์™ผ์ชฝ์—์„œ ์˜ค๋ฅธ์ชฝ์œผ๋กœ๋งŒ ์ฝ๋Š” Transformer๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค. ๊ทธ ๊ฒฐ๊ณผ ์–ด๋–ค ํ† ํฐ๋„ ์˜ค๋ฅธ์ชฝ์— ์žˆ๋Š” ๋‚ด์šฉ์„ ์ฐธ์กฐํ•  ์ˆ˜ ์—†์—ˆ๊ณ , ์ด๋Š” ์งˆ์˜ ์‘๋‹ต์ด๋‚˜ ๊ฐœ์ฒด๋ช… ์ธ์‹์ฒ˜๋Ÿผ ๋‹จ์–ด์˜ ์˜๋ฏธ๋ฅผ ํŒŒ์•…ํ•˜๋Š” ๋ฐ ๋’ค๋”ฐ๋ฅด๋Š” ๋ฌธ๋งฅ์ด ๊ฒฐ์ •์ ์ธ ์—ญํ• ์„ ํ•˜๋Š” ํ† ํฐ ๋‹จ์œ„ ๊ณผ์ œ์—์„œ ํŠนํžˆ ์‹ฌ๊ฐํ•œ ๊ตฌ์กฐ์  ํ•œ๊ณ„๋กœ ์ž‘์šฉํ–ˆ๋‹ค. ์š”์•ฝํ•˜๋ฉด, 2018๋…„์˜ NLP๋Š” โ€œ์–‘๋ฐฉํ–ฅ์œผ๋กœ ์ฝ๊ณ  ์‹ถ์ง€๋งŒ ์ฝ์„ ์ˆ˜ ์—†๋Š”โ€ ์ƒํƒœ์— ๊ฐ‡ํ˜€ ์žˆ์—ˆ๋‹ค.

BERT์˜ ํ•ด๋ฒ•: ๋งˆ์Šคํ‚น์ด๋ผ๋Š” ์šฐํšŒ๋กœ

Masked Language Model
Generated by Gen AI

BERT์˜ ํ•ต์‹ฌ ๋ฉ”์ปค๋‹ˆ์ฆ˜์€ ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ, ์ฆ‰ MLM์ด๋‹ค. ํ•˜์ง€๋งŒ ์ด๋ฅผ ๋‹จ์ˆœํžˆ โ€œํ† ํฐ์˜ 15%๋ฅผ ๊ฐ€๋ฆฐ๋‹คโ€๋Š” ์‹์œผ๋กœ ์ดํ•ดํ•˜๋ฉด ๋ณธ์งˆ์„ ๋†“์นœ๋‹ค. MLM์ด ์‹ค์ œ๋กœ ํ•ด๊ฒฐํ•˜๋Š” ๊ฒƒ์€, ์–‘๋ฐฉํ–ฅ ํ•™์Šต์„ ๋ถˆ๊ฐ€๋Šฅํ•˜๊ฒŒ ๋งŒ๋“ค์—ˆ๋˜ ์ •๋ณด ๋ˆ„์„ค ๋ฌธ์ œ๋‹ค. ์ž…๋ ฅ์—์„œ ์˜ˆ์ธก ๋Œ€์ƒ ํ† ํฐ์„ ์ œ๊ฑฐํ•จ์œผ๋กœ์จ, ๋ชจ๋ธ์€ ํ•ด๋‹น ํ† ํฐ ์—†์ด ์–‘์ชฝ ๋ฌธ๋งฅ๋งŒ์œผ๋กœ ๊ทธ ์˜๋ฏธ๋ฅผ ์žฌ๊ตฌ์„ฑํ•ด์•ผ ํ•œ๋‹ค. ์ด ๊ณผ์ •์—์„œ Transformer์˜ ๋ชจ๋“  ๋ ˆ์ด์–ด๋Š” ํ‘œํ˜„์„ ๋งŒ๋“ค๋•Œ ์™ผ์ชฝ๊ณผ ์˜ค๋ฅธ์ชฝ ๋ฌธ๋งฅ์„ ๋™์‹œ์— ์ฐธ์กฐํ•œ๋‹ค. ์ด๊ฒƒ์ด ELMo์˜ ์–•์€ ์ด์–ด ๋ถ™์ด๊ธฐ์™€ ๊ตฌ์กฐ์ ์œผ๋กœ ๊ตฌ๋ณ„๋˜๋Š” ์ง€์ ์ด๋‹ค.

๊ทธ๋Ÿฌ๋‚˜ ์ด ๋ฐฉ์‹์€ ์ƒˆ๋กœ์šด ๋ฌธ์ œ๋ฅผ ๋‚ณ๋Š”๋‹ค. [MASK] ํ† ํฐ์€ pre-training ๋‹จ๊ณ„์—์„œ๋งŒ ๋“ฑ์žฅํ•˜๊ณ , fine-tuning ๋‹จ๊ณ„์—์„œ๋Š” ๋‚˜ํƒ€๋‚˜์ง€ ์•Š๋Š”๋‹ค. ๋‘ ๋‹จ๊ณ„ ์‚ฌ์ด์— ์ž…๋ ฅ ๋ถ„ํฌ์˜ ๋ถˆ์ผ์น˜๊ฐ€ ์ƒ๊ธฐ๋Š” ๊ฒƒ์ด๋‹ค. ์ด๋ฅผ ์™„ํ™”ํ•˜๊ธฐ ์œ„ํ•ด BERT๋Š” ์˜๋„์ ์œผ๋กœ ํ˜ผํ•ฉ ๋งˆ์Šคํ‚น ์ „๋žต์„ ์‚ฌ์šฉํ•œ๋‹ค. ์˜ˆ์ธก ๋Œ€์ƒ์œผ๋กœ ์„ ํƒ๋œ 15%์˜ ํ† ํฐ ์ค‘ 80%๋Š” [MASK]๋กœ ๊ต์ฒด๋˜๊ณ , 10%๋Š” ์ž„์˜์˜ ๋‹ค๋ฅธ ํ† ํฐ์œผ๋กœ ๋ฐ”๋€Œ๋ฉฐ, ๋‚˜๋จธ์ง€ 10%๋Š” ์›๋ž˜ ํ† ํฐ ๊ทธ๋Œ€๋กœ ์œ ์ง€๋œ๋‹ค. ์ด ์„ค๊ณ„์˜ ํšจ๊ณผ๋Š” ๋ฏธ๋ฌ˜ํ•˜์ง€๋งŒ ์ค‘์š”ํ•˜๋‹ค. ๋ชจ๋ธ์€ ์–ด๋–ค ํ† ํฐ์ด ๋งˆ์Šคํ‚น๋˜์—ˆ๋Š”์ง€, ์ž„์˜ ํ† ํฐ์œผ๋กœ ๊ต์ฒด๋˜์—ˆ๋Š”์ง€, ์•„๋‹ˆ๋ฉด ๊ทธ๋Œ€๋กœ์ธ์ง€ ์•Œ ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์‹œํ€€์Šค ๋‚ด ๋ชจ๋“  ํ† ํฐ์— ๋Œ€ํ•ด ๋ฌธ๋งฅ์ ์œผ๋กœ ์ผ๊ด€๋œ ํ‘œํ˜„์„ ์œ ์ง€ํ•˜๋„๋ก ๊ฐ•์ œ๋œ๋‹ค. ์ด๋Š” ๋ชจ๋ธ์ด ํŠน์ • ์ž…๋ ฅ ํŒจํ„ด์— ์˜์กดํ•˜๋Š” ์ง€๋ฆ„๊ธธ์„ ํ•™์Šตํ•˜์ง€ ๋ชปํ•˜๋„๋ก ๋ง‰๋Š”๋‹ค.

๋‘๋ฒˆ์งธ pre-training ๊ณผ์ œ์ธ ๋‹ค์Œ ๋ฌธ์žฅ ์˜ˆ์ธก(NSP)์€ ๋ฌธ์žฅ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ๋‹ค. ๊ฐœ๋…์ ์œผ๋กœ๋Š” ํ•ฉ๋ฆฌ์ ์ด์ง€๋งŒ, ์ดํ›„ ์—ฐ๊ตฌ, ํŠนํžˆ RoBERTa๋Š” NSP์˜ ์‹ค์งˆ์ ์ธ ๊ธฐ์—ฌ๊ฐ€ ์ œํ•œ์ ์ž„์„ ๋ณด์—ฌ์คฌ๋‹ค. BERT ์ž์ฒด์˜ ablation ์‹คํ—˜์—์„œ๋„ NSP๋ฅผ ์ œ๊ฑฐํ–ˆ์„ ๋•Œ ์ผ๋ถ€ ๊ณผ์ œ ์—์„œ๋งŒ ์œ ์˜๋ฏธํ•œ ์„ฑ๋Šฅ ์ €ํ•˜๊ฐ€ ๊ด€์ฐฐ๋˜์—ˆ๋Š”๋ฐ, ์ด๋Š” NSP๊ฐ€ ๋…ผ๋ฌธ์ด ์‹œ์‚ฌํ•˜๋Š” ๊ฒƒ๋งŒํผ ํ•ต์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ์„ ๋“œ๋Ÿฌ๋‚ธ๋‹ค.

fine-tuning ์•„ํ‚คํ…์ฒ˜๋„ ์ฃผ๋ชฉํ•  ํ•„์š”๊ฐ€ ์žˆ๋‹ค. BERT๋Š” pre-training๊ณผ fine-tuning์— ๋™์ผํ•œ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, [CLS] ํ† ํฐ์ด ๋ถ„๋ฅ˜ ์ž‘์—…์„ ์œ„ํ•œ ํ†ตํ•ฉ ํ‘œํ˜„์œผ๋กœ ์“ฐ์ด๊ณ , [SEP]๊ฐ€ ์‹œํ€€์Šค์˜ ๊ฒฝ๊ณ„๋ฅผ ํ‘œ์‹œํ•œ๋‹ค. ์ด ํ†ต์ผ๋œ ์„ค๊ณ„ ๋•๋ถ„์— ๋ถ„๋ฅ˜, ์‹œํ€€์Šค ํƒœ๊น…, ์งˆ์˜์‘๋‹ต, ์ž์—ฐ์–ด ์ถ”๋ก  ๋“ฑ ๋‹ค์–‘ํ•œ ์ž‘์—…์„ ์ตœ์†Œํ•œ์˜ ์ž‘์—…๋ณ„ ํŒŒ๋ผ๋ฏธํ„ฐ ์ถ”๊ฐ€๋งŒ์œผ๋กœ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค. ํ•ต์‹ฌ์€ ๋‹จ์ˆœํ•˜๋‹ค. ์ •๋‹ต์„ ๊ฐ€๋ฆฌ๊ณ  ์–‘์ชฝ์—์„œ ์ถ”๋ก ํ•˜๊ฒŒ ๋งŒ๋“  ๊ฒƒ, ๊ทธ๊ฒŒ BERT์˜ ์ „๋ถ€์ด์ž ์ „๋ถ€์˜€๋‹ค.

ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ์—ญ์ „: ๋ชจ๋ธ์ด ์ค‘์‹ฌ์ด ๋˜๋‹ค

Paradigm Shift
Generated by Gen AI

BERT ์ด์ „์˜ ํŒจ๋Ÿฌ๋‹ค์ž„์—์„œ๋Š” ์ž‘์—…๋ณ„ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ด ๋‹น์—ฐํ•œ ๊ด€ํ–‰์ด์—ˆ๋‹ค. BiDAF๋Š” ์งˆ์˜์‘๋‹ต์„ ์œ„ํ•ด ๋งŒ๋“ค์–ด์กŒ๊ณ , ESIM์€ ์ž์—ฐ์–ด ์ถ”๋ก ์„ ์œ„ํ•ด ์„ค๊ณ„๋˜์—ˆ๋‹ค. pre-training๋œ ํ‘œํ˜„์€ ์ด๋Ÿฌํ•œ ์ˆ˜์ž‘์—… ์‹œ์Šคํ…œ์— ๋ถ€๊ฐ€์ ์ธ ํŠน์„ฑ์œผ๋กœ ์ฃผ์ž…๋˜๋Š” ๋ณด์กฐ์ ์ธ ์—ญํ• ์— ๋จธ๋ฌผ๋ €๋‹ค. ELMo๊ฐ€ ์ด ์ ‘๊ทผ ๋ฐฉ์‹์„ ๋Œ€ํ‘œํ•œ๋‹ค.

BERT๋Š” ์ด ๊ด€๊ณ„๋ฅผ ๋’ค์ง‘์—ˆ๋‹ค. ๋ฒ”์šฉ pre-training ๋ชจ๋ธ์ด ์ค‘์‹ฌ์ด ๋˜๊ณ , ์ž‘์—…๋ณ„ ๊ตฌ์„ฑ ์š”์†Œ๋Š” ๊ทธ ์œ„์— ์–นํžˆ๋Š” ์–‡์€ ์ธต์œผ๋กœ ์ „๋ฝํ•œ๋‹ค. ์ด ์—ญ์ „์˜ ์˜๋ฏธ๋Š” ๋‹จ์ˆœํ•œ ํŽธ์˜์„ฑ์„ ๋„˜์–ด์„ ๋‹ค. Fine-tuning ๊ณผ์ •์—์„œ ๋ชจ๋“  ํŒŒ๋ผ๋ฏธํ„ฐ๊ฐ€ ํ•จ๊ป˜ ์—…๋ฐ์ดํŠธ๋˜๊ธฐ ๋•Œ๋ฌธ์—, pre-training์—์„œ ํ˜•์„ฑ๋œ ํ’๋ถ€ํ•œ ํ‘œํ˜„์ด ์ž‘์—…๋ณ„ ์‹ ํ˜ธ์— ์˜ํ•ด ์ •๋ฐ€ํ•˜๊ฒŒ ์กฐ์ •๋œ๋‹ค. ๋ฐ˜๋ฉด ํŠน์„ฑ ๊ธฐ๋ฐ˜ ์ ‘๊ทผ๋ฒ•์—์„œ๋Š” pre-training๋œ ํ‘œํ˜„์ด ๊ณ ์ •๋˜์–ด ์žˆ์–ด, downstream ์ž‘์—…์ด ํ‘œํ˜„ ์ž์ฒด๋ฅผ ์ˆ˜์ • ํ•  ์ˆ˜ ์—†๋‹ค.

GPT์™€์˜ ๋น„๊ต๋Š” ์ด ๋…ผ๋ฌธ์ด ์–ผ๋งˆ๋‚˜ ์ •๋ฐ€ํ•˜๊ฒŒ ์„ค๊ณ„๋˜์—ˆ๋Š”์ง€๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. BERT-base๋Š” ์˜๋„์ ์œผ๋กœ GPT์™€ ๋™์ผํ•œ ๋ชจ๋ธ ํฌ๊ธฐ๋กœ ๊ตฌ์„ฑ๋˜์—ˆ๋‹ค. ๋‘ ๋ชจ๋ธ ์‚ฌ์ด์˜ ์œ ์ผํ•œ ์˜๋ฏธ ์žˆ๋Š” ๋ณ€์ˆ˜๊ฐ€ attention์˜ ๋ฐฉํ–ฅ์„ฑ์ด ๋˜๋„๋ก ํ•˜๊ธฐ ์œ„ํ•ด์„œ์ด๋‹ค. ๋™๋“ฑํ•œ ๊ทœ๋ชจ์—์„œ ์ด ์ฐจ์ด๋งŒ์œผ๋กœ๋„ ํ‰๊ท  GLUE ์ •ํ™•๋„์—์„œ 4.5% ํฌ์ธํŠธ์˜ ๊ฒฉ์ฐจ๊ฐ€ ๋ฐœ์ƒํ–ˆ๋Š”๋ฐ, ์ด๋Š” ์–‘๋ฐฉํ–ฅ์„ฑ์˜ ๊ธฐ์—ฌ๋ฅผ ๋งค์šฐ ๊น”๋”ํ•˜๊ฒŒ ๋ถ„๋ฆฌํ•ด๋‚ธ ๊ฒฐ๊ณผ์ด๋‹ค.

๋ชจ๋ธ ๊ทœ๋ชจ์— ๊ด€ํ•œ ๋ฐœ๊ฒฌ๋„ ๊ตฌ์กฐ์ ์œผ๋กœ ์ค‘์š”ํ•œ ์˜๋ฏธ๋ฅผ ๊ฐ–๋Š”๋‹ค. ๋Œ€๊ทœ๋ชจ ์ž‘์—…์—์„œ ๋” ํฐ ๋ชจ๋ธ์ด ๋„์›€์ด ๋œ๋‹ค๋Š” ์‚ฌ์‹ค์€ ์ด๋ฏธ ์•Œ๋ ค์ ธ ์žˆ์—ˆ์ง€๋งŒ, BERT๋Š” ๋ ˆ์ด๋ธ”์ด ์ˆ˜์ฒœ ๊ฐœ์— ๋ถˆ๊ณผํ•œ ์†Œ๊ทœ๋ชจ ์ž‘์—…์—์„œ๋„ ๊ทœ๋ชจ์˜ ์ด์ ์ด ์œ ์ง€๋จ์„ ๋ณด์—ฌ์คฌ๋‹ค. ์ด๋Š” pre-training์ด ์ถฉ๋ถ„ํžˆ ๊นŠ๊ณ  ๋„“๊ฒŒ ์ด๋ฃจ์–ด์ง„๋‹ค๋ฉด, ๋” ํฐ ํ‘œํ˜„ ์šฉ๋Ÿ‰์ด ์ตœ์†Œํ•œ์˜ fine-tuning ๋ฐ์ดํ„ฐ๋งŒ์œผ๋กœ๋„ ํšจ๊ณผ์ ์œผ๋กœ ํ™œ์šฉ๋  ์ˆ˜ ์žˆ์Œ์„ ์‹œ์‚ฌํ•œ๋‹ค. BERT ์ดํ›„, โ€œ์–ด๋–ค ๋ชจ๋ธ์„ ์“ธ๊นŒโ€๋ณด๋‹ค โ€œ์–ด๋–ป๊ฒŒ ํ•™์Šต์‹œํ‚ฌ๊นŒโ€๊ฐ€ ๋” ์ค‘์š”ํ•œ ์งˆ๋ฌธ์ด ๋๋‹ค.

BERT๊ฐ€ ํฌ๊ธฐํ•œ ๊ฒƒ๋“ค

BERT์˜ ๊ฐ€์žฅ ๊ทผ๋ณธ์ ์ธ ํ•œ๊ณ„๋Š” MLM ์ž์ฒด์—์„œ ๋น„๋กฏ๋œ๋‹ค. ๋ฐฐ์น˜๋‹น 15%์˜ ํ† ํฐ๋งŒ ์˜ˆ์ธกํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ๋ชจ๋“  ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋Š” ์ž๊ธฐํšŒ๊ท€ ๋ชจ๋ธ์— ๋น„ํ•ด ๋‹จ์œ„ ์—ฐ์‚ฐ๋‹น ํ•™์Šต ์‹ ํ˜ธ๊ฐ€ ํ›จ์”ฌ ์ ๋‹ค. ์ด๋Š” BERT๊ฐ€ ์ˆ˜๋ ดํ•˜๊ธฐ๊นŒ์ง€ ์‹ค์งˆ์ ์œผ๋กœ ๋” ๋งŽ์€ pre-training ๋‹จ๊ณ„๋ฅผ ํ•„์š”๋กœ ํ•œ๋‹ค๋Š” ๊ฒƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, ๋…ผ๋ฌธ ์ž์ฒด๋„ ์ด ์ ์„ ์ธ์ •ํ•œ๋‹ค.

๋” ๋ณธ์งˆ์ ์ธ ํ•œ๊ณ„๋Š” BERT๊ฐ€ ์ƒ์„ฑ ์ž‘์—…์— ๊ตฌ์กฐ์ ์œผ๋กœ ์ ํ•ฉํ•˜์ง€ ์•Š๋‹ค๋Š” ์ ์ด๋‹ค. ๋งˆ์Šคํ‚น๋œ ํ† ํฐ์„ ์˜ˆ์ธกํ•˜๋„๋ก ํ•™์Šต๋œ ์ธ์ฝ”๋” ์ „์šฉ ๋ชจ๋ธ๋กœ์„œ, ์ž๊ธฐํšŒ๊ท€์  ์‹œํ€€์Šค ์ƒ์„ฑ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์—†๋‹ค. ์š”์•ฝ, ๋ฒˆ์—ญ, ๊ฐœ๋ฐฉํ˜• ๋Œ€ํ™” ์ƒ์„ฑ ๊ฐ™์€ ์ž‘์—…์€ ํฐ ์ˆ˜์ • ์—†์ด๋Š” BERT๋กœ ์ ‘๊ทผํ•˜๊ธฐ ์–ด๋ ต๋‹ค. BERT๋Š” ๋›ฐ์–ด๋‚œ ๋…ํ•ด ์„ ์ƒ๋‹˜์ด์ง€, ์ž‘๊ฐ€๊ฐ€ ์•„๋‹ˆ๋‹ค. ๊ธ€์„ ์ฝ๊ณ  ๋นˆ์นธ์„ ์ฑ„์šฐ๊ฑฐ๋‚˜ ํ•ต์‹ฌ์„ ํŒŒ์•…ํ•˜๋Š” ๋ฐ๋Š” ํƒ์›”ํ•˜์ง€๋งŒ, ๋ฐฑ์ง€ ์œ„์— ์ฒซ ๋ฌธ์žฅ๋ถ€ํ„ฐ ์จ ๋‚ด๋ ค๊ฐ€๋Š” ํ›ˆ๋ จ์€ ๋ฐ›์ง€ ์•Š์•˜๋‹ค. ChatGPT, Claude ๊ฐ™์€ ๋Œ€ํ™”ํ˜• AI๊ฐ€ BERT๊ฐ€ ์•„๋‹Œ GPT ๊ณ„์—ด์—์„œ ๋‚˜์˜จ ์ด์œ ๊ฐ€ ์—ฌ๊ธฐ์— ์žˆ๋‹ค.

NSP์˜ ๊ฐ€์น˜๋„ ์žฌ๊ฒ€ํ† ๊ฐ€ ํ•„์š”ํ•˜๋‹ค. ๋…ผ๋ฌธ์€ NSP๊ฐ€ ์งˆ์˜์‘๋‹ต๊ณผ ์ž์—ฐ์–ด ์ถ”๋ก ์— ๊ธฐ์—ฌํ•œ๋‹ค๊ณ  ์ฃผ์žฅํ•˜์ง€๋งŒ, RoBERTa๋Š” NSP ์—†์ด ๋” ๊ธด ํ•™์Šต๊ณผ ๋” ํฐ ๋ฐฐ์น˜๋งŒ์œผ๋กœ๋„ ์ด ์ž‘์—…๋“ค์—์„œ BERT๋ฅผ ๋Šฅ๊ฐ€ํ–ˆ๋‹ค. ์ด๋Š” NSP ๋•๋ถ„์ด๋ผ๊ณ  ์—ฌ๊ฒจ์กŒ๋˜ ์ผ๋ถ€ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์‹ค์ œ๋กœ๋Š” ๋‹ค๋ฅธ ์ด์œ ์—์„œ ์™”์„ ๊ฐ€๋Šฅ์„ฑ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ฆ‰, ๋ฌธ์žฅ ๊ฐ„ ๊ด€๊ณ„๋ฅผ ํ•™์Šตํ–ˆ๋‹ค๊ธฐ๋ณด๋‹ค ๋” ๋งŽ์€ ๋ฌธ์žฅ ์Œ ๋ฐ์ดํ„ฐ์— ๋…ธ์ถœ๋œ ํšจ๊ณผ์˜€์„ ์ˆ˜ ์žˆ๋‹ค.

512 ํ† ํฐ์˜ ๋ฌธ๋งฅ ์ œํ•œ์€ attention์˜ ์ด์ฐจ์  ๊ณ„์‚ฐ ๋ณต์žก๋„์—์„œ ์ง์ ‘ ๋น„๋กฏ๋œ ์ œ์•ฝ์ด๋‹ค. ์žฅ๊ฑฐ๋ฆฌ ์˜์กด์„ฑ์ด ์ค‘์š”ํ•œ ๊ธด ๋ฌธ์„œ, ๋ฒ•๋ฅ  ํ…์ŠคํŠธ, ์ฝ”๋“œ ํŒŒ์ผ ๋“ฑ์—๋Š” BERT๊ฐ€ ๊ตฌ์กฐ์ ์œผ๋กœ ํ•œ๊ณ„๋ฅผ ๊ฐ€์ง„๋‹ค. ์ด ์ œ์•ฝ์ด Longformer, BigBird, ๊ทธ๋ฆฌ๊ณ  ํฌ์†Œ attention ๋ฉ”์ปค๋‹ˆ์ฆ˜ ์—ฐ๊ตฌ ์ „๋ฐ˜์˜ ๋™๊ธฐ๊ฐ€ ๋˜์—ˆ๋‹ค.

๋งˆ์ง€๋ง‰์œผ๋กœ, pre-training๊ณผ fine-tuning ์‚ฌ์ด์˜ ๋ถ„ํฌ ๋ถˆ์ผ์น˜ ๋ฌธ์ œ๋Š” ์™„์ „ํžˆ ํ•ด๊ฒฐ๋˜์ง€ ์•Š์•˜๋‹ค. [MASK] ํ† ํฐ์€ fine-tuning ์‹œ ๋“ฑ์žฅํ•˜์ง€ ์•Š๊ธฐ ๋•Œ๋ฌธ์—, ๋งˆ์Šคํ‚น๋œ ์ž…๋ ฅ์— ๋ฐ˜์‘ํ•˜๋„๋ก ํ•™์Šต๋œ ํ‘œํ˜„์ด ๋งˆ์Šคํ‚น๋˜์ง€ ์•Š์€ ์ถ”๋ก  ๋ฌธ๋งฅ์œผ๋กœ ๊น”๋”ํ•˜๊ฒŒ ์ด์ „๋˜์ง€ ์•Š์„ ์ˆ˜ ์žˆ๋‹ค. ํ˜ผํ•ฉ ๋งˆ์Šคํ‚น ์ „๋žต์ด ์ด ๊ฐ„๊ทน์„ ์ค„์ด์ง€๋งŒ, ๊ทผ๋ณธ์ ์ธ ๋น„๋Œ€์นญ์„ฑ์€ ์—ฌ์ „ํžˆ ๋‚จ์•„ ์žˆ๋‹ค. BERT๋Š” โ€œ์ดํ•ดโ€๋ฅผ ์–ป๋Š” ๋Œ€์‹  โ€œ์ƒ์„ฑโ€์„ ํฌ๊ธฐํ–ˆ๋‹ค. ๊ทธ ์„ ํƒ์˜ ๋Œ€๊ฐ€๋Š” 8๋…„ ํ›„์—์•ผ ๋ช…ํ™•ํ•ด์กŒ๋‹ค.

BERT๊ฐ€ ๋‚จ๊ธด ๊ฒƒ

BERT๊ฐ€ ์—ด์–ด๋†“์€ ๊ฒƒ์€ ๋‹จ์ˆœํžˆ ๋‹จ์ผ ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ ํ–ฅ์ƒ์ด ์•„๋‹ˆ์—ˆ๋‹ค. NLP ์—ฐ๊ตฌ ์ž์ฒด์˜ ๊ตฌ์กฐ๋ฅผ ์žฌํŽธํ–ˆ๋‹ค. BERT ์ด์ „์—๋Š” ๊ฐ ์ž‘์—…๋งˆ๋‹ค ์ „์šฉ ์•„ํ‚คํ…์ฒ˜๊ฐ€ ํ•„์š”ํ–ˆ๋‹ค. BERT ์ดํ›„์—๋Š” โ€œ๋ฌด์—‡์œผ๋กœ pre-trainingํ•  ๊ฒƒ์ธ๊ฐ€, ์–ด๋–ป๊ฒŒ fine-tuningํ•  ๊ฒƒ์ธ๊ฐ€โ€๊ฐ€ ์ค‘์‹ฌ ์งˆ๋ฌธ์ด ๋˜์—ˆ๊ณ , ์ž‘์—…๋ณ„ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๋Š” ์ฃผ๋ณ€๋ถ€๋กœ ๋ฐ€๋ ค๋‚ฌ๋‹ค. ์ด๊ฒƒ์ด ๊ฐ€๋Šฅํ–ˆ๋˜ ๊ฒƒ์€ BERT๊ฐ€ ๋ฒ”์šฉ์„ฑ๊ณผ ๊นŠ์ด๋ฅผ ๋™์‹œ์— ๋‹ฌ์„ฑํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. BERT์˜ ํ‘œํ˜„์€ ๋ฌธ์žฅ ์ˆ˜์ค€์˜ ์˜๋ฏธ ์ถ”๋ก ๊ณผ ์„ธ๋ฐ€ํ•œ ํ† ํฐ ๋‹จ์œ„ ์˜ˆ์ธก์„ ๋™์ผํ•œ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ณต๊ฐ„ ์•ˆ์—์„œ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ์„ ๋งŒํผ ํ’๋ถ€ํ•˜๋‹ค. ์ด๋Š” ๋ฉ€ํ‹ฐํƒœ์Šคํฌ ํ•™์Šต, ํ”„๋กฌํ”„ํŠธ ๊ธฐ๋ฐ˜ ํ•™์Šต, ๋‚˜์•„๊ฐ€ GPT-3๊ฐ€ ๊ตฌํ˜„ํ•œ few-shot ํ•™์Šต ํŒจ๋Ÿฌ๋‹ค์ž„์˜ ๊ฐœ๋…์  ํ† ๋Œ€๊ฐ€ ๋˜์—ˆ๋‹ค. ๋‹จ์ผ ๋ชจ๋ธ์ด ๋‹ค์–‘ํ•œ ์–ธ์–ด ์ž‘์—…์„ ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ BERT๊ฐ€ ์„ค๋“๋ ฅ ์žˆ๊ฒŒ ์ž…์ฆํ•˜์ง€ ์•Š์•˜๋‹ค๋ฉด, ๊ทœ๋ชจ๋งŒ์œผ๋กœ๋„ ์ž‘์—… ์ „๋ฐ˜์— ๊ฑธ์ณ ์ผ๋ฐ˜ํ™”ํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ์ฃผ์žฅ์€ ํ›จ์”ฌ ์„ค๋“ํ•˜๊ธฐ ์–ด๋ ค์› ์„ ๊ฒƒ์ด๋‹ค.

8๋…„ ํ›„, BERT๋Š” ์–ด๋””์— ์žˆ๋‚˜

์ด ๊ธ€์€ 2026๋…„์— ์“ฐ์˜€๋‹ค. BERT ๋…ผ๋ฌธ์ด ๋‚˜์˜จ ์ง€ 8๋…„์ด ์ง€๋‚ฌ๋‹ค. 8๋…„ ์ „ ๋…์ž๋“ค์€ BERT๊ฐ€ ์–ด๋””๋กœ ๊ฐˆ์ง€ ๋ชฐ๋ž๋‹ค. ์ง€๊ธˆ์€ ์•ˆ๋‹ค. ๋ฌด์—‡์ด ํ‘œ์ค€์ด ๋๊ณ , ๋ฌด์—‡์ด ์‚ฌ๋ผ์กŒ๊ณ , ์–ด๋–ค ๊ตฌ์กฐ๊ฐ€ ์‚ด์•„๋‚จ์•˜๋Š”์ง€. ๊ฒฐ๊ณผ๋ฅผ ์•„๋Š” ์ƒํƒœ์—์„œ ์ฝ๋Š” ๊ฑด, ๋ณต์„ ์ด ๋ณด์ด๋Š” ์ถ”๋ฆฌ์†Œ์„ค์„ ์ฝ๋Š” ๊ฒƒ๊ณผ ๋น„์Šทํ•˜๋‹ค.

๋‹น์‹œ์˜ ๊ธฐ๋Œ€

2018๋…„, ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์€ BERT๊ฐ€ GPT๋ณด๋‹ค ๊ตฌ์กฐ์ ์œผ๋กœ ์šฐ์›”ํ•˜๋‹ค๊ณ  ํŒ๋‹จํ–ˆ๋‹ค. ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ ํ†ตํ•ฉ์€ ๋ช…๋ฐฑํ•œ ์ด์ ์ฒ˜๋Ÿผ ๋ณด์˜€๋‹ค. ๋‹จ๋ฐฉํ–ฅ์œผ๋กœ๋งŒ ์ฝ๋Š” GPT๋Š” ํƒœ์ƒ์  ํ•œ๊ณ„๊ฐ€ ์žˆ๊ณ , BERT๊ฐ€ ๊ทธ๊ฑธ ๊ทน๋ณตํ–ˆ์œผ๋‹ˆ ์•ž์œผ๋กœ์˜ ๋ฐœ์ „์€ BERT ์ชฝ์—์„œ ๋‚˜์˜ฌ ๊ฑฐ๋ผ๋Š” ์˜ˆ์ƒ์ด ์ง€๋ฐฐ์ ์ด์—ˆ๋‹ค. ํ•˜์ง€๋งŒ ๊ทธ ์˜ˆ์ƒ์€ ๋น—๋‚˜๊ฐ”๋‹ค.

์ŠนํŒจ๋ฅผ ๋งํ•˜๊ธฐ ์–ด๋ ค์šด ์ด์œ 

BERT๊ฐ€ GPT์—๊ฒŒ ์กŒ๋Š”๊ฐ€? ๋‹จ์ •ํ•˜๊ธฐ ์–ด๋ ต๋‹ค. ๋‘˜์ด ๊ฐ™์€ ๊ฒฝ๊ธฐ๋ฅผ ๋›ด ๊ฒŒ ๋งž๋Š”์ง€์กฐ์ฐจ ์• ๋งคํ•˜๋‹ค. GPT๋Š” โ€œ์ƒ์„ฑโ€์„ ์„ ํƒํ–ˆ๊ณ , BERT๋Š” โ€œ์ดํ•ดโ€๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ๊ทธ๋ฆฌ๊ณ  ์‚ฌ์šฉ์ž๊ฐ€ ์›ํ•œ ๊ฑด ์ƒ์„ฑ์ด์—ˆ๋‹ค. ChatGPT๊ฐ€ ์„ธ์ƒ์„ ๋ฐ”๊พผ ๊ฑด ๊ธฐ์ˆ ์  ์šฐ์›”ํ•จ ๋•Œ๋ฌธ์ด ์•„๋‹ˆ๋ผ, ์‚ฌ๋žŒ๋“ค์ด AI์™€ ๋Œ€ํ™”ํ•˜๊ณ  ์‹ถ์–ดํ–ˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. BERT๋Š” ๊ทธ ์š•๊ตฌ๋ฅผ ์ฑ„์šธ ๊ตฌ์กฐ๊ฐ€ ์•„๋‹ˆ์—ˆ๋‹ค. ๊ตฌ๊ธ€๋„ ์ด๊ฑธ ์•Œ์•˜์„ ๊ฒƒ์ด๋‹ค. BERT๋ฅผ ๋ฐœํ‘œํ•œ ๊ตฌ๊ธ€์ด ์ •์ž‘ ๋Œ€ํ™”ํ˜• AI(Bard, ์ดํ›„ Gemini)๋ฅผ ๋งŒ๋“ค ๋•Œ๋Š” BERT๊ฐ€ ์•„๋‹Œ ๋””์ฝ”๋” ๊ธฐ๋ฐ˜ ๊ตฌ์กฐ๋ฅผ ์„ ํƒํ–ˆ๋‹ค. ์„ค๋ น BERT๋กœ ์ฑ—๋ด‡์„ ์‹œ๋„ํ–ˆ๋”๋ผ๋„ ๊ตฌ์กฐ์ ์œผ๋กœ ๋ถˆ๋ฆฌํ–ˆ์„ ๊ฒƒ์ด๊ณ , ๊ฒฐ๊ตญ ๊ฐ™์€ ๊ฒฐ๋ก ์— ๋„๋‹ฌํ–ˆ์„ ๊ฐ€๋Šฅ์„ฑ์ด ๋†’๋‹ค.

์ฃผ๋ฅ˜์—์„œ ๋ฐ€๋ ค๋‚ฌ์ง€๋งŒ, ์ œ์ž๋ฆฌ๋ฅผ ์ฐพ์•˜๋‹ค

2026๋…„ ํ˜„์žฌ, BERT๋Š” ๋Œ€ํ™”ํ˜• AI์˜ ์ค‘์‹ฌ์— ์—†๋‹ค. ChatGPT, Gemini, Claude ๋ชจ๋‘ ๋””์ฝ”๋” ๊ธฐ๋ฐ˜์ด๋‹ค. ๊ทธ ์˜๋ฏธ์—์„œ BERT๋Š” ์ฃผ๋ฅ˜์—์„œ ๋ฐ€๋ ค๋‚ฌ๋‹ค. ํ•˜์ง€๋งŒ ๋ฐ€๋ ค๋‚œ ๊ฒŒ ์‹คํŒจ๋Š” ์•„๋‹ˆ๋‹ค. ๊ฒ€์ƒ‰ ์—”์ง„์˜ ์˜๋ฏธ ๊ฒ€์ƒ‰, ๋ฌธ์„œ ๋ถ„๋ฅ˜, ์ž„๋ฒ ๋”ฉ ์ƒ์„ฑ์—์„œ BERT ๊ณ„์—ด์€ ์—ฌ์ „ํžˆ ์—…๊ณ„ ํ‘œ์ค€์ด๋‹ค. ํ™”๋ คํ•œ ๋Œ€ํ™”๋Š” ๋ชป ํ•˜์ง€๋งŒ, ์กฐ์šฉํžˆ ์ œ ํ•  ์ผ์„ ํ•˜๊ณ  ์žˆ๋‹ค. โ€œ๋งŒ๋Šฅ AIโ€๊ฐ€ ๋˜๋ ค๋‹ค ์‹คํŒจํ•œ ๊ฒŒ ์•„๋‹ˆ๋ผ, ์ž๊ธฐ๊ฐ€ ๊ฐ€์žฅ ์ž˜ํ•˜๋Š” ์˜์—ญ์„ ์ฐพ์•„๊ฐ„ ๊ฒƒ์ด๋‹ค. ๋Œ์ด์ผœ๋ณด๋ฉด BERT๋Š” ์ฒ˜์Œ๋ถ€ํ„ฐ ์ƒ์„ฑํ˜• AI๊ฐ€ ๋˜๋ ค ํ•œ ์ ์ด ์—†์—ˆ๋‹ค. ๊ตฌ๊ธ€์ด BERT๋ฅผ ๋งŒ๋“  ๋ชฉ์ ์€ ๊ฒ€์ƒ‰ ํ’ˆ์งˆ ํ–ฅ์ƒ์ด์—ˆ๊ณ , ๊ทธ ๋ชฉ์ ์€ ๋‹ฌ์„ฑ๋๋‹ค. โ€œGPT์—๊ฒŒ ์กŒ๋‹คโ€๋ผ๊ณ  ๋งํ•˜๋Š” ๊ฑด, BERT์—๊ฒŒ ์• ์ดˆ์— ์—†๋˜ ๋ชฉํ‘œ๋ฅผ ๊ธฐ์ค€์œผ๋กœ ํ‰๊ฐ€ํ•˜๋Š” ์…ˆ์ด๋‹ค.

์•„ํ‚คํ…์ฒ˜๋Š” ๋ฐ”๋€Œ์–ด๋„

BERT๊ฐ€ ์ฆ๋ช…ํ•œ ํ•ต์‹ฌ ์•„์ด๋””์–ด์ธ ์–‘๋ฐฉํ–ฅ ๋ฌธ๋งฅ ํ†ตํ•ฉ, pre-training์˜ ๊นŠ์ด, ๋‹จ์ผ ๋ชจ๋ธ์˜ ๋ฒ”์šฉ์„ฑ์€ GPT-4์—๋„, Claude์—๋„, Gemini์—๋„ ๋…น์•„ ์žˆ๋‹ค. ์•„ํ‚คํ…์ฒ˜๋Š” ๋‹ฌ๋ผ์กŒ์ง€๋งŒ, BERT๊ฐ€ ์ œ๊ธฐํ•œ ์งˆ๋ฌธ์€ ์—ฌ์ „ํžˆ ์œ ํšจํ•˜๋‹ค. BERT๋Š” ์ฃผ์ธ๊ณต ์ž๋ฆฌ๋ฅผ ๋‚ด์คฌ๋‹ค. ํ•˜์ง€๋งŒ ์ฃผ์ธ๊ณต๋“ค์ด ์„œ ์žˆ๋Š” ๋ฌด๋Œ€๋Š” BERT๊ฐ€ ๊น”์•„๋†“์€ ๊ฒƒ์ด๋‹ค. 8๋…„ ํ›„์—๋„ ์ฝํž ๋…ผ๋ฌธ์ด ์žˆ๋‹ค. BERT๋Š” ๊ทธ์ค‘ ํ•˜๋‚˜๋‹ค.

์–ด๋–ค ๊ธฐ์ˆ ์€ ์ง€๋ฐฐํ•˜๊ณ , ์–ด๋–ค ๊ธฐ์ˆ ์€ ์Šค๋ฉฐ๋“ ๋‹ค. BERT๋Š” ํ›„์ž์˜€๋‹ค.