[๐ namdarineโs AI Review] BERT๊ฐ ๋ฐ๊พผ ๊ฒ์ ์ํคํ ์ฒ๊ฐ ์๋์๋ค - ์ธ์ด๋ฅผ ์ฝ๋ ๋ฐฉํฅ์ด์๋ค
2018๋ , ๊ตฌ๊ธ์ด ๋ ผ๋ฌธ ํ๋๋ฅผ ๋ฐํํ๋ค. ๋ช ๋ฌ ๋ค, NLP ๋ฒค์น๋งํฌ ์์ํ๊ฐ ๋ค์งํ๋ค. 1๋ ๋ค, ๊ฑฐ์ ๋ชจ๋ NLP ์ฐ๊ตฌ๊ฐ ์ด ๋ ผ๋ฌธ์ ์ธ์ฉํ๊ณ ์์๋ค. ๊ทธ ๋ ผ๋ฌธ์ด BERT (Bidirectional Encoder Representations from Transformers)์ด๋ค. ์ด ๋ ผ๋ฌธ์ ์ ๊ทผ์ ์ธ์ด๋ฅผ ๋ ์ ํํ๊ฒ ์ดํดํ๊ฒ ๋ง๋ค๊ณ , ๊ฒฐ๊ณผ์ ์ผ๋ก ํ๊ฐ(hallucination)๊ณผ ๊ฐ์ ์ค๋ฅ๋ฅผ ์ค์ผ ์ ์๋ ๋ฐฉํฅ์ฒ๋ผ ๋ณด์ธ๋ค. ํ์ง๋ง ๊ตฌ์กฐ์ ๋ฌธ์ ๋ก ์ด ๊ธฐ์ ์ด ๋์จ 8๋ ์ด ์ง๋ ํ BERT๋ ์์ฑํ ์ธ๊ณต์ง๋ฅ์ด ์๋ ๋ค๋ฅธ ๋ถ์ผ์์์ ํ์ค์ด ๋์๋ค. ์ค๋์ GPT์ ์ฝ์ ์ ๋ณด์ํ ์ค ์์์ง๋ง ๋ค๋ฅธ ์๋ฆฌ๋ฅผ ์ฐพ์๊ฐ BERT๋ฅผ ์ด์ผ๊ธฐํด๋ณด๋ ค ํ๋ค.
BERT์ ์ง์ ํ ๊ธฐ์ฌ๋ ์ฑ๋ฅ ์์น์ ์์ง ์๋ค. 11๊ฐ NLP ๊ณผ์ ์์ ๋ฌ์ฑํ ์ต๊ณ ์ฑ๋ฅ์ ๊ฒฐ๊ณผ์ผ๋ฟ, ์์ธ์ด ์๋๋ค. ๊ทธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ ๊ฒ์ ํจ์ฌ ๋ ๊ทผ๋ณธ์ ์ธ ์ง๋ฌธ์ ๋ํ ๋ต์ด์๋ค. โ์ธ์ด ๋ชจ๋ธ์ด ํ ์คํธ๋ฅผ ์ฝ๋ ๋ฐฉํฅ์ด ํํ์ ์ง์ ๊ฒฐ์ ํ๋๊ฐ?โ BERT๋ ๊ทธ๋ ๋ค๊ณ ๋ตํ๊ณ , ๋์์ ๊ทธ ์ ์ฝ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ์ฐพ์๋๋ค. ๊ทธ ๊ณผ์ ์์ ํํธํ๋์ด ์๋ NLP์ ์งํ์ ํ๋์ ์๋ ดํ๋ ํจ๋ฌ๋ค์์ผ๋ก ํตํฉ๋์๋ค. ํ๋์ pre-training๋ ๋จ์ผ ๋ชจ๋ธ์ ๋ค์ํ ์์ ์ ๋ฒ์ฉ์ ์ผ๋ก ์ ์ฉํ ์ ์๋ค๋ ๋ฐ์์ด ์ฌ๊ธฐ์ ํ์ ์ป์๋ค. BERT๊ฐ ๋ฐ๊พผ ๊ฒ์ ํน์ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์๋๋ผ, ๊ทธ ์ดํ์ ๋ชจ๋ NLP ์ฐ๊ตฌ์๋ค์ด ๋ฌธ์ ๋ฅผ ์ ์ํ๋ ๋ฐฉ์์ด์๋ค.
2018๋ ์ ๋ฒฝ: ์ ์๋ฐฉํฅ์ด ๋ถ๊ฐ๋ฅํ๋
2018๋ ์ด์ , ์ธ์ด ํํ ํ์ต์๋ ๊ตฌ์กฐ์ ์ผ๋ก ํด๊ฒฐ๋์ง ์์ ์ ์ฝ์ด ํ๋ ์์๋ค. ๋ชจ๋ ์ธ์ด ๋ชจ๋ธ์ด ๋จ๋ฐฉํฅ์ด์๋ค๋ ์ ์ด๋ค. ์ด๊ฒ์ด ๋จ์ํ ์ค๊ณ ์ ํ์ฒ๋ผ ๋ณด์ผ ์ ์์ง๋ง, ์ฌ์ค ํผํ ์ ์๋ ์ํ์ ๊ทผ๊ฑฐ๊ฐ ์์๋ค. ํ์ค ์๊ธฐํ๊ท ์ธ์ด ๋ชจ๋ธ์ ์กฐ๊ฑด๋ถ ํ๋ฅ ์ ์์ฐจ์ ์ผ๋ก ๊ณ์ฐํ๋ค. ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก, ํน์ ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ผ๋ก. ๋ง์ฝ ์๋ฐฉํฅ์ ๋์์ ์กฐ๊ฑด์ผ๋ก ์ผ์ผ๋ฉด, ๋ชจ๋ธ์ ์์ธกํด์ผ ํ ํ ํฐ์ ์ด๋ฏธ โ๋ณด๊ณ โ์๋ ์ํ๊ฐ ๋๋ค. ๊ทธ๋ ๊ฒ ๋๋ฉด ๋ชจ๋ธ์ ๋ฌธ๋งฅ์์ ์๋ฏธ๋ฅผ ์ถ๋ก ํ๋ ๋์ , ํด๋น ํ ํฐ์ ๊ทธ๋๋ก ๋ณต์ฌํ๋ ์์ฌ์ด ๋ฐฉ๋ฒ์ ํ์ตํ๋ค. ์ฆ, ์๋ฐฉํฅ์ฑ๊ณผ ์๊ธฐํ๊ท ํ์ต์ ์ด๋ก ์ ์ผ๋ก ์๋ฆฝํ ์ ์์๋ค.
ELMo๋ ์ด ๋ฌธ์ ๋ฅผ ์ฐํํ๋ ๋ฐฉ์์ผ๋ก ์ ๊ทผํ๋ค. ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ฝ๋ LSTM๊ณผ ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ผ๋ก ์ฝ๋ LSTM์ ๊ฐ๊ฐ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ต์ํจ ๋ค, ๊ทธ ์ถ๋ ฅ์ ์๊ฒ ์ด์ด ๋ถ์๋ค. ํ๋ฉด์ ์ผ๋ก๋ ์๋ฐฉํฅ์ฒ๋ผ ๋ณด์ด์ง๋ง, ๋ด๋ถ์ ์ผ๋ก๋ ๊ทธ๋ ์ง ์์๋ค. ๊ฐ ๋ฐฉํฅ์ ํํ์ ๋ฐ๋ ๋ฐฉํฅ์ ๋ฌธ๋งฅ์ ์ ํ ์์ง ๋ชปํ ์ฑ ํ์ฑ๋์๋ค. ์๋ฅผ ๋ค์ด โbankโ๋ผ๋ ๋จ์ด๋ฅผ ์ธ์ฝ๋ฉํ ๋, ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก ์ฝ๋ LSTM์ ๊ทธ ์์ ์ค๋ ๋ด์ฉ๋ง ๋ณด๊ณ , ์ค๋ฅธ์ชฝ์์ ์ผ์ชฝ์ผ๋ก ์ฝ๋ LSTM์ ๊ทธ ๋ค์ ์ค๋ ๋ด์ฉ๋ง ๋ณธ๋ค. ์ด๋ ๊ฒ ์ฌํ์ ์ผ๋ก ๋ ํํ์ ์ด์ด๋ถ์ด๋ ๊ฒ์, ๋ชจ๋ ๋ ์ด์ด์์ ๋ ๋ฌธ๋งฅ์ ๋์์ ํตํฉํ๋ ๊ฒ๊ณผ ๊ทผ๋ณธ์ ์ผ๋ก ๋ค๋ฅด๋ค. ๋น์ ํ์๋ฉด ์ด๋ ๋ค. ๋ ๋ช ์ ํ์ ์ด ํ ์ฌ๊ฑด์ ๋งก์๋ค. ํ ๋ช ์ ์ฌ๊ฑด์ ์ ๋ฐ๋ถ๋ง ์กฐ์ฌํ๊ณ , ๋ค๋ฅธ ํ ๋ช ์ ํ๋ฐ๋ถ๋ง ์กฐ์ฌํ๋ค. ์์ฌ๊ฐ ๋๋ ๋ค ๋์ ๋ณด๊ณ ์๋ฅผ ์คํ ์ดํ๋ฌ๋ก ์ฐ์ด ๋ถ์ด๋ ๊ฒ์ด ELMo์ด๋ค. ๋ฐ๋ฉด BERT๋ ์ฒ์๋ถํฐ ๋ ํ์ ์ด ๊ฐ์ ๋ฐฉ์ ์์ ๋ชจ๋ ์ฆ๊ฑฐ๋ฅผ ํจ๊ป ๋ณด๋ฉฐ ํ ๋ก ์ ํ๋ค. ๊ฒฐ๊ณผ๋ฌผ์ ๊น์ด๊ฐ ๋ค๋ฅผ ์๋ฐ์ ์๋ค. OpenAI์ GPT๋ ์ด ๋ฌธ์ ์์ฒด๋ฅผ ํฌ๊ธฐํ๊ณ , ์ผ์ชฝ์์ ์ค๋ฅธ์ชฝ์ผ๋ก๋ง ์ฝ๋ Transformer๋ฅผ ์ฌ์ฉํ๋ค. ๊ทธ ๊ฒฐ๊ณผ ์ด๋ค ํ ํฐ๋ ์ค๋ฅธ์ชฝ์ ์๋ ๋ด์ฉ์ ์ฐธ์กฐํ ์ ์์๊ณ , ์ด๋ ์ง์ ์๋ต์ด๋ ๊ฐ์ฒด๋ช ์ธ์์ฒ๋ผ ๋จ์ด์ ์๋ฏธ๋ฅผ ํ์ ํ๋ ๋ฐ ๋ค๋ฐ๋ฅด๋ ๋ฌธ๋งฅ์ด ๊ฒฐ์ ์ ์ธ ์ญํ ์ ํ๋ ํ ํฐ ๋จ์ ๊ณผ์ ์์ ํนํ ์ฌ๊ฐํ ๊ตฌ์กฐ์ ํ๊ณ๋ก ์์ฉํ๋ค. ์์ฝํ๋ฉด, 2018๋ ์ NLP๋ โ์๋ฐฉํฅ์ผ๋ก ์ฝ๊ณ ์ถ์ง๋ง ์ฝ์ ์ ์๋โ ์ํ์ ๊ฐํ ์์๋ค.
BERT์ ํด๋ฒ: ๋ง์คํน์ด๋ผ๋ ์ฐํ๋ก
BERT์ ํต์ฌ ๋ฉ์ปค๋์ฆ์ ๋ง์คํฌ ์ธ์ด ๋ชจ๋ธ, ์ฆ MLM์ด๋ค. ํ์ง๋ง ์ด๋ฅผ ๋จ์ํ โํ ํฐ์ 15%๋ฅผ ๊ฐ๋ฆฐ๋คโ๋ ์์ผ๋ก ์ดํดํ๋ฉด ๋ณธ์ง์ ๋์น๋ค. MLM์ด ์ค์ ๋ก ํด๊ฒฐํ๋ ๊ฒ์, ์๋ฐฉํฅ ํ์ต์ ๋ถ๊ฐ๋ฅํ๊ฒ ๋ง๋ค์๋ ์ ๋ณด ๋์ค ๋ฌธ์ ๋ค. ์ ๋ ฅ์์ ์์ธก ๋์ ํ ํฐ์ ์ ๊ฑฐํจ์ผ๋ก์จ, ๋ชจ๋ธ์ ํด๋น ํ ํฐ ์์ด ์์ชฝ ๋ฌธ๋งฅ๋ง์ผ๋ก ๊ทธ ์๋ฏธ๋ฅผ ์ฌ๊ตฌ์ฑํด์ผ ํ๋ค. ์ด ๊ณผ์ ์์ Transformer์ ๋ชจ๋ ๋ ์ด์ด๋ ํํ์ ๋ง๋ค๋ ์ผ์ชฝ๊ณผ ์ค๋ฅธ์ชฝ ๋ฌธ๋งฅ์ ๋์์ ์ฐธ์กฐํ๋ค. ์ด๊ฒ์ด ELMo์ ์์ ์ด์ด ๋ถ์ด๊ธฐ์ ๊ตฌ์กฐ์ ์ผ๋ก ๊ตฌ๋ณ๋๋ ์ง์ ์ด๋ค.
๊ทธ๋ฌ๋ ์ด ๋ฐฉ์์ ์๋ก์ด ๋ฌธ์ ๋ฅผ ๋ณ๋๋ค. [MASK] ํ ํฐ์ pre-training ๋จ๊ณ์์๋ง ๋ฑ์ฅํ๊ณ , fine-tuning ๋จ๊ณ์์๋ ๋ํ๋์ง ์๋๋ค. ๋ ๋จ๊ณ ์ฌ์ด์ ์ ๋ ฅ ๋ถํฌ์ ๋ถ์ผ์น๊ฐ ์๊ธฐ๋ ๊ฒ์ด๋ค. ์ด๋ฅผ ์ํํ๊ธฐ ์ํด BERT๋ ์๋์ ์ผ๋ก ํผํฉ ๋ง์คํน ์ ๋ต์ ์ฌ์ฉํ๋ค. ์์ธก ๋์์ผ๋ก ์ ํ๋ 15%์ ํ ํฐ ์ค 80%๋ [MASK]๋ก ๊ต์ฒด๋๊ณ , 10%๋ ์์์ ๋ค๋ฅธ ํ ํฐ์ผ๋ก ๋ฐ๋๋ฉฐ, ๋๋จธ์ง 10%๋ ์๋ ํ ํฐ ๊ทธ๋๋ก ์ ์ง๋๋ค. ์ด ์ค๊ณ์ ํจ๊ณผ๋ ๋ฏธ๋ฌํ์ง๋ง ์ค์ํ๋ค. ๋ชจ๋ธ์ ์ด๋ค ํ ํฐ์ด ๋ง์คํน๋์๋์ง, ์์ ํ ํฐ์ผ๋ก ๊ต์ฒด๋์๋์ง, ์๋๋ฉด ๊ทธ๋๋ก์ธ์ง ์ ์ ์๊ธฐ ๋๋ฌธ์, ์ํ์ค ๋ด ๋ชจ๋ ํ ํฐ์ ๋ํด ๋ฌธ๋งฅ์ ์ผ๋ก ์ผ๊ด๋ ํํ์ ์ ์งํ๋๋ก ๊ฐ์ ๋๋ค. ์ด๋ ๋ชจ๋ธ์ด ํน์ ์ ๋ ฅ ํจํด์ ์์กดํ๋ ์ง๋ฆ๊ธธ์ ํ์ตํ์ง ๋ชปํ๋๋ก ๋ง๋๋ค.
๋๋ฒ์งธ pre-training ๊ณผ์ ์ธ ๋ค์ ๋ฌธ์ฅ ์์ธก(NSP)์ ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ํฌ์ฐฉํ๊ธฐ ์ํด ์ค๊ณ๋์๋ค. ๊ฐ๋ ์ ์ผ๋ก๋ ํฉ๋ฆฌ์ ์ด์ง๋ง, ์ดํ ์ฐ๊ตฌ, ํนํ RoBERTa๋ NSP์ ์ค์ง์ ์ธ ๊ธฐ์ฌ๊ฐ ์ ํ์ ์์ ๋ณด์ฌ์คฌ๋ค. BERT ์์ฒด์ ablation ์คํ์์๋ NSP๋ฅผ ์ ๊ฑฐํ์ ๋ ์ผ๋ถ ๊ณผ์ ์์๋ง ์ ์๋ฏธํ ์ฑ๋ฅ ์ ํ๊ฐ ๊ด์ฐฐ๋์๋๋ฐ, ์ด๋ NSP๊ฐ ๋ ผ๋ฌธ์ด ์์ฌํ๋ ๊ฒ๋งํผ ํต์ฌ์ ์ธ ์ญํ ์ ํ์ง ์์ ์ ์์์ ๋๋ฌ๋ธ๋ค.
fine-tuning ์ํคํ ์ฒ๋ ์ฃผ๋ชฉํ ํ์๊ฐ ์๋ค. BERT๋ pre-training๊ณผ fine-tuning์ ๋์ผํ ์ํคํ ์ฒ๋ฅผ ์ฌ์ฉํ๋ฉฐ, [CLS] ํ ํฐ์ด ๋ถ๋ฅ ์์ ์ ์ํ ํตํฉ ํํ์ผ๋ก ์ฐ์ด๊ณ , [SEP]๊ฐ ์ํ์ค์ ๊ฒฝ๊ณ๋ฅผ ํ์ํ๋ค. ์ด ํต์ผ๋ ์ค๊ณ ๋๋ถ์ ๋ถ๋ฅ, ์ํ์ค ํ๊น , ์ง์์๋ต, ์์ฐ์ด ์ถ๋ก ๋ฑ ๋ค์ํ ์์ ์ ์ต์ํ์ ์์ ๋ณ ํ๋ผ๋ฏธํฐ ์ถ๊ฐ๋ง์ผ๋ก ์ฒ๋ฆฌํ ์ ์๋ค. ํต์ฌ์ ๋จ์ํ๋ค. ์ ๋ต์ ๊ฐ๋ฆฌ๊ณ ์์ชฝ์์ ์ถ๋ก ํ๊ฒ ๋ง๋ ๊ฒ, ๊ทธ๊ฒ BERT์ ์ ๋ถ์ด์ ์ ๋ถ์๋ค.
ํจ๋ฌ๋ค์์ ์ญ์ : ๋ชจ๋ธ์ด ์ค์ฌ์ด ๋๋ค
BERT ์ด์ ์ ํจ๋ฌ๋ค์์์๋ ์์ ๋ณ ์ํคํ ์ฒ๋ฅผ ์ค๊ณํ๋ ๊ฒ์ด ๋น์ฐํ ๊ดํ์ด์๋ค. BiDAF๋ ์ง์์๋ต์ ์ํด ๋ง๋ค์ด์ก๊ณ , ESIM์ ์์ฐ์ด ์ถ๋ก ์ ์ํด ์ค๊ณ๋์๋ค. pre-training๋ ํํ์ ์ด๋ฌํ ์์์ ์์คํ ์ ๋ถ๊ฐ์ ์ธ ํน์ฑ์ผ๋ก ์ฃผ์ ๋๋ ๋ณด์กฐ์ ์ธ ์ญํ ์ ๋จธ๋ฌผ๋ ๋ค. ELMo๊ฐ ์ด ์ ๊ทผ ๋ฐฉ์์ ๋ํํ๋ค.
BERT๋ ์ด ๊ด๊ณ๋ฅผ ๋ค์ง์๋ค. ๋ฒ์ฉ pre-training ๋ชจ๋ธ์ด ์ค์ฌ์ด ๋๊ณ , ์์ ๋ณ ๊ตฌ์ฑ ์์๋ ๊ทธ ์์ ์นํ๋ ์์ ์ธต์ผ๋ก ์ ๋ฝํ๋ค. ์ด ์ญ์ ์ ์๋ฏธ๋ ๋จ์ํ ํธ์์ฑ์ ๋์ด์ ๋ค. Fine-tuning ๊ณผ์ ์์ ๋ชจ๋ ํ๋ผ๋ฏธํฐ๊ฐ ํจ๊ป ์ ๋ฐ์ดํธ๋๊ธฐ ๋๋ฌธ์, pre-training์์ ํ์ฑ๋ ํ๋ถํ ํํ์ด ์์ ๋ณ ์ ํธ์ ์ํด ์ ๋ฐํ๊ฒ ์กฐ์ ๋๋ค. ๋ฐ๋ฉด ํน์ฑ ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ์์๋ pre-training๋ ํํ์ด ๊ณ ์ ๋์ด ์์ด, downstream ์์ ์ด ํํ ์์ฒด๋ฅผ ์์ ํ ์ ์๋ค.
GPT์์ ๋น๊ต๋ ์ด ๋ ผ๋ฌธ์ด ์ผ๋ง๋ ์ ๋ฐํ๊ฒ ์ค๊ณ๋์๋์ง๋ฅผ ๋ณด์ฌ์ค๋ค. BERT-base๋ ์๋์ ์ผ๋ก GPT์ ๋์ผํ ๋ชจ๋ธ ํฌ๊ธฐ๋ก ๊ตฌ์ฑ๋์๋ค. ๋ ๋ชจ๋ธ ์ฌ์ด์ ์ ์ผํ ์๋ฏธ ์๋ ๋ณ์๊ฐ attention์ ๋ฐฉํฅ์ฑ์ด ๋๋๋ก ํ๊ธฐ ์ํด์์ด๋ค. ๋๋ฑํ ๊ท๋ชจ์์ ์ด ์ฐจ์ด๋ง์ผ๋ก๋ ํ๊ท GLUE ์ ํ๋์์ 4.5% ํฌ์ธํธ์ ๊ฒฉ์ฐจ๊ฐ ๋ฐ์ํ๋๋ฐ, ์ด๋ ์๋ฐฉํฅ์ฑ์ ๊ธฐ์ฌ๋ฅผ ๋งค์ฐ ๊น๋ํ๊ฒ ๋ถ๋ฆฌํด๋ธ ๊ฒฐ๊ณผ์ด๋ค.
๋ชจ๋ธ ๊ท๋ชจ์ ๊ดํ ๋ฐ๊ฒฌ๋ ๊ตฌ์กฐ์ ์ผ๋ก ์ค์ํ ์๋ฏธ๋ฅผ ๊ฐ๋๋ค. ๋๊ท๋ชจ ์์ ์์ ๋ ํฐ ๋ชจ๋ธ์ด ๋์์ด ๋๋ค๋ ์ฌ์ค์ ์ด๋ฏธ ์๋ ค์ ธ ์์์ง๋ง, BERT๋ ๋ ์ด๋ธ์ด ์์ฒ ๊ฐ์ ๋ถ๊ณผํ ์๊ท๋ชจ ์์ ์์๋ ๊ท๋ชจ์ ์ด์ ์ด ์ ์ง๋จ์ ๋ณด์ฌ์คฌ๋ค. ์ด๋ pre-training์ด ์ถฉ๋ถํ ๊น๊ณ ๋๊ฒ ์ด๋ฃจ์ด์ง๋ค๋ฉด, ๋ ํฐ ํํ ์ฉ๋์ด ์ต์ํ์ fine-tuning ๋ฐ์ดํฐ๋ง์ผ๋ก๋ ํจ๊ณผ์ ์ผ๋ก ํ์ฉ๋ ์ ์์์ ์์ฌํ๋ค. BERT ์ดํ, โ์ด๋ค ๋ชจ๋ธ์ ์ธ๊นโ๋ณด๋ค โ์ด๋ป๊ฒ ํ์ต์ํฌ๊นโ๊ฐ ๋ ์ค์ํ ์ง๋ฌธ์ด ๋๋ค.
BERT๊ฐ ํฌ๊ธฐํ ๊ฒ๋ค
BERT์ ๊ฐ์ฅ ๊ทผ๋ณธ์ ์ธ ํ๊ณ๋ MLM ์์ฒด์์ ๋น๋กฏ๋๋ค. ๋ฐฐ์น๋น 15%์ ํ ํฐ๋ง ์์ธกํ๊ธฐ ๋๋ฌธ์, ๋ชจ๋ ํ ํฐ์ ์์ธกํ๋ ์๊ธฐํ๊ท ๋ชจ๋ธ์ ๋นํด ๋จ์ ์ฐ์ฐ๋น ํ์ต ์ ํธ๊ฐ ํจ์ฌ ์ ๋ค. ์ด๋ BERT๊ฐ ์๋ ดํ๊ธฐ๊น์ง ์ค์ง์ ์ผ๋ก ๋ ๋ง์ pre-training ๋จ๊ณ๋ฅผ ํ์๋ก ํ๋ค๋ ๊ฒ์ ์๋ฏธํ๋ฉฐ, ๋ ผ๋ฌธ ์์ฒด๋ ์ด ์ ์ ์ธ์ ํ๋ค.
๋ ๋ณธ์ง์ ์ธ ํ๊ณ๋ BERT๊ฐ ์์ฑ ์์ ์ ๊ตฌ์กฐ์ ์ผ๋ก ์ ํฉํ์ง ์๋ค๋ ์ ์ด๋ค. ๋ง์คํน๋ ํ ํฐ์ ์์ธกํ๋๋ก ํ์ต๋ ์ธ์ฝ๋ ์ ์ฉ ๋ชจ๋ธ๋ก์, ์๊ธฐํ๊ท์ ์ํ์ค ์์ฑ์ ์ํํ ์ ์๋ค. ์์ฝ, ๋ฒ์ญ, ๊ฐ๋ฐฉํ ๋ํ ์์ฑ ๊ฐ์ ์์ ์ ํฐ ์์ ์์ด๋ BERT๋ก ์ ๊ทผํ๊ธฐ ์ด๋ ต๋ค. BERT๋ ๋ฐ์ด๋ ๋ ํด ์ ์๋์ด์ง, ์๊ฐ๊ฐ ์๋๋ค. ๊ธ์ ์ฝ๊ณ ๋น์นธ์ ์ฑ์ฐ๊ฑฐ๋ ํต์ฌ์ ํ์ ํ๋ ๋ฐ๋ ํ์ํ์ง๋ง, ๋ฐฑ์ง ์์ ์ฒซ ๋ฌธ์ฅ๋ถํฐ ์จ ๋ด๋ ค๊ฐ๋ ํ๋ จ์ ๋ฐ์ง ์์๋ค. ChatGPT, Claude ๊ฐ์ ๋ํํ AI๊ฐ BERT๊ฐ ์๋ GPT ๊ณ์ด์์ ๋์จ ์ด์ ๊ฐ ์ฌ๊ธฐ์ ์๋ค.
NSP์ ๊ฐ์น๋ ์ฌ๊ฒํ ๊ฐ ํ์ํ๋ค. ๋ ผ๋ฌธ์ NSP๊ฐ ์ง์์๋ต๊ณผ ์์ฐ์ด ์ถ๋ก ์ ๊ธฐ์ฌํ๋ค๊ณ ์ฃผ์ฅํ์ง๋ง, RoBERTa๋ NSP ์์ด ๋ ๊ธด ํ์ต๊ณผ ๋ ํฐ ๋ฐฐ์น๋ง์ผ๋ก๋ ์ด ์์ ๋ค์์ BERT๋ฅผ ๋ฅ๊ฐํ๋ค. ์ด๋ NSP ๋๋ถ์ด๋ผ๊ณ ์ฌ๊ฒจ์ก๋ ์ผ๋ถ ์ฑ๋ฅ ํฅ์์ด ์ค์ ๋ก๋ ๋ค๋ฅธ ์ด์ ์์ ์์ ๊ฐ๋ฅ์ฑ์ ๋ณด์ฌ์ค๋ค. ์ฆ, ๋ฌธ์ฅ ๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ๋ค๊ธฐ๋ณด๋ค ๋ ๋ง์ ๋ฌธ์ฅ ์ ๋ฐ์ดํฐ์ ๋ ธ์ถ๋ ํจ๊ณผ์์ ์ ์๋ค.
512 ํ ํฐ์ ๋ฌธ๋งฅ ์ ํ์ attention์ ์ด์ฐจ์ ๊ณ์ฐ ๋ณต์ก๋์์ ์ง์ ๋น๋กฏ๋ ์ ์ฝ์ด๋ค. ์ฅ๊ฑฐ๋ฆฌ ์์กด์ฑ์ด ์ค์ํ ๊ธด ๋ฌธ์, ๋ฒ๋ฅ ํ ์คํธ, ์ฝ๋ ํ์ผ ๋ฑ์๋ BERT๊ฐ ๊ตฌ์กฐ์ ์ผ๋ก ํ๊ณ๋ฅผ ๊ฐ์ง๋ค. ์ด ์ ์ฝ์ด Longformer, BigBird, ๊ทธ๋ฆฌ๊ณ ํฌ์ attention ๋ฉ์ปค๋์ฆ ์ฐ๊ตฌ ์ ๋ฐ์ ๋๊ธฐ๊ฐ ๋์๋ค.
๋ง์ง๋ง์ผ๋ก, pre-training๊ณผ fine-tuning ์ฌ์ด์ ๋ถํฌ ๋ถ์ผ์น ๋ฌธ์ ๋ ์์ ํ ํด๊ฒฐ๋์ง ์์๋ค. [MASK] ํ ํฐ์ fine-tuning ์ ๋ฑ์ฅํ์ง ์๊ธฐ ๋๋ฌธ์, ๋ง์คํน๋ ์ ๋ ฅ์ ๋ฐ์ํ๋๋ก ํ์ต๋ ํํ์ด ๋ง์คํน๋์ง ์์ ์ถ๋ก ๋ฌธ๋งฅ์ผ๋ก ๊น๋ํ๊ฒ ์ด์ ๋์ง ์์ ์ ์๋ค. ํผํฉ ๋ง์คํน ์ ๋ต์ด ์ด ๊ฐ๊ทน์ ์ค์ด์ง๋ง, ๊ทผ๋ณธ์ ์ธ ๋น๋์นญ์ฑ์ ์ฌ์ ํ ๋จ์ ์๋ค. BERT๋ โ์ดํดโ๋ฅผ ์ป๋ ๋์ โ์์ฑโ์ ํฌ๊ธฐํ๋ค. ๊ทธ ์ ํ์ ๋๊ฐ๋ 8๋ ํ์์ผ ๋ช ํํด์ก๋ค.
BERT๊ฐ ๋จ๊ธด ๊ฒ
BERT๊ฐ ์ด์ด๋์ ๊ฒ์ ๋จ์ํ ๋จ์ผ ๋ชจ๋ธ์ ์ฑ๋ฅ ํฅ์์ด ์๋์๋ค. NLP ์ฐ๊ตฌ ์์ฒด์ ๊ตฌ์กฐ๋ฅผ ์ฌํธํ๋ค. BERT ์ด์ ์๋ ๊ฐ ์์ ๋ง๋ค ์ ์ฉ ์ํคํ ์ฒ๊ฐ ํ์ํ๋ค. BERT ์ดํ์๋ โ๋ฌด์์ผ๋ก pre-trainingํ ๊ฒ์ธ๊ฐ, ์ด๋ป๊ฒ fine-tuningํ ๊ฒ์ธ๊ฐโ๊ฐ ์ค์ฌ ์ง๋ฌธ์ด ๋์๊ณ , ์์ ๋ณ ์ํคํ ์ฒ ์ค๊ณ๋ ์ฃผ๋ณ๋ถ๋ก ๋ฐ๋ ค๋ฌ๋ค. ์ด๊ฒ์ด ๊ฐ๋ฅํ๋ ๊ฒ์ BERT๊ฐ ๋ฒ์ฉ์ฑ๊ณผ ๊น์ด๋ฅผ ๋์์ ๋ฌ์ฑํ๊ธฐ ๋๋ฌธ์ด๋ค. BERT์ ํํ์ ๋ฌธ์ฅ ์์ค์ ์๋ฏธ ์ถ๋ก ๊ณผ ์ธ๋ฐํ ํ ํฐ ๋จ์ ์์ธก์ ๋์ผํ ํ๋ผ๋ฏธํฐ ๊ณต๊ฐ ์์์ ์ฒ๋ฆฌํ ์ ์์ ๋งํผ ํ๋ถํ๋ค. ์ด๋ ๋ฉํฐํ์คํฌ ํ์ต, ํ๋กฌํํธ ๊ธฐ๋ฐ ํ์ต, ๋์๊ฐ GPT-3๊ฐ ๊ตฌํํ few-shot ํ์ต ํจ๋ฌ๋ค์์ ๊ฐ๋ ์ ํ ๋๊ฐ ๋์๋ค. ๋จ์ผ ๋ชจ๋ธ์ด ๋ค์ํ ์ธ์ด ์์ ์ ์ฒ๋ฆฌํ ์ ์๋ค๋ ๊ฒ์ BERT๊ฐ ์ค๋๋ ฅ ์๊ฒ ์ ์ฆํ์ง ์์๋ค๋ฉด, ๊ท๋ชจ๋ง์ผ๋ก๋ ์์ ์ ๋ฐ์ ๊ฑธ์ณ ์ผ๋ฐํํ ์ ์๋ค๋ ์ฃผ์ฅ์ ํจ์ฌ ์ค๋ํ๊ธฐ ์ด๋ ค์ ์ ๊ฒ์ด๋ค.
8๋ ํ, BERT๋ ์ด๋์ ์๋
์ด ๊ธ์ 2026๋ ์ ์ฐ์๋ค. BERT ๋ ผ๋ฌธ์ด ๋์จ ์ง 8๋ ์ด ์ง๋ฌ๋ค. 8๋ ์ ๋ ์๋ค์ BERT๊ฐ ์ด๋๋ก ๊ฐ์ง ๋ชฐ๋๋ค. ์ง๊ธ์ ์๋ค. ๋ฌด์์ด ํ์ค์ด ๋๊ณ , ๋ฌด์์ด ์ฌ๋ผ์ก๊ณ , ์ด๋ค ๊ตฌ์กฐ๊ฐ ์ด์๋จ์๋์ง. ๊ฒฐ๊ณผ๋ฅผ ์๋ ์ํ์์ ์ฝ๋ ๊ฑด, ๋ณต์ ์ด ๋ณด์ด๋ ์ถ๋ฆฌ์์ค์ ์ฝ๋ ๊ฒ๊ณผ ๋น์ทํ๋ค.
๋น์์ ๊ธฐ๋
2018๋ , ๋ง์ ์ฐ๊ตฌ์๋ค์ BERT๊ฐ GPT๋ณด๋ค ๊ตฌ์กฐ์ ์ผ๋ก ์ฐ์ํ๋ค๊ณ ํ๋จํ๋ค. ์๋ฐฉํฅ ๋ฌธ๋งฅ ํตํฉ์ ๋ช ๋ฐฑํ ์ด์ ์ฒ๋ผ ๋ณด์๋ค. ๋จ๋ฐฉํฅ์ผ๋ก๋ง ์ฝ๋ GPT๋ ํ์์ ํ๊ณ๊ฐ ์๊ณ , BERT๊ฐ ๊ทธ๊ฑธ ๊ทน๋ณตํ์ผ๋ ์์ผ๋ก์ ๋ฐ์ ์ BERT ์ชฝ์์ ๋์ฌ ๊ฑฐ๋ผ๋ ์์์ด ์ง๋ฐฐ์ ์ด์๋ค. ํ์ง๋ง ๊ทธ ์์์ ๋น๋๊ฐ๋ค.
์นํจ๋ฅผ ๋งํ๊ธฐ ์ด๋ ค์ด ์ด์
BERT๊ฐ GPT์๊ฒ ์ก๋๊ฐ? ๋จ์ ํ๊ธฐ ์ด๋ ต๋ค. ๋์ด ๊ฐ์ ๊ฒฝ๊ธฐ๋ฅผ ๋ด ๊ฒ ๋ง๋์ง์กฐ์ฐจ ์ ๋งคํ๋ค. GPT๋ โ์์ฑโ์ ์ ํํ๊ณ , BERT๋ โ์ดํดโ๋ฅผ ์ ํํ๋ค. ๊ทธ๋ฆฌ๊ณ ์ฌ์ฉ์๊ฐ ์ํ ๊ฑด ์์ฑ์ด์๋ค. ChatGPT๊ฐ ์ธ์์ ๋ฐ๊พผ ๊ฑด ๊ธฐ์ ์ ์ฐ์ํจ ๋๋ฌธ์ด ์๋๋ผ, ์ฌ๋๋ค์ด AI์ ๋ํํ๊ณ ์ถ์ดํ๊ธฐ ๋๋ฌธ์ด๋ค. BERT๋ ๊ทธ ์๊ตฌ๋ฅผ ์ฑ์ธ ๊ตฌ์กฐ๊ฐ ์๋์๋ค. ๊ตฌ๊ธ๋ ์ด๊ฑธ ์์์ ๊ฒ์ด๋ค. BERT๋ฅผ ๋ฐํํ ๊ตฌ๊ธ์ด ์ ์ ๋ํํ AI(Bard, ์ดํ Gemini)๋ฅผ ๋ง๋ค ๋๋ BERT๊ฐ ์๋ ๋์ฝ๋ ๊ธฐ๋ฐ ๊ตฌ์กฐ๋ฅผ ์ ํํ๋ค. ์ค๋ น BERT๋ก ์ฑ๋ด์ ์๋ํ๋๋ผ๋ ๊ตฌ์กฐ์ ์ผ๋ก ๋ถ๋ฆฌํ์ ๊ฒ์ด๊ณ , ๊ฒฐ๊ตญ ๊ฐ์ ๊ฒฐ๋ก ์ ๋๋ฌํ์ ๊ฐ๋ฅ์ฑ์ด ๋๋ค.
์ฃผ๋ฅ์์ ๋ฐ๋ ค๋ฌ์ง๋ง, ์ ์๋ฆฌ๋ฅผ ์ฐพ์๋ค
2026๋ ํ์ฌ, BERT๋ ๋ํํ AI์ ์ค์ฌ์ ์๋ค. ChatGPT, Gemini, Claude ๋ชจ๋ ๋์ฝ๋ ๊ธฐ๋ฐ์ด๋ค. ๊ทธ ์๋ฏธ์์ BERT๋ ์ฃผ๋ฅ์์ ๋ฐ๋ ค๋ฌ๋ค. ํ์ง๋ง ๋ฐ๋ ค๋ ๊ฒ ์คํจ๋ ์๋๋ค. ๊ฒ์ ์์ง์ ์๋ฏธ ๊ฒ์, ๋ฌธ์ ๋ถ๋ฅ, ์๋ฒ ๋ฉ ์์ฑ์์ BERT ๊ณ์ด์ ์ฌ์ ํ ์ ๊ณ ํ์ค์ด๋ค. ํ๋ คํ ๋ํ๋ ๋ชป ํ์ง๋ง, ์กฐ์ฉํ ์ ํ ์ผ์ ํ๊ณ ์๋ค. โ๋ง๋ฅ AIโ๊ฐ ๋๋ ค๋ค ์คํจํ ๊ฒ ์๋๋ผ, ์๊ธฐ๊ฐ ๊ฐ์ฅ ์ํ๋ ์์ญ์ ์ฐพ์๊ฐ ๊ฒ์ด๋ค. ๋์ด์ผ๋ณด๋ฉด BERT๋ ์ฒ์๋ถํฐ ์์ฑํ AI๊ฐ ๋๋ ค ํ ์ ์ด ์์๋ค. ๊ตฌ๊ธ์ด BERT๋ฅผ ๋ง๋ ๋ชฉ์ ์ ๊ฒ์ ํ์ง ํฅ์์ด์๊ณ , ๊ทธ ๋ชฉ์ ์ ๋ฌ์ฑ๋๋ค. โGPT์๊ฒ ์ก๋คโ๋ผ๊ณ ๋งํ๋ ๊ฑด, BERT์๊ฒ ์ ์ด์ ์๋ ๋ชฉํ๋ฅผ ๊ธฐ์ค์ผ๋ก ํ๊ฐํ๋ ์ ์ด๋ค.
์ํคํ ์ฒ๋ ๋ฐ๋์ด๋
BERT๊ฐ ์ฆ๋ช ํ ํต์ฌ ์์ด๋์ด์ธ ์๋ฐฉํฅ ๋ฌธ๋งฅ ํตํฉ, pre-training์ ๊น์ด, ๋จ์ผ ๋ชจ๋ธ์ ๋ฒ์ฉ์ฑ์ GPT-4์๋, Claude์๋, Gemini์๋ ๋ น์ ์๋ค. ์ํคํ ์ฒ๋ ๋ฌ๋ผ์ก์ง๋ง, BERT๊ฐ ์ ๊ธฐํ ์ง๋ฌธ์ ์ฌ์ ํ ์ ํจํ๋ค. BERT๋ ์ฃผ์ธ๊ณต ์๋ฆฌ๋ฅผ ๋ด์คฌ๋ค. ํ์ง๋ง ์ฃผ์ธ๊ณต๋ค์ด ์ ์๋ ๋ฌด๋๋ BERT๊ฐ ๊น์๋์ ๊ฒ์ด๋ค. 8๋ ํ์๋ ์ฝํ ๋ ผ๋ฌธ์ด ์๋ค. BERT๋ ๊ทธ์ค ํ๋๋ค.
์ด๋ค ๊ธฐ์ ์ ์ง๋ฐฐํ๊ณ , ์ด๋ค ๊ธฐ์ ์ ์ค๋ฉฐ๋ ๋ค. BERT๋ ํ์์๋ค.