BERT가 바꾼 것은 아키텍처가 아니었다 - 언어를 읽는 방향이었다
2018년, 구글이 논문 하나를 발표했다. 몇 달 뒤, NLP 벤치마크 순위표가 뒤집혔다. 1년 뒤, 거의 모든 NLP 연구가 이 논문을 인용하고 있었다. 그 논문이 BERT (Bidirectional Encoder Representations from Transformers)이다. 이 논문의 접근은 언어를 더 정확하게 이해하게 만들고, 결과적으로 환각(hallucination)과 같은 오류를 줄일 수 있는 방향처럼 보인다. 하지만 구조적 문제로 이 기술이 나온 8년이 지난 후 BERT는 생성형 인공지능이 아닌 다른 분야에서의 표준이 되었다. 오늘은 GPT의 약점을 보완할 줄 알았지만 다른 자리를 찾아간 BERT를 이야기해보려 한다.
BERT의 진정한 기여는 성능 수치에 있지 않다. 11개 NLP 과제에서 달성한 최고 성능은 결과일뿐, 원인이 아니다. 그 결과를 가능하게 한 것은 훨씬 더 근본적인 질문에 대한 답이었다. "언어 모델이 텍스트를 읽는 방향이 표현의 질을 결정하는가?" BERT는 그렇다고 답했고, 동시에 그 제약을 제거하는 방법을 찾아냈다. 그 과정에서 파편화되어 있던 NLP의 지형은 하나의 수렴하는 패러다임으로 통합되었다. 하나의 pre-training된 단일 모델을 다양한 작업에 범용적으로 적용할 수 있다는 발상이 여기서 힘을 얻었다. BERT가 바꾼 것은 특정 모델의 성능이 아니라, 그 이후의 모든 NLP 연구자들이 문제를 정의하는 방식이었다.
2018년의 벽: 왜 양방향이 불가능했나
2018년 이전, 언어 표현 학습에는 구조적으로 해결되지 않은 제약이 하나 있었다. 모든 언어 모델이 단방향이었다는 점이다. 이것이 단순한 설계 선택처럼 보일 수 있지만, 사실 피할 수 없는 수학적 근거가 있었다. 표준 자기회귀 언어 모델은 조건부 확률을 순차적으로 계산한다. 왼쪽에서 오른쪽으로, 혹은 오른쪽에서 왼쪽으로. 만약 양방향을 동시에 조건으로 삼으면, 모델은 예측해야 할 토큰을 이미 "보고"있는 상태가 된다. 그렇게 되면 모델은 문맥에서 의미를 추론하는 대신, 해당 토큰을 그대로 복사하는 손쉬운 방법을 학습한다. 즉, 양방향성과 자기회귀 학습은 이론적으로 양립할 수 없었다.
ELMo는 이 문제를 우회하는 방식으로 접근했다. 왼쪽에서 오른쪽으로 읽는 LSTM과 오른쪽에서 왼쪽으로 읽는 LSTM을 각각 독립적으로 학습시킨 뒤, 그 출력을 얕게 이어 붙였다. 표면적으로는 양방향처럼 보이지만, 내부적으로는 그렇지 않았다. 각 방향의 표현은 반대 방향의 문맥을 전혀 알지 못한 채 형성되었다. 예를 들어 "bank"라는 단어를 인코딩할 때, 왼쪽에서 오른쪽으로 읽는 LSTM은 그 앞에 오는 내용만 보고, 오른쪽에서 왼쪽으로 읽는 LSTM은 그 뒤에 오는 내용만 본다. 이렇게 사후적으로 두 표현을 이어붙이는 것은, 모든 레이어에서 두 문맥을 동시에 통합하는 것과 근본적으로 다르다. 비유하자면 이렇다. 두 명의 탐정이 한 사건을 맡았다. 한 명은 사건의 전반부만 조사하고, 다른 한 명은 후반부만 조사한다. 수사가 끝난 뒤 둘의 보고서를 스테이플러로 찍어 붙이는 것이 ELMo이다. 반면 BERT는 처음부터 두 탐정이 같은 방에 앉아 모든 증거를 함께 보며 토론을 한다. 결과물의 깊이가 다를 수밖에 없다. OpenAI의 GPT는 이 문제 자체를 포기하고, 왼쪽에서 오른쪽으로만 읽는 Transformer를 사용했다. 그 결과 어떤 토큰도 오른쪽에 있는 내용을 참조할 수 없었고, 이는 질의 응답이나 개체명 인식처럼 단어의 의미를 파악하는 데 뒤따르는 문맥이 결정적인 역할을 하는 토큰 단위 과제에서 특히 심각한 구조적 한계로 작용했다. 요약하면, 2018년의 NLP는 "양방향으로 읽고 싶지만 읽을 수 없는" 상태에 갇혀 있었다.
BERT의 해법: 마스킹이라는 우회로
BERT의 핵심 메커니즘은 마스크 언어 모델, 즉 MLM이다. 하지만 이를 단순히 "토큰의 15%를 가린다"는 식으로 이해하면 본질을 놓친다. MLM이 실제로 해결하는 것은, 양방향 학습을 불가능하게 만들었던 정보 누설 문제다. 입력에서 예측 대상 토큰을 제거함으로써, 모델은 해당 토큰 없이 양쪽 문맥만으로 그 의미를 재구성해야 한다. 이 과정에서 Transformer의 모든 레이어는 표현을 만들때 왼쪽과 오른쪽 문맥을 동시에 참조한다. 이것이 ELMo의 얕은 이어 붙이기와 구조적으로 구별되는 지점이다.
그러나 이 방식은 새로운 문제를 낳는다. [MASK] 토큰은 pre-training 단계에서만 등장하고, fine-tuning 단계에서는 나타나지 않는다. 두 단계 사이에 입력 분포의 불일치가 생기는 것이다. 이를 완화하기 위해 BERT는 의도적으로 혼합 마스킹 전략을 사용한다. 예측 대상으로 선택된 15%의 토큰 중 80%는 [MASK]로 교체되고, 10%는 임의의 다른 토큰으로 바뀌며, 나머지 10%는 원래 토큰 그대로 유지된다. 이 설계의 효과는 미묘하지만 중요하다. 모델은 어떤 토큰이 마스킹되었는지, 임의 토큰으로 교체되었는지, 아니면 그대로인지 알 수 없기 때문에, 시퀀스 내 모든 토큰에 대해 문맥적으로 일관된 표현을 유지하도록 강제된다. 이는 모델이 특정 입력 패턴에 의존하는 지름길을 학습하지 못하도록 막는다.
두번째 pre-training 과제인 다음 문장 예측(NSP)은 문장 간 관계를 포착하기 위해 설계되었다. 개념적으로는 합리적이지만, 이후 연구, 특히 RoBERTa는 NSP의 실질적인 기여가 제한적임을 보여줬다. BERT 자체의 ablation 실험에서도 NSP를 제거했을 때 일부 과제 에서만 유의미한 성능 저하가 관찰되었는데, 이는 NSP가 논문이 시사하는 것만큼 핵심적인 역할을 하지 않을 수 있음을 드러낸다.
fine-tuning 아키텍처도 주목할 필요가 있다. BERT는 pre-training과 fine-tuning에 동일한 아키텍처를 사용하며, [CLS] 토큰이 분류 작업을 위한 통합 표현으로 쓰이고, [SEP]가 시퀀스의 경계를 표시한다. 이 통일된 설계 덕분에 분류, 시퀀스 태깅, 질의응답, 자연어 추론 등 다양한 작업을 최소한의 작업별 파라미터 추가만으로 처리할 수 있다. 핵심은 단순하다. 정답을 가리고 양쪽에서 추론하게 만든 것, 그게 BERT의 전부이자 전부였다.
패러다임의 역전: 모델이 중심이 되다
BERT 이전의 패러다임에서는 작업별 아키텍처를 설계하는 것이 당연한 관행이었다. BiDAF는 질의응답을 위해 만들어졌고, ESIM은 자연어 추론을 위해 설계되었다. pre-training된 표현은 이러한 수작업 시스템에 부가적인 특성으로 주입되는 보조적인 역할에 머물렀다. ELMo가 이 접근 방식을 대표한다.
BERT는 이 관계를 뒤집었다. 범용 pre-training 모델이 중심이 되고, 작업별 구성 요소는 그 위에 얹히는 얇은 층으로 전락한다. 이 역전의 의미는 단순한 편의성을 넘어선다. Fine-tuning 과정에서 모든 파라미터가 함께 업데이트되기 때문에, pre-training에서 형성된 풍부한 표현이 작업별 신호에 의해 정밀하게 조정된다. 반면 특성 기반 접근법에서는 pre-training된 표현이 고정되어 있어, downstream 작업이 표현 자체를 수정 할 수 없다.
GPT와의 비교는 이 논문이 얼마나 정밀하게 설계되었는지를 보여준다. BERT-base는 의도적으로 GPT와 동일한 모델 크기로 구성되었다. 두 모델 사이의 유일한 의미 있는 변수가 attention의 방향성이 되도록 하기 위해서이다. 동등한 규모에서 이 차이만으로도 평균 GLUE 정확도에서 4.5% 포인트의 격차가 발생했는데, 이는 양방향성의 기여를 매우 깔끔하게 분리해낸 결과이다.
모델 규모에 관한 발견도 구조적으로 중요한 의미를 갖는다. 대규모 작업에서 더 큰 모델이 도움이 된다는 사실은 이미 알려져 있었지만, BERT는 레이블이 수천 개에 불과한 소규모 작업에서도 규모의 이점이 유지됨을 보여줬다. 이는 pre-training이 충분히 깊고 넓게 이루어진다면, 더 큰 표현 용량이 최소한의 fine-tuning 데이터만으로도 효과적으로 활용될 수 있음을 시사한다. BERT 이후, "어떤 모델을 쓸까"보다 "어떻게 학습시킬까"가 더 중요한 질문이 됐다.
BERT가 포기한 것들
BERT의 가장 근본적인 한계는 MLM 자체에서 비롯된다. 배치당 15%의 토큰만 예측하기 때문에, 모든 토큰을 예측하는 자기회귀 모델에 비해 단위 연산당 학습 신호가 훨씬 적다. 이는 BERT가 수렴하기까지 실질적으로 더 많은 pre-training 단계를 필요로 한다는 것을 의미하며, 논문 자체도 이 점을 인정한다.
더 본질적인 한계는 BERT가 생성 작업에 구조적으로 적합하지 않다는 점이다. 마스킹된 토큰을 예측하도록 학습된 인코더 전용 모델로서, 자기회귀적 시퀀스 생성을 수행할 수 없다. 요약, 번역, 개방형 대화 생성 같은 작업은 큰 수정 없이는 BERT로 접근하기 어렵다. BERT는 뛰어난 독해 선생님이지, 작가가 아니다. 글을 읽고 빈칸을 채우거나 핵심을 파악하는 데는 탁월하지만, 백지 위에 첫 문장부터 써 내려가는 훈련은 받지 않았다. ChatGPT, Claude 같은 대화형 AI가 BERT가 아닌 GPT 계열에서 나온 이유가 여기에 있다.
NSP의 가치도 재검토가 필요하다. 논문은 NSP가 질의응답과 자연어 추론에 기여한다고 주장하지만, RoBERTa는 NSP 없이 더 긴 학습과 더 큰 배치만으로도 이 작업들에서 BERT를 능가했다. 이는 NSP 덕분이라고 여겨졌던 일부 성능 향상이 실제로는 다른 이유에서 왔을 가능성을 보여준다. 즉, 문장 간 관계를 학습했다기보다 더 많은 문장 쌍 데이터에 노출된 효과였을 수 있다.
512 토큰의 문맥 제한은 attention의 이차적 계산 복잡도에서 직접 비롯된 제약이다. 장거리 의존성이 중요한 긴 문서, 법률 텍스트, 코드 파일 등에는 BERT가 구조적으로 한계를 가진다. 이 제약이 Longformer, BigBird, 그리고 희소 attention 메커니즘 연구 전반의 동기가 되었다.
마지막으로, pre-training과 fine-tuning 사이의 분포 불일치 문제는 완전히 해결되지 않았다. [MASK] 토큰은 fine-tuning 시 등장하지 않기 때문에, 마스킹된 입력에 반응하도록 학습된 표현이 마스킹되지 않은 추론 문맥으로 깔끔하게 이전되지 않을 수 있다. 혼합 마스킹 전략이 이 간극을 줄이지만, 근본적인 비대칭성은 여전히 남아 있다. BERT는 "이해"를 얻는 대신 "생성"을 포기했다. 그 선택의 대가는 8년 후에야 명확해졌다.
BERT가 남긴 것
BERT가 열어놓은 것은 단순히 단일 모델의 성능 향상이 아니었다. NLP 연구 자체의 구조를 재편했다. BERT 이전에는 각 작업마다 전용 아키텍처가 필요했다. BERT 이후에는 "무엇으로 pre-training할 것인가, 어떻게 fine-tuning할 것인가"가 중심 질문이 되었고, 작업별 아키텍처 설계는 주변부로 밀려났다. 이것이 가능했던 것은 BERT가 범용성과 깊이를 동시에 달성했기 때문이다. BERT의 표현은 문장 수준의 의미 추론과 세밀한 토큰 단위 예측을 동일한 파라미터 공간 안에서 처리할 수 있을 만큼 풍부하다. 이는 멀티태스크 학습, 프롬프트 기반 학습, 나아가 GPT-3가 구현한 few-shot 학습 패러다임의 개념적 토대가 되었다. 단일 모델이 다양한 언어 작업을 처리할 수 있다는 것을 BERT가 설득력 있게 입증하지 않았다면, 규모만으로도 작업 전반에 걸쳐 일반화할 수 있다는 주장은 훨씬 설득하기 어려웠을 것이다.
8년 후, BERT는 어디에 있나
이 글은 2026년에 쓰였다. BERT 논문이 나온 지 8년이 지났다. 8년 전 독자들은 BERT가 어디로 갈지 몰랐다. 지금은 안다. 무엇이 표준이 됐고, 무엇이 사라졌고, 어떤 구조가 살아남았는지. 결과를 아는 상태에서 읽는 건, 복선이 보이는 추리소설을 읽는 것과 비슷하다.
당시의 기대
2018년, 많은 연구자들은 BERT가 GPT보다 구조적으로 우월하다고 판단했다. 양방향 문맥 통합은 명백한 이점처럼 보였다. 단방향으로만 읽는 GPT는 태생적 한계가 있고, BERT가 그걸 극복했으니 앞으로의 발전은 BERT 쪽에서 나올 거라는 예상이 지배적이었다. 하지만 그 예상은 빗나갔다.
승패를 말하기 어려운 이유
BERT가 GPT에게 졌는가? 단정하기 어렵다. 둘이 같은 경기를 뛴 게 맞는지조차 애매하다. GPT는 "생성"을 선택했고, BERT는 "이해"를 선택했다. 그리고 사용자가 원한 건 생성이었다. ChatGPT가 세상을 바꾼 건 기술적 우월함 때문이 아니라, 사람들이 AI와 대화하고 싶어했기 때문이다. BERT는 그 욕구를 채울 구조가 아니었다. 구글도 이걸 알았을 것이다. BERT를 발표한 구글이 정작 대화형 AI(Bard, 이후 Gemini)를 만들 때는 BERT가 아닌 디코더 기반 구조를 선택했다. 설령 BERT로 챗봇을 시도했더라도 구조적으로 불리했을 것이고, 결국 같은 결론에 도달했을 가능성이 높다.
주류에서 밀려났지만, 제자리를 찾았다
2026년 현재, BERT는 대화형 AI의 중심에 없다. ChatGPT, Gemini, Claude 모두 디코더 기반이다. 그 의미에서 BERT는 주류에서 밀려났다. 하지만 밀려난 게 실패는 아니다. 검색 엔진의 의미 검색, 문서 분류, 임베딩 생성에서 BERT 계열은 여전히 업계 표준이다. 화려한 대화는 못 하지만, 조용히 제 할 일을 하고 있다. "만능 AI"가 되려다 실패한 게 아니라, 자기가 가장 잘하는 영역을 찾아간 것이다. 돌이켜보면 BERT는 처음부터 생성형 AI가 되려 한 적이 없었다. 구글이 BERT를 만든 목적은 검색 품질 향상이었고, 그 목적은 달성됐다. "GPT에게 졌다"라고 말하는 건, BERT에게 애초에 없던 목표를 기준으로 평가하는 셈이다.
아키텍처는 바뀌어도
BERT가 증명한 핵심 아이디어인 양방향 문맥 통합, pre-training의 깊이, 단일 모델의 범용성은 GPT-4에도, Claude에도, Gemini에도 녹아 있다. 아키텍처는 달라졌지만, BERT가 제기한 질문은 여전히 유효하다. BERT는 주인공 자리를 내줬다. 하지만 주인공들이 서 있는 무대는 BERT가 깔아놓은 것이다. 8년 후에도 읽힐 논문이 있다. BERT는 그중 하나다.
어떤 기술은 지배하고, 어떤 기술은 스며든다. BERT는 후자였다.