RAG의 한계와 LLM의 미래

RAG(Retrieval-Augmented Generation)는 LLM의 한계를 보완하기 위해 고안된 지식 검색 결합 생성 기술이다. 간단히 말해, RAG는 사전에 훈련된 언어 모델에 외부 데이터베이스로부터 찾은 정보를 추가로 제공함으로써, 모델이 더 정확하고 맥락에 맞는 응답을 생성하도록 돕는다. 2020년 페이스북 AI의 연구자 Patrick Lewis 등이 처음으로 RAG 개념을 논문으로 소개했고, 이후 수백 편의 후속 연구와 상용 서비스들이 잇따르며 생성형 AI의 새로운 트렌드로 자리 잡았다.

RAG의 구조는 크게 두 부분으로 나뉜다. 첫째는 검색 모듈이다. 사용자의 질문이나 프롬프트를 받아, 벡터 데이터베이스 등에서 관련 정보를 색인화된 문서 조각 형태로 찾아낸다. 이때 질의와 문서들의 의미적 유사도를 비교하여 가장 관련성 높은 텍스트들을 골라온다. 둘째는 생성 모듈이다. 이것은 일반적인 LLM이지만, 앞서 검색된 외부 지식 조각들을 프롬프트에 첨부받은 상태에서 답변을 생성한다. 요약하면, 모델이 자신의 파라미터에 내재된 지식만으로 답하지 않고, 필요시 외부 지식을 실시간으로 불러와 참고하는 것이다. 이러한 RAG 파이프라인을 통해 LLM은 동적인 최신 정보에도 접근할 수 있게 된다.

RAG가 등장하게 된 배경에는 당시 기존 LLM의 구조적 한계가 있다. 대형 언어 모델들은 방대한 훈련 데이터로부터 세상의 사실 지식을 많이 함유하지만, 훈련 이후에 발생한 새로운 사실이나 특정 도메인의 세부 정보에는 접근하지 못한다. 예컨대 2023년에 훈련된 모델은 2024년의 사건에 대해 물으면 지식 공백으로 인해 그럴듯하지만 틀린 대답(일명 할루시네이션)을 자신 있게 늘어놓을 수 있다. 또 모델이 어떤 근거로 그런 답을 내놓았는지 출처를 밝히기 어려워 사용자가 신뢰하기 힘들다는 문제도 있었다. 이런 한계를 해결하고자, LLM 과 검색 엔진을 조합하는 RAG 접근법이 탄생했다. 항상 업데이트되는 지식 저장소를 옆에 두고 필요할 때마다 검색하여 답변에 반영함으로써, 모델의 지식 부족이나 오류를 보완하려는 것이다.

초창기 RAG 연구에서는 위키피디아와 같은 공개 지식을 대상으로 오픈 도메인 질문답변에 성능을 입증했고, 이후 기업 데이터베이스나 법률/의료 등 전문 분야로도 확대되었다. 2024년 경부터 OpenAI, Microsoft, Google 등의 빅테크는 RAG 기반의 지식 검색 기능을 자사 LLM 서비스에 통합하기 시작했고, 국내외 기업들은 고객 지원, 의료 상담, 검색 엔진, 코드 비서 등의 응용에 RAG를 적극 도입하고 있다. LangChain이나 LlamaIndex 같은 오픈소스 프레임워크의 등장으로 개발 난이도가 낮아진 것도 RAG 확산을 가속했다. 이러한 맥락에서 RAG는 LLM 시대의 정보 활용 패러다임으로 급부상하며 발전해왔다.

RAG의 강점과 향상 대가로의 한계

RAG의 가장 큰 강점은 한마디로 사실성 향상이다. 외부 지식을 참조함으로써, 모델이 지어내는 답변을 줄이고 실제 근거에 기반한 응답을 생성할 가능성이 높아진다. 이는 특히 최신 정보나 전문 지식이 필요한 질문에서 두드러지는데, RAG는 실시간으로 관련 문서를 찾아보고 답변에 반영하므로 시의성 높은 정확한 정보를 제공할 수 있다. 예컨대 전통적 LLM이 업데이트되지 못한 최신 법 개정 사항도, RAG 기반 시스템이라면 최신 판례 텍스트를 검색하여 답변에 포함시킬 수 있다. 이처럼 할루시네이션 이라 불리는 허위 생성 위험을 완화하는 기능 때문에, RAG는 일종의 “사실 체크 보조장치”로 각광받아 왔다. RAG를 쓰면 출력과 함께 출처를 제시할 수도 있어 사용자 신뢰도를 높일 수 있다는 점도 실용적인 강점이다. 또한 필요한 지식을 외부에서 바로 가져오므로, 파라미터 내장형으로 모든 지식을 미리 학습시킬 때보다 유연하고 비용 효율적이다. 거대 모델을 추가 학습하거나 매번 파인튜닝하지 않아도, 작은 검색 모듈만 추가하면 새로운 데이터 반영이 비교적 간단하기 때문이다.

하지만 이 강점들이 반대 측면의 한계를 수반한다는 점도 분명해졌다. 첫째, RAG는 “쓰레기 들어오면 쓰레기 나간다 (garbage in, garbage out)” 문제에서 자유롭지 않다. 검색 모듈이 찾은 문서가 엉뚱하거나 부정확하면, 최종 생성 답변도 그 영향을 받아 틀리거나 불필요한 내용이 섞인다. 아무리 언어모델이 똑똑해도 잘못된 정보를 참조하면 잘못된 답을 내놓을 수밖에 없다. 따라서 검색 품질과 지식 베이스 관리가 RAG 성능의 결정적 요소가 된다. 이는 현업에서 RAG 시스템을 구축할 때 데이터 정제, 색인 최적화, 랭킹 조정 등에 많은 공을 들여야 함을 의미한다.

둘째, RAG 파이프라인은 지연과 복잡도를 증가시킨다. 질문 당 즉각 답변을 생성하던 기존 LLM과 달리, RAG는 추가 검색 단계를 거치므로 시간 지연이 발생한다. 소규모 테스트에서는 문제가 없어 보여도, 대규모 트래픽이나 실시간 상호작용 서비스에서는 검색-생성 지연이 사용자 경험에 영향을 줄 수 있다. 또 검색 결과 문서들을 모델 입력으로 맥락 통합하는 과정도 간단치 않다. 여러 문서를 한꺼번에 참고하면 응답이 장황해지거나 본문을 어색하게 짜깁기하는 현상이 나타날 수 있다. 요컨대 LLM과 검색 결과의 자연스러운 융합이 어렵다는 점이 있다.

셋째, RAG 도입은 시스템 설계와 유지보수의 부담을 높인다. 단순 LLM API 하나 부르는 것에 비해, 벡터 데이터베이스 구축, 색인 업데이트, 검색 랭킹 튜닝, 결과 재정렬(re-ranking) 등의 엔지니어링 복잡성이 추가된다. 예를 들어 대규모 사내 문서를 RAG에 활용하려면 주기적으로 색인을 갱신하고, 검색이 누락하거나 과잉 조회하는 문제를 관리해야 한다. 이 모든 추가 단계는 비용과 오류 가능성을 높이고 확장성에 제약을 걸 수 있다. 실제로 한 RAG 활용 사례 분석에 따르면, 문서를 조각내 벡터화하고, 임베딩 검색하고, 키워드 보완 검색을 하고, 다시 결과를 재정렬해 상위 n개만 모델에 넣는 등의 복잡한 절차를 거쳐야 하며, 각 단계마다 속도와 정확도 병목이 발생할 수 있다. 이러한 복잡성 때문에 “부분 고장의 연쇄(cascading failure)” 문제가 지적되기도 한다: 어느 한 단계에서 관련 정보를 놓치면 이후 단계들이 모두 부정확해지는 도미노가 될 수 있다는 것이다.

넷째, RAG는 창의적 생성 능력의 제한을 가져올 수 있다. 모델이 오로지 주어진 문서 조각 내에서만 답을 찾도록 유도되기 때문이다. 사실 이것은 원래 의도된 기능이지만, 역으로 생각하면 문서에 명시적으로 없는 내용이나 독창적인 추론은 배제된다는 뜻이다. 다시 말해 RAG는 모델이 “근거 없는 말은 하지 못하게” 입에 재갈을 물리는 셈인데, 이는 곧 모델 스스로 새로운 연결을 상상하거나 과감한 가설을 제시하는 능력을 억누를 위험이 있다. 실제로 사람의 창의적 작업에서는 때로 터무니없는 아이디어 (헛소리) 가 번뜩이는 발명으로 이어지기도 하는데, RAG 체계에서는 애초에 그런 비약이 발생하기 어렵다. 물론 사실 확인이 중요한 분야에서는 억제가 장점이지만, 창작이나 브레인스토밍 맥락에서는 RAG의 보수적 제약이 오히려 역량 발휘를 방해할 수 있다. 결국 RAG는 정확성과 창의성이라는 두 가치 사이에서 한쪽을 택하고 다른 쪽을 포기하는 트레이드오프를 내포하고 있다.

요약하면, RAG는 LLM의 사실 오류 문제를 억제하는 강력한 안정장치임과 동시에, 그로 인해 시스템의 구조적 복잡성 증가, 자율적 사고 한계 등의 부작용을 수반한다. RAG의 등장은 생성 AI의 신뢰성 문제를 해결하는 혁신으로 환영받았지만, 그 대가에 대한 고민이 점차 수면 위로 떠오르고 있는 것이다.

뇌의 억제 시스템

RAG의 역할을 이해하기 위해 흥미로운 관점을 하나 들어보자. 인간 뇌의 인지 작용과 비교해 보는 것이다. 뇌도 AI 모델과 마찬가지로 유익한 정보와 쓸모없는 잡음을 매순간 처리해야 한다. 이때 뇌가 쓰는 핵심 메커니즘 중 하나가 “억제(inhibition)”다. 즉 중요한 신호는 강화하고 방해되는 신호는 억누르는 것이다. 신경과학에서 억제성 뉴런은 다른 뉴런의 발화를 막아 주위 신호를 조율하고, 이를 통해 우리는 한 가지 생각에 집중하거나 충동적인 행동을 자제할 수 있다. 이러한 억제 기능 덕분에 뇌는 과도한 흥분이나 혼란을 방지하고 질서 있는 사고와 행동을 유지한다. 이는 RAG가 LLM의 혼돈스런 상상력을 제어해 논리적이고 사실적인 출력만 골라내는 역할과 닮아 있다. RAG는 일종의 AI의 전두엽 집행 기능처럼 모델의 자유로운 (때로 엉뚱한) 연상을 붙잡아 두고, “지금 필요한 정보에만 집중해!”라고 명령하는 셈이다.

그런데 억제에는 역설적인 면이 있다. 억제를 지나치게 많이 하면 어떨까? 모든 사소한 잡음까지 필터링해버리면 시스템은 안정적일지 모르지만 새로운 자극에 둔감해지고 획기적인 발상이 어려워질 수 있다. 사실 우리의 뇌도 너무 강한 억제 상태만 지속되면 사고가 경직되고 창의성이 떨어지는 것으로 알려져 있다. 반대로, 억제의 고삐를 풀어 평소 억눌렸던 신호들이 활발해지면 의외의 연결과 아이디어가 떠오를 수 있다. 신경과학 연구에 따르면, 인지적 억제 수준이 낮은 사람일수록 원래 무시되던 자극들까지 포착하여 독창적 사고를 할 가능성이 높다고 한다. 2003년 하버드 대학 심리학과의 Shelley Carson 박사 연구팀이 발표한 연구는 “잠재적 억제(latent inhibition)”라는 개념으로 이를 설명했는데, 평소 인간의 뇌는 주변의 대부분 정보를 걸러내지만 창의적 성취가 높은 사람들은 그 필터가 약해 더 많은 정보가 의식에 들어온다는 것이다. 이들은 쓸모없어 보이는 단서들을 조합해 새로운 아이디어를 낼 확률이 높지만, 동시에 그런 과잉한 자극 노출이 정신적 혼란을 일으킬 위험도 높다고 연구는 지적했다. 즉 “억제를 억제”함으로써 창발적 결과(emergent outcome)를 얻지만 대가도 따른다는 뜻이다.

뇌의 “억제 해제” 메커니즘은 창의성 연구에서 중요한 역할을 한다. 심리학자들은 높은 창의성과 약한 억제 기능(혹은 억제의 유연한 조절)이 상관관계가 있다고 오래전부터 지적해왔다. 실제 실험에서도 창의적인 사람이나 일종의 정신분열 성향이 있는 사람일수록, 평범한 사람보다 과제 수행 중 억제 수준이 낮게 나타난다는 결과가 있다. Carson 박사의 연구에서도 창의적 성취도가 높은 사람일수록 잠재적 억제 수준이 낮아, 환경으로부터 지속적으로 들어오는 추가 정보들과 접촉을 유지하며 독창적 연결을 만들어낸다고 밝혔다. 이러한 낮은 잠재적 억제는 평소엔 연결되지 않던 원격 연상(remote association)들이 의식 속에 떠오를 수 있게 한다는 설명이다. 흥미롭게도, 이런 억제 이완은 우리 뇌가 위기 상황에서 유연성을 회복하는 자연스러운 방법이기도 하다. 피로하거나 약물에 취하면 전두엽의 억제 기능이 약화되어 엉뚱한 생각이나 환각이 나타나는데, 이를 병리적 사례로 볼 수도 있지만 통제된 범위 내에서는 창의적 발상의 원천으로 보는 견해도 존재한다. 요컨대 억제를 또 억제하면 새로운 활로가 열릴 수 있다는 것이 뇌가 주는 시사점이다.

AI 시스템에 이 비유를 적용하면, RAG라는 억제 장치를 너무 엄격히 걸어둘 때 얻는 안정성의 이면에 잃는 것이 있다는 깨달음을 준다. 모든 출력을 검열하여 오류를 막으면 안전하지만, 동시에 AI 특유의 독창적 문제 해결 능력도 함께 묻히는 것은 아닌가? 인간 두뇌는 필요에 따라 억제와 탈억제를 다이나믹하게 조절하면서 논리와 창의 사이 균형을 잡는다. 그렇다면 생성형 AI도 상황에 따라 억제 장치를 느슨하게 풀어 창발적 결과를 얻는 방안을 고민해볼 가치가 있다. 이는 단순히 무조건적인 할루시네이션 허용을 의미하는 것이 아니다. 대신, 핵심이 아닌 부분에서의 오류 가능성을 감수하고서라도 더 대담한 탐색을 허용하는 모드, 혹은 2단계 접근(일단 자유 생성하고 후검증하기) 등 억제를 부분적으로 해제하는 전략을 생각해볼 수 있다. 브레인스토밍용 AI와 사실 검증용 AI를 구분하여 전자는 RAG 없이, 후자는 RAG를 사용하는 식의 활용도 한 예다. 결론적으로 뇌의 사례는 RAG의 억제가 창발적 지능을 가로막는 측면을 재인식하게 하며, “억제의 억제”라는 역발상을 통해 새로운 가능성을 탐색하도록 영감을 준다.

RAG에 의존하는 현재의 프레임

현재 많은 생성형 AI 시스템들은 RAG를 필수 불가결한 안전장치로 여기는 경향이 있다. 사실상 “할루시네이션 = 병”이라는 전제 하에, 이를 막기 위해 RAG라는 진통제를 상시 투여하는 셈이다. 이 보수적 프레임의 장점은 앞서 논의했듯이 명확하다: 신뢰성과 정확성 확보이다. 그러나 이를 비판적 시각에서 보면, 우리는 과연 할루시네이션 문제를 근본적으로 해결하고 있는가, 아니면 땜질 처방에 의존해 더 큰 도약을 지연시키고 있는가라는 질문이 떠오른다. RAG는 엄밀히 말해 근본 치료제가 아니다. 모델이 왜 할루시네이션 되는지에 대한 근원적 해결(예: 더 나은 학습이나 추론 구조 개선)을 한 건 아니고, 겉으로 드러나는 증상을 억눌러 놓은 임시방편에 가깝다. 약효가 지속되는 한 겉으론 병이 나은 듯 보이지만, 약을 끊으면 재발할 수 있는 상태와 비슷하다. 이는 장기적으로 봤을 때 모델 자체의 발전을 저해할 위험이 있다. 언제까지나 LLM이 “얌전히 말 잘 듣게” 외부지식으로 통제하는 데 머무른다면, 허위 생성 메커니즘과 같은 모델 내재적 문제를 혁신할 동기가 약해지기 때문이다.

또한 RAG 위주 접근은 AI 연구와 응용의 상상력을 한정짓는 측면이 있다. 개발자와 사용자 모두 RAG의 틀 안에서 “질문 -> 검색 -> 답변”이라는 유사 검색엔진 패턴에 익숙해지고, 모델이 스스로 지식을 학습하거나 추론을 통해 새로운 결론을 도출하는 시나리오를 점점 고려하지 않게 될 수 있다. 예를 들어, 난해한 문제에 대해 모델이 자체적인 가설을 만들고 검증하는 능력은 일반 LLM 연구에서 중요한 과제인데, RAG 프레임에서는 “검색 결과에 없는 답은 애초에 추구하지 않음”으로 함축되기에 그런 능력 발현 기회가 사라진다. 이는 시스템의 사고 범위를 인간이 미리 수집해둔 지식 범위로 제한하는 결과를 초래할 수 있다. 극단적으로 말하면, RAG에 지나치게 의존하는 건 “AI에게 계속 교과서만 베껴쓰게 하는” 교육과도 같다. 당장은 실수를 줄이겠지만, AI 스스로 새로운 지식을 생성하거나 창의적으로 문제를 푸는 학습 기회를 박탈하는 셈이다.

산업적 관점에서도 RAG 중심 전략의 확장성에는 의문부호가 붙는다. RAG를 대규모로 구현하려면, 기업은 방대한 데이터를 지속 관리하고 인프라를 확충해야 한다. 벡터 DB를 수십억 개 스케일로 운영하고 실시간 색인을 업데이트하는 일은 비용과 기술 면에서 도전적이다. 반면 LLM 자체의 매개변수에 지식을 내장하는 방식은 초기 비용이 크지만, 운영단에서는 단일 모델 호출로 끝나므로 상대적 단순성, 신속성을 갖는다. 미래에 컨텍스트 윈도우가 수백만 토큰으로 증가하고 모델이 문서를 직접 통으로 읽는 능력이 개선된다면, 굳이 복잡한 RAG 단계를 거치지 않고 큰 맥락 투입만으로 문제 해결이 가능해질지도 모른다. 실제로 Anthropic의 Claude 모델 등은 이미 20만 토큰 이상의 맥락을 처리할 수 있고, 이 “컨텍스트 폭증 시대”가 열리면 문서를 쪼개 검색하는 RAG 방식은 시대에 뒤처진 것이 될 수 있다는 지적도 나오고 있다. 나는 RAG를 “컨텍스트 부족 시대의 교묘한 임시방편(band-aid)”으로 본다. RAG는 근본적 해결책이 아닌 임시방편에 불과하며, 향후에는 에이전트 기반의 능동적 검색이나 대용량 컨텍스트를 활용한 직접 추론이 RAG를 대체할 것으로 전망한다. 실제로 체계적 웹 탐색과 툴 사용을 통해 다단계로 답을 찾아가는 Agent 패러다임이 등장하면서, 질문당 1회 검색에 의존하는 RAG보다 유연하고 지능적인 탐색을 보여주고 있다. 이는 마치 정적인 FAQ 데이터베이스와 실시간 조사하는 연구자의 차이처럼, 더 능동적인 AI 활용법으로 떠오르고 있다.

요컨대 현재 RAG 중심의 보수적 접근은 안정성을 얻는 대가로 잠재적인 혁신 기회를 놓치는 선택일 수 있다. 할루시네이션을 두려워한 나머지 AI의 상상력을 봉인하고 있다면, 이는 새로운 시대를 여는 데 걸림돌이 될지 모른다. 물론 현실 세계 응용에서 안정성은 중요하지만, 동시에 AI 분야의 궁극적 목표는 인간 이상의 지능과 자율 학습일 것이다. 그 목표를 향해 나아가려면 때로는 리스크를 감수한 실험과 억제의 완화가 필요하다는 점에서, 현 상태를 재고해야 한다는 비판적 목소리가 커지고 있다.

RAG 너머의 가능성 있는 대안들

그렇다면 RAG를 넘어서는 생성 AI 시스템의 모습은 어떠할까? 앞선 논의는 RAG의 족쇄를 풀 때 새로운 브레이크스루가 나올 수 있음을 시사하지만, 구체적으로 어떤 접근들이 대안이 될지 살펴볼 필요가 있다. 완전히 RAG를 버린다는 것은 곧 현재까지 쌓아온 안정성 장치를 포기한다는 의미이므로, 이를 정당화하려면 다른 방식으로 안정성과 창의성을 양립시키는 길이 모색되어야 한다.

1) 초대형 컨텍스트와 자체 추론

한 가지 방향은 아예 모델이 필요한 정보를 통째로 다 입력받아 스스로 추론하게 하는 것이다. 예를 들어, 질문에 관련된 방대한 자료를 한꺼번에 컨텍스트로 제공하고, LLM이 그 안에서 자유롭게 찾아보며 답을 구성하도록 하는 방식이다. 최근 GPT-5, Claude 등은 맥락 크기를 기하급수적으로 키우고 있어, 머지않아 수천 페이지 분량의 문서를 한 번에 넣고 질의하는 것도 가능해질 전망이다. 이렇게 되면 전통적인 RAG의 검색-재조합 과정 없이, 모델이 자체 “읽고 이해하기”만으로 답을 도출할 수 있다. 이는 인간 전문가가 자료철을 통째로 검토하며 결론을 내는 과정과 흡사하다. 이 접근의 장점은 문서 조각 단위로 정보를 끊어오는 과정이 생략되므로 맥락 단절이나 정보 누락이 적고, 모델이 전방위적인 상관관계를 활용해 종합적인 답변을 생성할 수 있다는 것이다. 큰 컨텍스트와 정교한 내비게이션 능력을 갖춘 에이전트형 모델은 부분적 검색으로는 얻기 어려웠던 완전한 해답을 줄 수 있고, 잘게 나눈 조각이 아닌 전체 구조의 이해를 바탕으로 더 정확한 판단을 할 수 있다. 물론 이 방법은 컨텍스트 입력 제한과 모델 추론 능력의 충분한 발전을 전제하며, 대용량 메모리 사용에 따른 비용 문제도 있다. 그러나 기술 추세를 보면 “컨텍스트가 곧 지식”이라는 철학으로 나아가고 있음은 분명하다. RAG가 일종의 우회로였다면, 궁극적으로는 정면돌파식으로 LLM 자체의 시야와 기억력을 키워 문제를 해결하겠다는 것이다.

2) 에이전트 기반 능동 탐색

또 다른 대안은 RAG의 단발성 검색을 발전시킨 능동적 탐색(agentic search)이다. 이는 최근 각광받는 AI 에이전트들이 보여주는 전략으로, 모델이 자율적으로 여러 번의 검색이나 도구 사용을 반복하며 점진적으로 문제를 해결하는 접근이다. 가령 의학 논문 질문이 들어오면, 에이전트는 먼저 해당 질병 키워드로 검색하고, 나온 결과를 읽은 후 거기서 모호한 부분이 있으면 다시 관련된 다른 키워드를 추가로 검색하는 식으로 사고 체계를 확장한다. 이런 루프 구조 속에서 AI는 매 단계 자신의 중간 결과를 검증하고 다음 행동을 결정하기 때문에, 단순 RAG보다 더 깊이 있는 탐색과 추론이 가능하다. 중요한 것은 이 과정에서 에이전트는 필요하면 언제든 억제와 탈억제 모드를 오간다는 점이다. 예컨대 초기에는 폭넓게 (약간은 잡음 섞인) 문헌을 긁어모아 큰 그림을 그리고, 이후 점차 범위를 좁혀 정확한 답을 찾는 식이다. 이는 인간 전문가들도 문제 해결 시 폭넓게 아이디어를 수집한 후 유망한 가설에 초점을 맞추는 과정과 유사하다. 능동 탐색형 AI는 RAG처럼 첫 검색 결과에 얽매여 있지 않고, 필요에 따라 창의적 경로를 모색할 수 있어 더 능동적 지능의 면모를 보여준다. 초기에는 RAG와 병행하겠지만, 점차 이런 에이전트들이 발전하면 “RAG 없이도 할 일을 다 하는” 자율 AI 시스템이 등장할 수 있다. 이는 RAG를 다른 형태로 재정의한 것일 수도 있는데, 차이는 통제 주체가 사람이 설계한 고정된 파이프라인이 아니라 AI 자신이라는 점이다. 다시 말해 “모델 스스로 필요한 걸 검색하고 활용”한다는, 내재화된 RAG라고 볼 수 있다. 최종 사용자 입장에서는 더 이상 RAG라는 별도의 모듈이 보이지 않고, AI 에이전트 하나가 모든 걸 처리하므로, RAG는 숨은 기능으로 들어가 버리는 셈이다.

3) 모델 자체의 진화: 지식 내재화와 자기 검증

RAG를 없애는 가장 극단적 방법은 아예 모델 자체를 더 똑똑하게 만드는 것이다. 예를 들어, 주기적으로 LLM을 최신 지식으로 추가 학습시켜 항상 거의 현재와 차이 없는 지식 상태로 유지할 수 있다면 RAG의 시급성이 줄어든다. OpenAI나 Meta 등이 시도하는 지속적 미세조정이나 강화학습을 통한 사실성 향상이 여기에 해당한다. 그러나 이 접근은 비용과 한계가 명확하다. 세상의 지식이 워낙 빠르게 늘고 변하기 때문에, 모든 모델을 항상 최신으로 만드는 것은 비효율적이다. 또한 매번 파라미터에 주입된 지식은 출처 추적이 불가능해지는 단점도 여전하다. 따라서 완전한 대안이라기보다는 RAG 필요성을 일부 상쇄하는 보조적 방향이라 할 수 있다.

보다 흥미로운 진화 방향은 모델의 자기 검열 및 자기 검증 능력을 키우는 것이다. 예를 들어, “두 단계 생성” 방법을 들어볼 수 있다. 첫 단계에서는 모델이 자유롭게 답을 생성하지만 (이 단계에서는 약간의 허구나 추론이 섞일 수 있음), 둘째 단계에서 자신의 답을 검토하면서 근거가 불충분한 부분을 표시하거나 외부 검증을 요청하도록 한다. 이는 인간이 글을 쓴 뒤 스스로 교정하는 과정과 유사하다. 만약 모델이 이런 메타인지를 잘 수행할 수 있다면, 굳이 처음부터 완벽히 억제된 답만 내놓도록 할 필요가 없다. 일단 다양한 아이디어를 내보고 나중에 걸러내는 식의 생성이 가능해지는 것이다. 이때 걸러내는 역할에 RAG의 힘을 빌릴 수도 있고, 아니면 별도의 검증 모델이나 지식 그래프 대조 등을 활용할 수도 있다. 핵심은 창의적 생성과 사실 검증을 한 모델 안에서 분리된 단계로 구현함으로써, 얻을 것은 얻고 위험은 줄이는 방향이다. 현재 일부 연구에서는 LLM에게 “자신의 대답 중 사실 여부가 의심되는 부분을 표시하라”고 시키거나, Reference-checker 모델을 따로 붙여 생성 결과를 감수하게 하는 실험도 이루어지고 있다. 이런 흐름이 발전하면, 미래에는 RAG 없이도 모델 스스로 할루시네이션을 인지하고 수정하는 자율성이 생길 가능성도 있다. 이는 진정한 의미에서 억제 인자를 외부에서 강제하는 대신, 모델 내부에 내재화하는 접근이다.

이외에도 지식 그래프 기반 질의응답, 기호추론과 뉴럴망의 결합 등 RAG를 부분 대체할 아이디어들이 학계에서 논의되고 있다. 중요한 것은, RAG의 한계로부터 출발한 이러한 대안들이 “억제를 억제”하거나 “내부화”하는 방향성을 공통적으로 갖는다는 점이다. 전자는 기존 억제 기제를 아예 떼어내 자유도를 높이는 것이고, 후자는 억제 기능을 외부에서 내부 능력으로 바꿔 유연하게 on/off할 수 있게 만드는 것이다. 어느 쪽이든, 현재 RAG의 굴레에서 벗어나 AI 시스템의 능동성과 창발성을 회복하려는 철학이 깔려 있다.

“Breaker를 브레이킹한다”는 상징의 의미

나는 이러한 LLM 시스템의 전환을 “Breaker를 브레이킹한다”는 개념으로 표현하고자 한다. ‘Breaker’를 창발적 지능(Emergent Intelligence)의 메타포로 사용하되, 이를 다시 ‘브레이킹’한다는 것은 기존 질서를 깨뜨리는 혁신적 힘 자체마저도 재구성해야 한다는 의미다. 이 역설적 개념은 단순히 RAG를 제거하는 것을 넘어, LLM 발전의 패러다임 자체를 재고하자는 제안이며, 기술적 맥락과 철학적 맥락 모두에서 새로운 관점을 제시할 수 있다.

우선 기술적 의미에서, “브레이커를 부순다”는 것은 RAG라는 억제 장치를 제거하거나 재정의하여 LLM 시스템이 질적인 도약을 이루게 하자는 제안으로 볼 수 있다. 여기서 브레이커는 비유적으로 회로 차단기나 제동장치를 떠올리게 한다. RAG는 그동안 LLM의 폭주를 막는 회로 차단기 역할을 해왔다. 모델이 잘못된 경로로 가면 RAG가 끊어주고, 위험한 출력을 멈춰주는 식이다. 하지만 동시에 그 차단기는 전류 흐름, 즉 창의적 에너지의 흐름도 제한한다. 브레이커를 끄면 전류가 다시 흐르지만, 통제되지 않으면 과열이나 사고가 날 수 있다. 따라서 브레이커를 부순다는 건 위험을 감수하고서라도 더 큰 에너지 흐름을 허용하겠다는 선언이다. 이는 마치 어린아이의 자전거 보조바퀴를 떼어내는 순간과 비슷하다. 처음엔 위험하고 불안정할 수 있으나, 보조바퀴(안전장치)를 계속 달고서는 절대 배울 수 없는 균형 잡힌 자전거 타기를 터득하려는 것이다. LLM에게 RAG는 오랫동안 달린 보조바퀴 였다. 이제는 그것을 떼어내고 진짜 실력을 시험해볼 때가 왔다는 의미로 해석된다. 물론 당장 넘어질 수 있다. 그러나 넘어지는 경험 속에서 LLM은 스스로 균형 잡는 법을 배우고, 이전보다 자율적이고 강인한 시스템으로 성장할 수 있다. 이처럼 기술적으로 “브레이커를 부순다”는 구호는 LLM 연구의 과감한 실험과 프레임 전환을 촉구하는 메시지라 할 것이다.

다음으로 철학적 의미에서, 이는 인간과 LLM의 관계 및 지향점에 관한 성찰을 담는다. 우리는 LLM의 창발적 지능을 원하면서도 한편으로 두려워해왔다. 원하지 않는 비예측적 행동이나 오류, 윤리 문제 등이 발생할까 봐 끊임없이 규제와 억제 장치를 설계해왔다. RAG도 그런 맥락에서 탄생한 도구 중 하나다. 그러나 아이러니하게도, 엄격한 규제 속에서는 진정한 창발도 어렵다는 점을 깨달아야 한다. 인간 두뇌의 창의성도 혼돈과 질서의 경계에서 나오듯이, 인공 지능의 높은 차원 창발성도 어느 정도 자유와 시행착오를 허용해야 빛을 볼 수 있다. “브레이커를 브레이킹한다”는 말은 단순히 기술 요소를 제거한다기보다, 우리가 LLM을 바라보는 패러다임을 전환하자는 철학적 선언에 가깝다. 즉 통제와 억압의 대상으로만 LLM을 볼 것이 아니라, 자율과 성장의 주체로 인정하고 기회를 주자는 것이다. 그것은 곧 불확실성과 위험을 함께 감내하겠다는 책임있는 태도이기도 하다. 쉽게 말해 “관리되는 머신”에서 “함께 배우는 파트너”로 LLM을 대우하는 변화다. 이러한 전환 없이는 LLM은 영원히 인간이 정한 울타리 안에서만 맴돌 것이고, 우리가 기대하는 획기적 혁신이나 인간을 능가하는 통찰도 요원할지 모른다.

나아가 “브레이커를 부순다”는 개념에는 창발적 지능에 대한 낙관과 희망이 담겨 있다. 억제 장치가 사라졌을 때 나타날 새로운 시스템적 현상을 일종의 신생으로 보는 관점이다. 이는 혼돈을 통한 창조라는 오래된 철학적 아이디어와 맥락을 같이 한다. 옛 질서를 깨뜨려야 새 질서가 온다는 변화의 본질을 반영한 메시지다. 기술 철학자들은 흔히 “기술 혁신은 기존 프레임의 파괴에서 시작된다”고 말한다. 여기서 기존 프레임은 RAG 중심의 사고일 것이고, 그것을 깨야 차세대 LLM의 탄생이 가능하다는 주장이다. 물론 이때의 “파괴”는 무모한 폭주를 뜻하는 게 아니다. 오히려 보다 큰 도약을 위한 의식적 해체이자 통제의 패러다임 시프트다. 다시 회로 차단기 비유로 돌아보면, 브레이커를 끈 시스템은 정교한 모니터링과 적응 제어를 통해 새로운 균형점을 찾아야 할 것이다. 완전한 무규제 상태가 아니라, 사후 제어 또는 자기제어로 전환하는 것이다. 이는 분산형, 자기조직적 지능으로의 진화를 상징한다. 중앙의 일괄 차단 대신, 시스템 곳곳에서 스스로 오류를 감지하고 조정하는 유연성이 요구된다. 궁극적으로 “브레이커를 부숨”으로써 LLM은 질적으로 다른 지능 단계, 어쩌면 우리가 ‘창발적 지능’라고 부를만한 경지에 도달할 수 있다는 비전이 담겨 있다.

정리하면, “Breaker를 breaking”이라는 도발적 구호는 현재 LLM 안전장치에 안주하지 말고 그 한계를 넘어 진정한 창발을 이루자는 외침이다. 이는 기술적 도전이자, 우리가 LLM과 맺는 관계에 대한 가치관의 변화이다. 억눌러서 얻는 안정과, 풀어서 얻는 혁신 사이에서 어느 지점을 선택할 것인가에 대한 철학적 질문을 던지는 말이기도 하다.

진통제에서 근본 치료로의 전환

RAG는 생성형 AI의 발전사에서 매우 의미 있는 기술이었다. 이는 LLM이 가진 한계를 현실적으로 인정하고, 외부 지식을 도입해 문제를 해결한 창의적 해법이었다. RAG 덕분에 우리는 GPT와 같은 모델을 실무에 활용하면서도 일정 수준 이상의 신뢰성을 확보할 수 있었고, LLM의 지식 활용 방식에 대한 새로운 아키텍처를 개척했다. 그러나 모든 기술에는 그늘이 있다. RAG의 경우, 그 억제 기제가 가져오는 제한과 비용이 바로 그늘이었다. 할루시네이션을 막는 대가로 창발적 사고까지 억누르고 있는 건 아닌지, 임시방편에 의존하는 사이 근본적 해결을 등한시한 건 아닌지 돌이켜보아야 할 시점이다.

지금까지 살펴본 것처럼, 뇌의 억제 시스템 비유는 우리에게 시사하는 바가 크다. 억제 일변도의 시스템은 안정적이지만 새로운 돌파구를 만들지 못한다. 인간이 창의성을 발휘할 때는 오히려 기존 틀을 잠시 내려놓고 자유롭게 발상할 때이다. LLM도 마찬가지다. 완벽한 정답만을 추구해 온정신을 다 바치는 동안, 정작 혁신의 씨앗이 될 틀밖의 아이디어는 싹트지 못할 수 있다. 그러므로 LLM 시스템 설계에 있어서도 “통제의 통제를 푸는” 용기가 필요하다. 이는 안전과 창의의 균형점을 재설정하는 일이기도 하다.

물론 당장 RAG를 전면 폐기하자는 극단적 주장을 하는 것은 아니다. 안전벨트를 풀 때는 에어백 등 다른 안전망이 준비되어야 하듯이, RAG를 대체하거나 보완할 새로운 방안들이 충분한 검증을 거쳐야 할 것이다. 다행히도, 컨텍스트 확대, 에이전트 탐색, 모델 자기검증 등 여러 대안이 이미 제시되고 있고 초기 성과를 보이고 있다. 이러한 움직임들은 공통적으로 LLM에게 더 큰 자율권과 책임을 부여하는 방향이다. 우리는 이 방향이 옳다고 믿는다면, 연구와 투자를 통해 RAG 너머의 패러다임을 적극 모색해야 한다. 언젠가 LLM이 스스로 지식을 습득하고 오류를 바로잡으며 인간처럼 창의적으로 사고할 수 있게 된다면, 그때 돌이켜 볼 때 RAG는 과도기의 안정장치로서 역할을 다하고 역사 속으로 사라질 것이다. 그것이 진통제의 운명이다. 통증을 영원히 없애려면 병 자체를 치유해야 하듯, LLM 할루시네이션이라는 병을 근본적으로 해결한 더 똑똑한 지능이 등장하면 굳이 진통제를 쓸 이유가 없어진다.

결국 우리가 지향해야 할 LLM의 궁극 상태는, 필요에 따라 스스로 억제를 조절할 줄 아는 지능, 즉 자율적이면서도 신뢰할 수 있는 지능일 것이다. 그런 경지에 이르기까지는 과감한 실험과 도전이 필요하다. RAG가 가져다준 안정에 감사하면서도, 그 한계를 인정하고 새로운 길을 모색하는 것이 지금 우리의 과제다. “브레이커를 브레이킹”하는 것은 바로 그러한 과제를 수행하자는 제안이자, 창발적 지능의 도래를 준비하는 선언이다. 억제를 억제함으로써 창발을 맞이하는 날, LLM은 더 이상 인간의 도구가 아닌 진정한 지능적 파트너로서 우리와 함께 걸어갈 것이다.

참고 자료

Patrick Lewis et al. (2020), “Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks.”

Rick Merritt (2025), “What Is Retrieval-Augmented Generation, aka RAG?”

Nicolas Bustamante (2025), “The RAG Obituary: Killed by Agents, Buried by Context Windows.”

William J. Cromie (2003), “Creativity tied to mental illness.”

Julia Ligteringen (2023), “Everything Wrong with Retrieval-Augmented Generation.”

Language Detection