1903년 12월 17일, 노스캐롤라이나주 키티호크의 모래밭 위에서 한 대의 동력 비행기가 처음으로 하늘을 갈랐다. 그날까지 수많은 사람이 비행을 꿈꾸었고, 누구도 완전히 성공하지 못했다. 유럽에서는 거대한 증기 엔진을 얹은 기계가 시험되었고, 미국 스미스소니언 연구소의 책임자 새뮤얼 랭글리는 미 육군의 지원을 받아 정교한 비행체를 제작해 포토맥강 위에서 띄웠지만 두 번 연속 강물에 처박혔다. 그는 당대 최고의 엔지니어였고, 자금과 명성도 충분했다. 다른 발명가들은 새의 날개를 정밀히 모방한 장치를 만들었지만 대부분 짧은 활강 이상의 성과를 내지 못했다. 단 하나, 오하이오 데이턴에서 자전거 가게를 운영하던 두 형제만이 지속적인 동력 비행에 성공했다.

그 차이는 엔진의 출력이 아니었다. 날개의 면적도 아니었다. 라이트 형제가 해결한 것은 ‘조종’의 문제였다. 그들은 비행을 단일 기술이 아니라 시스템 문제로 접근했다. 양력과 추진력, 조종이 하나의 유기적 구조로 결합되어야 하늘을 날 수 있다는 사실을 이해했다. 수천 번의 글라이더 실험과 자체 제작 풍동 실험 끝에, 그들은 날개 비틀림, 수직 방향타, 수평 승강타를 결합한 3축 제어 체계를 완성했다. 이 체계 덕분에 겨우 12마력짜리 소형 엔진으로도 12초의 역사적 비행이 가능했다. 강력한 엔진을 달았던 랭글리의 기계는 하늘에 오르지 못했지만, 시스템으로서 완성된 라이트 형제의 플라이어는 공기를 갈랐다. 엔진이 부족했던 것이 아니라, 엔진 바깥이 부족했던 것이다.

인공지능의 현재 상황은 이 장면과 놀라울 만큼 닮아 있다. 지난 10여 년간 경쟁의 대부분은 ‘엔진’을 키우는 데 집중됐다. 파라미터를 늘리고, 학습 데이터를 확장하고, 연산량을 극대화했다. 그 결과 놀라운 언어 모델들이 등장했고, 한때는 모델만 더 크게 만들면 모든 문제가 풀릴 것처럼 보였다. 그러나 최근 1~2년 사이 무게중심이 조용히 이동하기 시작했다. 연구자와 실무자들은 점차 ‘모델 그 자체’보다 ‘모델을 둘러싼 구조’가 실제 성패를 가른다고 말하기 시작했다. 모델은 강력한 엔진일 뿐이며, 하늘을 나는 것은 그 전체 시스템이다.

이 변화는 단순한 엔지니어링 트렌드가 아니다. 오히려 지능이 무엇인지에 대한 가장 오래된 질문과 정확히 맞닿아 있다. 인간은 2천 년 넘게 ‘지능이 어디에 있는가’를 물어왔다. 심장에 있다는 고대의 믿음에서 뇌에 있다는 근대의 확신까지, 이 질문은 끊임없이 답을 바꿔왔다. 그리고 21세기 신경과학은 다시 한번 흐름을 뒤집고 있다. 지능은 뇌만의 것이 아니다. 뇌와 신체와 감각과 환경이 함께 구성하는 시스템의 산물이다. 이 시선의 이동이 지금 AI 분야에서 똑같이 재현되고 있다.

지능이 어디에 있는가

고대 이집트의 미라 제작자들은 뇌를 버리고 심장만 보존했다. 그들은 기억과 의지가 심장에 깃든다고 믿었고, 뇌는 부패하기 쉬운 찌꺼기로 여겼다. 아리스토텔레스도 비슷한 입장이었다. 그는 심장이 사고의 중심이며, 뇌는 혈액을 식히는 기관에 불과하다고 주장했다. 반대편에 히포크라테스와 갈레노스가 있었다. 그들은 뇌가 지능과 감정의 자리라 보았다. 이 논쟁은 2천 년 넘게 이어졌고, 근대 해부학과 현대 신경과학이 차례로 등장하면서 결국 ‘뇌’가 승리한 듯 보였다. 지능은 두개골 안에 있다. 적어도 20세기 후반까지 이 전제는 거의 의심받지 않았다.

그러나 한 걸음 물러서서 생각해보면, 지능을 ‘특정 장소’에 두려는 시도 자체가 이상하다. 지능은 물건이 아니라 기능이다. 외부 세계를 해석하고 미래를 예측하며 행동을 조정하는 능력이다. 이 능력이 꼭 뇌라는 특정 기관에만 깃들어야 할 이유가 없다. 실제로 자연을 둘러보면 지능은 훨씬 더 넓게 분포해 있다. 박테리아는 화학 농도 구배를 감지해 먹이 방향으로 이동한다. 점균류는 뇌가 없지만 가장 짧은 경로로 먹이를 연결하는 미로 문제를 푼다. 식물은 빛의 방향을 읽고 잎의 각도를 조정하며, 이웃 나무의 화학 신호에 반응해 자신의 방어 반응을 조절한다. 이 모든 현상은 ‘지능’이라 부를 만한 공통 원리 위에 있다. 불완전한 정보 속에서 환경을 해석하고, 다음에 일어날 일을 예측하며, 그에 맞춰 행동을 조정하는 능력이다.

그렇기 때문에 지능의 핵심은 ‘예측’이다. 모든 생명체는 내부에 일종의 ‘세계 모델’을 가지고 있다. 외부를 그대로 복사하는 것이 아니라, 복잡한 현실을 단순화하고 압축한 형태로 재구성한다. 이 과정에서 감각 입력의 우선순위가 결정되고, 불필요한 정보는 버려지며, 중요한 패턴이 기억되고 재활용된다. 내부 모델이 정확할수록 예측은 정교해지고, 예측이 정교할수록 생존 확률이 높아진다. 진화는 결국 더 나은 예측자를 선별하는 과정이었다. 생존은 곧 예측이고, 예측은 곧 압축이다. 영국의 신경과학자 칼 프리스턴이 제안한 ‘자유 에너지 원리’나, 딥러닝의 선구자 얀 르쿤이 오래전부터 강조해 온 ‘월드 모델’ 논의는 이 방향을 명시적으로 가리킨다. 지능은 알고리즘이 아니라, 환경을 모델링하고 예측하는 구조 그 자체다.

이 연속선 위에서 인간 지능의 특수성은 상대적인 개념이 된다. 언어와 추상화를 통해 내부 모델의 범위와 깊이를 극단적으로 확장했다는 점이 인간의 특징이다. 인간은 직접 경험하지 않은 상황도 언어를 통해 시뮬레이션할 수 있고, 과거의 기록과 미래의 가능성을 동시에 다룰 수 있다. 그러나 근본 원리는 다른 생명체와 동일하다. 외부 세계를 압축해 모델을 만들고, 그 모델로 미래를 예측하며, 예측을 행동으로 연결한다. 인간과 단세포 생물의 차이는 ‘종류의 차이’가 아니라 ‘정도의 차이’다.

최근 딥러닝 모델이 빠르게 발전한 것도 같은 맥락에서 이해할 수 있다. 초기의 신경망은 단순한 패턴 매칭 기계에 가까웠다. 입력과 출력을 연결하는 함수를 학습하는 장치였을 뿐이다. 그러나 트랜스포머 아키텍처가 등장하고, 대규모 언어 모델이 웹 전체 규모의 텍스트로 훈련되면서 양상이 달라졌다. 모델 내부에 세계의 구조가 점점 더 정교하게 반영되기 시작했다. 단어 간 통계적 관계를 넘어 인과 관계, 시간의 흐름, 물리 법칙, 사회적 맥락 같은 추상적 구조가 파라미터 공간에 응축되었다. 이것은 단순한 단어 예측기가 아니라, 세계를 압축한 일종의 내부 모델이다.

이 관점에서 보면 LLM은 ‘다음 토큰을 찍는 기계’가 아니다. 인터넷 시대 인간이 남긴 수많은 기록을 압축한 지식 모델이자, 그 안에서 다음 상태를 예측하는 시뮬레이터에 가깝다. 이 내부 모델의 해상도와 일관성이 얼마나 높은가가 결국 모델의 ‘지능’을 결정한다. 파라미터 수가 중요한 것이 아니라, 그 파라미터가 얼마나 잘 조직된 세계 모델을 이루는가가 중요하다. 최근 구글 딥마인드가 공개한 Gemma 4 계열이 단순히 큰 것이 아니라 ‘파라미터당 지능 밀도’를 강조하는 이유가 바로 여기에 있다. 26B 규모의 MoE 모델이 20배 큰 모델과 비슷한 성능을 낸다는 주장은, 이제 ‘크기’만으로는 설명되지 않는 질적 변화가 모델 내부에서 일어나고 있음을 의미한다.

그러나 여기에서 한 가지 중요한 구분이 필요하다. 내부 모델을 가진다는 것과, 그 모델을 활용해 실제로 문제를 해결한다는 것은 다르다. 박테리아는 화학 농도를 감지하는 모델만 가진 것이 아니다. 그 감지를 이동으로 바꾸는 편모와 근섬유, 에너지 대사 시스템을 함께 가진다. 내부 모델이 아무리 정교해도, 그것이 행동으로 연결되지 않으면 지능은 생존에 기여하지 못한다. 이 당연한 사실이 오늘 인공지능 논의에서 가장 중요한 전환점이 되고 있다.

뇌만 옮기면 같은 사람이 될까

20세기 신경과학은 뇌를 ‘지능의 자리’로 확정한 듯 보였다. MRI와 PET 스캔, fMRI 기술이 발전하면서 연구자들은 뇌의 각 부위에 기능을 할당할 수 있게 되었다. 전두엽은 판단, 해마는 기억, 편도체는 감정. 지능과 의식은 이 섬세한 기관 안에서 빚어진다. 20세기 대부분 동안 이 관점이 지배적이었다. 심지어 일부 연구자들은 뇌를 컴퓨터에 비유하며, 언젠가 인간의 뇌를 디지털화해 ‘업로드’할 수 있을 것이라 주장했다. 이 상상의 배경에는 하나의 전제가 있다. 인간이 ‘그 사람’인 것은 결국 뇌 때문이며, 뇌만 보존하면 그 사람의 정체성도 유지된다는 것이다.

그러나 지난 20년간 과학은 이 전제에 심각한 의문을 던지기 시작했다. 체화된 인지(embodied cognition) 연구는 사고가 뇌 단독의 작업이 아니라 신체 전체에 분산되어 있음을 보여주었다. 우리가 무언가를 이해할 때, 뇌는 그에 대응하는 신체 감각을 함께 활성화한다. ‘뜨거운 커피’라는 말을 읽을 때 뇌의 촉각 영역이 미세하게 반응하고, ‘달리다’라는 단어를 볼 때 운동 피질이 작동한다. 언어조차 순수한 기호 조작이 아니라, 신체가 과거에 경험한 상황의 재연에 가깝다. 사고는 머릿속에 갇힌 연산이 아니다. 몸이 함께 기억하고, 몸이 함께 추론한다.

장내 미생물군에 대한 연구는 더 충격적이다. 인간의 장에 사는 수십조 개의 미생물은 호르몬과 신경전달물질 시스템에 깊이 관여한다. 체내 세로토닌의 대부분이 장에서 만들어지며, 장의 상태는 미주신경을 통해 뇌와 양방향으로 신호를 주고받는다. 미생물군은 트립토판 같은 신경전달물질 전구체의 대사에도 영향을 미친다. 무균 환경에서 자란 실험 쥐는 사회적 상호작용과 기억 능력에서 정상 쥐와 분명한 차이를 보였고, 특정 미생물을 이식받으면 성격 자체가 달라지기도 했다. 장의 상태가 뇌의 상태를 조율한다. 뇌와 장 사이의 연결은 양방향 도로이며, 이 도로가 없으면 뇌는 온전하게 작동하지 못한다. 우리가 ‘사고’라 부르는 것은 뇌 안에서만 일어나지 않는다.

호르몬 시스템도 마찬가지다. 갑상선 호르몬이 부족하면 인지 속도가 느려지고, 코르티솔이 만성적으로 높으면 해마의 크기 자체가 줄어든다. 인슐린 저항성은 알츠하이머의 강력한 위험인자이며, 이 병을 ‘제3형 당뇨’라 부르는 연구자도 있을 정도로 대사와 인지는 얽혀 있다. 감각 피드백도 빼놓을 수 없다. 시각, 청각, 고유수용감각, 평형감각이 끊임없이 뇌로 흘러 들어오며 내부 모델을 실시간으로 갱신한다. 감각이 차단되면 뇌는 정상적으로 작동하지 못한다. 감각 박탈 실험에서 피험자들은 몇 시간 만에 환각을 경험하기 시작했다. 뇌는 입력이 없으면 현실과의 연결을 잃는다.

이 발견들을 종합하면 결론은 분명해진다. 인간의 인지와 의식은 뇌 단독의 산물이 아니다. 뇌, 신경계, 내장, 호르몬, 감각 기관, 근육, 심지어 장내 미생물까지 포함한 전체 생물학적 시스템의 결과물이다. 시스템의 일부만 바꿔도 전체의 양상이 달라진다. 가상으로 한 사람의 뇌를 다른 신체에 옮긴다고 가정해보자. 그 뇌는 깨어날 수도 있을 것이다. 그러나 다른 심장 박동, 다른 호르몬 환경, 다른 감각 프로필, 다른 장내 미생물 구성 위에서 만들어지는 경험은 이전과 같을 수 없다. 같은 뇌라도 다른 몸에서는 다른 사람이 된다. 이 결론은 철학적 사변이 아니라, 현대 생물학과 신경과학의 증거가 가리키는 방향이다.

장기 이식 수혜자들의 임상 보고에서도 이 사실은 은근한 형태로 드러난다. 심장 이식을 받은 사람 중 일부는 기증자의 식습관이나 성향이 전이된 듯한 경험을 보고한다. 대부분은 심리적 투사로 설명되지만, 심장 내 자율신경 네트워크와 호르몬 작용이 기분과 판단에 실제로 영향을 준다는 점은 생리학적 사실이다. ‘마음이 머리에만 있지 않다’는 오래된 직관은 비유가 아니라 실제 생물학이었다.

이 시선의 이동은 인공지능을 이해하는 방식에도 직접적인 영향을 미친다. LLM이 아무리 거대하고 정교해져도, 그것만으로는 ‘지능 시스템’이 될 수 없다. LLM은 뇌에 해당한다. 뛰어난 내부 모델이지만, 혼자서는 외부 세계와 상호작용하지 못한다. 장기 기억을 관리하지 못한다. 도구를 사용하지 못한다. 실행 결과를 받아 행동을 조정하지 못한다. 이 모든 기능을 담당하는 것은 LLM 바깥의 구조다. 그리고 이 바깥 구조가 없다면, 아무리 뛰어난 LLM도 실제로는 한두 줄의 답변을 내뱉는 텍스트 기계에 머문다. 뇌만 있는 인간이 완전한 인간이 아니듯, 모델만 있는 AI는 완전한 AI가 아니다.

LLM은 뇌일 뿐이다

LLM을 둘러싼 바깥 구조에는 두 가지 핵심 요소가 있다. 에이전트와 하네스다. 두 용어는 최근 1~2년 사이 AI 업계에서 빠르게 자리 잡았지만, 여전히 일반에게는 낯설다. 개념을 정리하고 넘어갈 필요가 있다.

에이전트는 LLM을 활용해 실제 작업을 수행하는 실체다. 사용자의 요청을 받아 문제를 분해하고, 필요한 정보를 찾고, 도구를 호출하고, 결과를 검토해 다음 단계를 결정한다. 단일 질의응답을 넘어 여러 단계의 행동을 계획하고 실행한다. 사람과 비교하면, 몸을 움직여 환경과 상호작용하는 역할에 해당한다. 하네스는 이 에이전트가 움직이는 기반 시스템이다. 메모리 관리, 컨텍스트 구성, 도구 연결, 실행 환경, 피드백 루프, 안전 장치가 모두 여기에 포함된다. 에이전트가 ‘몸’이라면 하네스는 그 몸을 지탱하고 움직이게 하는 골격과 신경계에 가깝다.

이 구분은 사소해 보이지만 결정적이다. 같은 LLM을 쓰더라도 에이전트와 하네스가 달라지면 결과가 완전히 달라진다. 코드를 작성하는 에이전트에게 파일 시스템, 컴파일러, 디버거, 테스트 러너 같은 도구를 제공하고, 긴 작업 맥락을 체계적으로 관리하는 하네스 위에 올리면, 수 시간짜리 개발 태스크를 혼자 수행한다. 같은 모델을 단순한 챗봇 인터페이스에 연결하면, 그저 짧은 답변을 주고받는 장난감이 된다. 모델은 바뀌지 않았다. 바뀐 것은 바깥 구조다.

최근 개발자 사이에서 빠르게 퍼지고 있는 경험적 관찰이 있다. 비교적 작은 모델이라도 잘 설계된 하네스 위에서 작동하면, 훨씬 큰 모델을 단순한 구조에 얹은 경우보다 더 나은 결과를 낸다는 것이다. 특히 에이전트 기반 코딩 작업에서 이 차이가 극명하게 드러난다. 도구 호출을 안정적으로 처리하고, 에러에서 복구할 수 있으며, 긴 컨텍스트를 체계적으로 관리할 수 있는 하네스가 있으면, 모델이 마치 스스로 반복 학습하듯 성능이 향상된다. 반면 하네스가 빈약하면 최신 모델조차 단순한 질의응답 수준을 넘지 못한다.

왜 이런 현상이 벌어질까. 실제 문제 해결은 단일 추론이 아니기 때문이다. 복잡한 작업은 수많은 작은 판단과 시행착오, 외부 정보의 참조, 중간 결과에 대한 검토로 이루어진다. 인간도 마찬가지다. 수학 문제를 풀 때 우리는 종이에 숫자를 쓰고, 계산기를 쓰고, 풀이를 되짚어 보고, 틀리면 다시 시도한다. 글을 쓸 때도 초안을 쓰고, 고치고, 참고 자료를 찾고, 다시 고친다. 이 모든 행동이 작업 기억, 장기 기억, 도구 사용, 자기 피드백의 결합이다. 뇌 안에서 즉흥적으로 답이 튀어나오는 것이 아니다. 외부 세계와 맺는 수많은 상호작용이 사고를 완성한다.

에이전트와 하네스는 이 상호작용 구조를 AI에 구현한 것이다. 긴 작업을 작은 단위로 쪼개 순차적으로 실행한다. 중간 결과를 저장하고, 필요할 때 꺼내 쓴다. 외부 도구와 API를 호출해 LLM 혼자서는 접근할 수 없는 세계에 손을 뻗는다. 실행 결과를 되읽고 다음 행동을 결정한다. 이 전체 루프가 돌아가야 비로소 ‘지능적 행동’이 가능해진다. 모델만으로는 일어나지 않는 일이다. 사람도 뇌만 있다고 수학 문제를 풀지 못한다. 종이와 연필과 시간이 필요하다.

이 구조적 관점에서 보면, 최근 AI 회사들의 경쟁 방향이 왜 그렇게 형성되고 있는지 이해된다. Anthropic은 Claude 모델 자체만큼이나 Claude Code와 Computer Use 같은 에이전트 도구 개발에 공을 들인다. OpenAI는 Codex, Operator, AgentKit을 통해 모델을 둘러싼 실행 계층을 쌓고 있다. Google은 Gemini와 동시에 Agent Development Kit을 공개하며 같은 방향으로 움직인다. 이들은 모델만 만드는 회사가 아니라, 모델과 에이전트와 하네스를 통합한 시스템 제공자로 자리를 바꾸고 있다. 몇 년 전만 해도 “우리는 최고의 모델을 만든다”가 슬로건이었다면, 지금은 “우리는 최고의 AI 시스템을 만든다”로 바뀌고 있다.

국내 상황도 비슷한 흐름 위에 있다. 여러 한국 AI 기업과 연구팀은 이미 파운데이션 모델 경쟁이 극도로 어렵다는 사실을 체감하고 있다. 거대 모델을 밑바닥부터 훈련하는 일은 수조 원 단위의 자본과 대규모 데이터를 요구하며, 선두와의 격차는 쉽게 좁혀지지 않는다. 그러나 에이전트와 하네스 영역은 상대적으로 열려 있다. 특정 도메인, 특정 워크플로우, 특정 기업의 맥락에 맞게 설계된 에이전트 시스템은 거대 해외 기업이 따라오기 어렵다. 공공기관의 문서 업무, 제조 현장의 품질 관리, 병원의 진료 기록, 법무법인의 계약 검토 같은 영역은 각각 고유한 규칙과 데이터 구조를 가진다. 이 영역을 정확히 이해하고, 맞춤형 에이전트와 하네스를 설계할 수 있는 조직이 최종 사용자에게 가장 큰 가치를 제공한다. 모델은 전 세계의 것이지만, 시스템은 현장의 것이다. 이 차이가 한국 AI 생태계에서 매우 중요한 전략적 의미를 갖는다.

클라우드 운영 자동화를 예로 들어보자. LLM 하나로 AWS 계정을 진단하고 최적화할 수 있는가? 이론적으로는 가능하다. 그러나 실제로는 수백 개의 IAM 정책, 수천 개의 리소스, 수십 개의 서비스별 규칙, 각 기업 고유의 보안 정책과 결합되어야 한다. 이 결합이 하네스다. 하네스가 엉성하면 가장 똑똑한 모델도 엉뚱한 답을 내놓는다. 하네스가 정교하면 상대적으로 작은 모델도 전문가 수준의 판단을 수행한다. 실제 엔터프라이즈 시장에서 경쟁력을 결정하는 것은 모델의 크기가 아니라 이 하네스의 완성도다.

더 큰 모델이 아니라 더 나은 시스템

지난 몇 년간 AI 모델의 성능은 급격히 향상됐지만, 그 향상이 단순한 ‘규모의 확장’에서 비롯된 것은 아니다. 파라미터를 늘리기만 하면 성능이 올라간다는 스케일링 법칙은 일정 구간까지 유효했지만, 최근 경계에 도달했다. 새로운 도약은 구조적 혁신에서 나오고 있다. 그 혁신은 크게 네 갈래로 나뉜다.

첫 번째 축은 메모리 구조의 개선이다. 기존 트랜스포머는 입력된 모든 토큰을 동일한 방식으로 처리했다. 중요한 정보와 사소한 정보가 구별 없이 연산되었고, 컨텍스트가 길어질수록 계산 비용이 제곱으로 늘어났다. 최근 모델들은 중요도 기반 선택, 계층적 메모리, 외부 메모리 연결을 도입하고 있다. 장기 기억과 단기 기억을 구분하고, 관련도가 낮은 정보를 압축하거나 버리며, 필요할 때만 깊은 검색을 수행하는 구조가 점차 표준이 되어가고 있다. 이는 인간의 기억 시스템과 원리가 같다. 모든 것을 균일하게 저장하는 것이 아니라, 중요한 것을 가려내고 나머지를 압축하는 능력이 지능의 핵심이다.

두 번째 축은 추론 과정의 명시화다. 2022년 구글 브레인 팀이 제안한 Chain-of-Thought 기법 이후, 모델이 단계적으로 사고하는 구조가 빠르게 확산되었다. 단일 출력이 아니라, 문제를 쪼개고, 가정을 세우고, 검증하고, 수정하는 연속된 의사결정 흐름을 모델 내부에 구현하는 방향이다. OpenAI의 Thinking 모드, Anthropic Claude의 extended thinking, Google Gemini의 reasoning 모드가 이 흐름의 대표 사례다. 이런 모델은 답을 즉시 내뱉는 대신 ‘생각하는 시간’을 가지며, 그 시간이 길수록 복잡한 문제를 풀 수 있다. 추론은 더 이상 단일 연산이 아니라, 시간이 걸리는 과정으로 재정의되고 있다.

세 번째 축은 구성 요소의 모듈화다. Mixture of Experts 구조는 전체 모델을 한 번에 활성화하지 않는다. 입력마다 가장 적절한 ‘전문가’ 하위 네트워크를 선택해 활용한다. 2026년 4월 공개된 Google Gemma 4 계열에는 26B MoE 모델이 포함되어 있는데, 실제 추론 시 필요한 파라미터만 활성화해 훨씬 작은 메모리로 훨씬 큰 모델 수준의 성능을 낸다. 뇌 역시 비슷한 방식으로 작동한다. 모든 뉴런이 항상 작동하는 것이 아니라, 작업에 따라 다른 영역이 선별적으로 활성화된다. 모듈화는 효율성과 확장성을 동시에 가져다주는 구조이며, 생물학적 지능이 오래 전에 도달한 해답이기도 하다.

네 번째 축은 효율성의 비약적 개선이다. 2026년 3월 Google Research가 공개한 TurboQuant는 LLM의 KV 캐시를 3비트 수준으로 압축하면서도 성능 저하를 거의 보이지 않는 새로운 양자화 기법이다. KV 캐시는 긴 컨텍스트를 처리할 때 메모리를 가장 많이 잡아먹는 구간인데, 이를 3비트로 줄인다는 것은 동일한 하드웨어에서 훨씬 긴 컨텍스트를 처리할 수 있고 배치 처리량이 대폭 향상된다는 뜻이다. 계산 효율이 개선되면 같은 시간에 더 많은 반복, 더 깊은 추론, 더 긴 컨텍스트가 가능해진다. 곧, 시스템이 ‘사고할 수 있는 여유’가 커진다. 효율성은 단순히 비용을 줄이는 요소가 아니라, 지능 자체의 밀도를 결정하는 요소다.

여기까지가 ‘뇌’의 진화다. 그러나 뇌의 진화가 어느 지점을 넘어서면, 진짜 문제는 뇌 바깥에서 시작된다. 이 흐름의 극단적 사례가 바로 최근 한 편의 발표에서 모습을 드러냈다.

2026년 4월 7일, Anthropic은 자사 최신 모델 Mythos를 공개하면서 동시에 ‘일반에는 공개하지 않는다’고 선언했다. 차세대 GPU로 훈련된 이 모델은 시니어 소프트웨어 엔지니어처럼 작동하며, 소프트웨어의 미묘한 버그를 발견하고 스스로 수정한다. 2026년 미국 수학올림피아드 USAMO 벤치마크에서 이전 세대 Opus 4.6보다 31퍼센트포인트 높은 점수를 기록했다. 문제는 이 능력이 방어에도 공격에도 사용될 수 있다는 점이었다. 특히 사이버보안 영역에서 Mythos는 양날의 도구였다. 그대로 풀어놓을 경우, 공격자 손에도 같은 칼이 쥐어진다.

Anthropic의 해법은 흥미로웠다. 공개하지 않되, 소수 대형 기관에만 방어 목적으로 제공하는 ‘Project Glasswing’ 프로그램을 가동했다. 초기 참여자는 Microsoft, Google, Apple, AWS, JPMorgan Chase, Nvidia 같은 최상위 기업들이다. 이들은 Mythos를 자신의 네트워크 방어에 활용해, 공격자가 같은 능력을 손에 쥐기 전에 먼저 취약점을 찾아 메우는 구조다. 같은 시기에 Anthropic은 일반 사용자용 Claude Opus 4.7을 별도의 제품군으로 공개했다. 같은 회사의 같은 계열 모델이지만, 하나는 특정 기관에만 통제된 조건으로 제공되고, 다른 하나는 공개된다. 모델의 성능이 아니라 배포 구조가 제품 라인을 가르는 기준이 된 셈이다.

이 이중 발표는 AI 산업의 무게중심이 어디로 이동했는지를 선명하게 보여준다. 지금 중요한 것은 ‘가장 강력한 모델을 만드는 것’만이 아니다. 강력한 모델이 만들어졌을 때 어떤 시스템 구조 안에 둘 것인가, 누구에게 어떤 목적으로 접근권을 줄 것인가, 어떤 안전 장치와 함께 배포할 것인가가 모델 자체만큼이나 중요해졌다. Mythos는 ‘뇌가 너무 강력해지면 몸과 환경을 신중하게 골라야 한다’는 원리를 극단적으로 보여준다. 충분히 강력해진 모델은 더 이상 혼자서 세상에 나갈 수 없다. 반드시 시스템으로서 설계되어야 한다.

이 사례는 또 다른 각도에서도 의미심장하다. Mythos 자체는 대중에게 접근되지 않지만, 그 능력은 Project Glasswing이라는 에이전트·하네스 구조를 통해 실제 경제와 안보에 영향을 미치고 있다. 독일 은행들은 당국과 사이버 전문가 자문을 받기 시작했고, 영국 중앙은행은 AI 리스크 평가를 강화했으며, 유럽연합은 Mythos를 직접 검토할 수 없는 입장에 놓였다. 미국 정부는 블랙리스트 논쟁과는 별개로 연방기관에 Mythos 접근권을 제공하는 방안을 논의 중이다. 모델 자체보다 ‘모델이 어떻게 배포되는가’가 국가 안보 의제로 올라왔다는 사실 자체가 시대의 전환을 증명한다. 몇 년 전만 해도 상상하기 어려운 풍경이었다.

이 모든 흐름을 관통하는 한 가지 요소가 더 있다. 목적 함수다. 같은 모델, 같은 에이전트, 같은 하네스를 갖추더라도, 무엇을 최적화하도록 설정하느냐에 따라 시스템은 완전히 다른 행동을 보인다. 생명체가 생존을 중심 목적으로 진화해 지금의 모습이 되었듯, 인공지능도 설정된 목표에 따라 정렬된다. 에이전트에게 ‘빠른 답변’을 목적으로 주면 피상적인 응답을 반복한다. ‘정확한 답변’을 목적으로 주면 더 오래 생각한다. ‘사용자의 장기적 이익’을 목적으로 주면, 단기적으로 듣기 좋은 답변보다 진실에 가까운 답변을 선택한다. Mythos 사례에서 Anthropic이 택한 목적 함수는 ‘모델의 유용성 극대화’가 아니라 ‘사회적 위험의 통제’였다. 같은 모델이 다른 목적 함수 아래 놓였다면 완전히 다른 방식으로 배포되었을 것이다. 목적 함수는 알고리즘보다 상위에 있는 설계 요소이며, 시스템의 성격을 최종적으로 결정한다.

이 지점에서 처음의 질문으로 돌아온다. 지능은 어디에 있는가. 뇌에만 있지 않다. 모델에만 있지 않다. 지능은 내부 모델과, 그 모델을 사용하는 실행 구조와, 외부 세계와의 상호작용, 그리고 그 전체를 조율하는 목적이 결합된 시스템 안에 있다. 인간의 경우 뇌, 신체, 신경계, 호르몬, 환경, 사회적 관계, 가치관이 결합된 구조다. 인공지능의 경우 모델, 에이전트, 하네스, 도구, 외부 환경, 목적 함수가 결합된 구조다. 둘은 놀라울 만큼 유사한 구성 원리를 따른다.

앞으로의 기술 경쟁은 더 큰 모델을 누가 먼저 만드는가로 결정되지 않는다. 이미 그 경쟁의 승자는 대체로 정해졌고, 그 승자조차 이제 자원을 다른 축으로 옮기고 있다. Mythos가 선언한 것이 바로 그 전환점이다. 가장 강력한 모델을 가진 회사조차 이제는 ‘모델 그 자체’가 아니라 ‘모델을 어떤 시스템으로 감쌀 것인가’를 제품의 본질로 삼고 있다. 진짜 경쟁은 ‘누가 더 나은 시스템을 설계하는가’에 있다. 어떤 도메인에 맞는 에이전트를 만들 것인가. 그 에이전트에게 어떤 하네스를 입힐 것인가. 어떤 도구와 연결할 것인가. 어떤 목적 함수로 정렬할 것인가. 이 질문들에 답하는 능력이 앞으로의 AI 경쟁력을 결정한다. 그리고 이 질문들은 거대 자본만의 것이 아니다. 현장의 문제를 깊이 이해하고, 그에 맞는 시스템을 설계할 수 있는 작은 조직도 충분히 뛰어들 수 있는 영역이다. 오히려 현장의 맥락을 가진 조직이 유리한 영역이기도 하다.

라이트 형제가 하늘을 연 것은 더 강력한 엔진 때문이 아니었다. 양력과 조종과 추진을 하나의 시스템으로 통합한 설계 때문이었다. 그들의 플라이어에 달린 엔진은 당시 자동차 엔진보다도 가벼웠고 출력도 높지 않았다. 그러나 시스템이 완성되어 있었기에 그 작은 엔진으로도 하늘에 올랐다. 지금 AI도 같은 자리에 서 있다. 모델은 엔진이다. 엔진은 중요하지만 엔진만으로는 날지 못한다. 심지어 Mythos처럼 엔진이 너무 강력해지면, 오히려 그 엔진을 어떤 기체에 얹을 것인지가 더 어려운 문제가 된다. 하늘로 오르는 것은 시스템이고, 그 시스템을 누가 가장 정교하게 설계하느냐가 다음 시대의 방향을 결정한다. 지능이 뇌만의 것이 아니었던 것처럼, AI도 모델만의 것이 아니다. 이 단순한 사실이 앞으로의 모든 전략을 가를 것이다.

참고 자료