엔트로피에서 AI까지, 우주를 관통하는 하나의 원리

박문호 박사의 강의를 들었다. N차원 구의 부피 공식에서 출발하여 이상기체 방정식, 엔트로피, 시간의 방향까지를 하나의 흐름으로 유도하는 강의였다. 개별 지식을 나열하는 것이 아니라, 하나의 원리에서 출발해 세계의 작동 방식을 통째로 보여주는 종류의 강의였다. 듣고 나면 세상이 다르게 보이는, 사고의 프레임 자체가 바뀌는 경험이었다. 그 흐름의 출발점에 수식 하나가 있었다.
\[S = k \log W\]엔트로피 $S$는 볼츠만 상수 $k$에 미시 상태의 수 $W$의 로그를 곱한 것이다. 이 한 줄이 우주가 왜 이렇게 생겼는지, 시간이 왜 앞으로만 흐르는지, 깨진 컵이 왜 저절로 붙지 않는지를 설명한다. 그런데 이 수식에는 비극적인 이야기가 붙어 있다.
1906년 9월 5일, 아드리아해가 내려다보이는 이탈리아 두이노의 한 호텔. 가족이 바다에서 수영하는 동안, 62세의 오스트리아 물리학자 루트비히 볼츠만은 창틀에 짧은 줄을 묶었다. 열다섯 살 딸 에바가 그를 발견했다. 그녀는 평생 그날의 일을 입에 담지 않았다.
볼츠만은 원자의 존재를 믿었다. 지금은 상식이지만, 19세기 말에는 그렇지 않았다. 마하의 수에 이름을 남긴 에른스트 마하는 원자의 실재를 허구라 일축했고, 에너지론을 주창한 빌헬름 오스트발트는 볼츠만의 통계역학을 정면으로 부정했다. 볼츠만은 수십 년을 싸웠다. 천식, 편두통, 악화되는 시력, 그리고 점점 깊어지는 우울. 그는 자신이 옳다는 것이 증명되기 직전에 세상을 떠났다. 불과 몇 년 뒤, 장 바티스트 페랭이 브라운 운동 실험으로 원자의 존재를 확정적으로 입증했다.
빈 중앙묘지에 있는 볼츠만의 묘비에는 꽃도, 긴 비문도 없다. 흉상 위에 저 수식 하나만 새겨져 있다. 볼츠만이 직접 남긴 것이 아니다. 1930년대에 그의 업적이 완전히 인정된 후, 후대가 새겨 돌려준 것이다. 평생 지키려 했지만 인정받지 못한 생각을, 세상이 마침내 돌에 새긴 것이다.
강의를 따라가다 보니, 이 수식이 설명하는 것이 열역학에서 끝나지 않는다는 생각이 들었다. 상태의 풍요로움, 관계에서 태어나는 정보, 고차원에서 벌어지는 일. 이것은 AI가 왜 작동하는지를 설명하는 언어이기도 했다. 같은 수학적 구조가, 우주의 팽창과 LLM의 작동 원리를 동시에 관통하고 있었다.
이 글은 그 깨달음을 확장하여 정리한 것이다. 물리학의 원리가 AI에서 어떻게 반복되는지를, 하나의 흐름으로 따라가본다.
정보는 데이터에 있지 않다
데이터베이스를 설계해본 사람이라면 이 상황을 안다. ‘차량’ 테이블이 있고 ‘사람’ 테이블이 있다. 차량번호, 모델, 연식. 이름, 나이, 주소. 각각의 테이블에 데이터가 쌓여 있다. 그런데 이것만으로는 아무런 의미가 없다.
“2026년 3월, 아무개가 소유한 12가 3478 제네시스가 보험을 120만원에 구매하였다.”
이 문장이 생기는 순간 비로소 정보가 태어난다. 차와 사람 사이의 관계에서, 시간이라는 맥락을 더한 그 지점에서 정보가 출현한다. 차 데이터도 아니고, 사람 데이터도 아니다. 둘 사이의 상호작용이 정보의 본질이다. 개발자라면 SQL의 JOIN을 떠올리면 된다. 두 테이블을 연결하는 그 순간에 의미가 생성된다.
여기서 흥미로운 사실이 하나 따라온다. 관계에서 태어난 정보는 지우기가 놀랍게 어렵다는 것이다. 데이터베이스에서 레코드를 “삭제”할 때, 실제로 물리적으로 지우지 않는 경우가 많다. 삭제 플래그만 세우는 소프트 삭제다. 정보를 누적하는 것보다 완전히 지우는 것이 훨씬 비용이 크기 때문이다. 포렌식 복원이 가능한 이유가 이것이다.
이것은 단순한 기술적 선택이 아니다. 우주의 근본 원리와 닿아 있다.
볼츠만의 $S = k \log W$에서 $W$는 미시 상태의 수다. 서울 아침 7시 영하 10도라는 조건을 만족하는 공기 분자 배치의 경우의 수 전체다. 그 어마어마한 숫자에 로그를 취한 것이 엔트로피다. 입자들이 만나고 상호작용할 때마다 새로운 상관관계가 생기고, 가능한 상태의 수 $W$가 늘어나며, 엔트로피 $S$가 증가한다.
핵심을 짚어야 한다. 엔트로피를 “무질서의 증가”로 배운 사람이 많을 것이다. 하지만 이 표현은 오해를 부른다. 엔트로피가 실제로 말하는 것은 상태의 풍요로움이다. 방이 어질러지는 것은 “정돈된 상태”보다 “어질러진 상태”의 가짓수가 압도적으로 많기 때문이지, 우주가 무질서를 좋아해서가 아니다.
DB에서 관계가 정보를 만들듯, 물리적 세계에서도 상호작용이 정보를 만든다. 그리고 두 세계 모두에서, 한번 만들어진 정보는 지우기 어렵다.
“허공에 대고도 욕하지 마라. 정보는 영원히 우주에 남아 있다.” — 박문호 박사
우주는 왜 커져야 하는가
여기서 이야기는 고차원 기하학으로 넘어간다. 박문호 박사의 강의에서 가장 인상적이었던 대목이다.
N차원 구에서 “반지름의 절반 안에” 있는 부피의 비율을 계산해보면 놀라운 결과가 나온다. 2차원(원)에서는 안쪽에 전체의 1/4이 있다. 3차원(구)에서는 1/8. 10차원이 되면 1/1024. 100차원이면 사실상 0이다.
\[\left(\frac{1}{2}\right)^N \to 0 \quad (N \to \infty)\]차원이 올라갈수록 안쪽은 텅 비고, 모든 부피가 표면 근처의 얇은 껍질에 집중된다. 3차원 오렌지는 과육이 두껍다. 하지만 100차원 오렌지라면 거의 모든 부피가 껍질에만 있고 안쪽은 빈 공간이나 마찬가지다.
N차원 반지름 $r$인 구의 부피 공식은 다음과 같다.
\[V_N(r) = \frac{\pi^{N/2}}{\Gamma\left(\frac{N}{2}+1\right)} r^N\]이 공식을 볼츠만의 엔트로피 공식에 대입하면, 놀랍게도 고등학교에서 배운 이상기체 방정식 $PV = Nk_BT$가 자동으로 유도된다. 박문호 박사의 표현을 빌리면, “별 속의 물리학은 이 공식 하나로 거의 다 끝난다.”
그런데 이것이 시간의 방향과 무슨 관계가 있는가?
우주를 하나의 거대한 고차원 공간으로 생각해보자. 입자들이 만나고 상호작용할 때마다 정보(상관관계)가 생성된다. 이 정보를 담으려면 상태 공간이 커져야 한다. 상태 공간이 커진다는 것은 이 고차원 구의 반지름이 커진다는 것이다.
반지름이 커지는 방향이 미래다.
“시간이란 뭐냐? 반지름이 커가는 방향이 미래일 뿐인 거예요.” — 박문호 박사
시의 언어처럼 들리지만, 수학적으로 정확한 서술이다. 엔트로피가 증가한다는 것은 $W$가 늘어난다는 것이고, 상태를 담는 공간이 커진다는 것이며, 이것이 시간이 앞으로 흐르는 이유다. 고차원에서 부피가 껍질로 몰리기 때문에 새로운 상태가 생길 수 있는 자리는 표면 근처뿐이다. 그래서 우주는 계속 표면을 늘려야 하고, 표면이 늘어나려면 반지름이 커져야 한다. 멈출 수가 없다.
유튜브는 되감는데, 우주는 왜 안 되는가
유튜브 영상은 되감을 수 있다. 3분 전으로, 처음으로 돌아갈 수 있다. 마치 시간을 역행하는 것처럼 보인다. 왜 가능할까?
우리가 그 영상의 바깥에 서 있기 때문이다. 모든 프레임이 외부 저장소에 완벽하게 기록되어 있다. 영상 속 세계는 작고 닫혀 있으며, 우리는 그 세계의 전체 상태를 통제할 수 있다. 이것이 시뮬레이션이다. 외부 관찰자가 전체 상태를 조망하고 되감을 수 있는 닫힌 체계.
실제 우주는 다르다. 우리 자신이 우주 안에 있다. 전체 상태를 기록할 “바깥”이 없다. 되감기 버튼을 누를 관찰자가 존재하지 않는다.
그런데 이 직관적 설명 너머에 더 정량적인 이유가 있다. 1961년, IBM의 물리학자 롤프 란다우어가 증명한 것이다. 정보 1비트를 지우는 데 최소한의 에너지가 반드시 필요하다.
\[E_{\min} = k_B T \ln 2\]상온(300K)에서 약 $2.9 \times 10^{-21}$ 줄. 일상적 기준으로는 상상할 수 없이 작다. 하지만 이 원리 자체는 양보가 없다. 1비트를 지우면 반드시 이만큼의 에너지가 열로 방출된다. 이것은 공학적 한계가 아니라 물리적 법칙이다.
란다우어가 이 원리를 제안했을 때 많은 물리학자들이 의심했다. 의심은 반세기를 넘겨 2012년까지 이어졌다. 프랑스 리옹 고등사범학교의 앙투안 베뤼 연구팀이 Nature에 실험 결과를 발표했다. 광학 핀셋으로 잡은 콜로이드 입자 하나로 1비트 메모리를 구성하고, 그 비트를 지울 때 방출되는 열을 측정한 것이다. 결과는 란다우어의 예측과 정확히 일치했다.
이제 우주를 되감는 시나리오를 생각해보자. 모든 입자의 상태를 역방향으로 되돌리려면, 우주에 생성된 모든 정보를 지워야 한다. 관측 가능한 우주의 총 엔트로피는 대략 $10^{88}$ 볼츠만 상수 단위에 이른다. 이를 되돌리는 데 필요한 에너지는 우주 전체의 에너지를 몇 배 초과한다. 물리적으로 절대 불가능하다.
그런데 되감을 수 없는 우주 안에서도 되감기가 되는 것들이 있다. 유튜브, 비행 시뮬레이터, 기상 예측 모델. 이들의 공통점은 “바깥이 있는 작은 우주”라는 것이다. 비행 시뮬레이터는 대기의 모든 분자를 계산하지 않는다. 하지만 양력, 항력, 레이놀즈 수라는 핵심 법칙만 충실하게 구현하면, NASA가 우주비행사를 훈련시킬 수 있는 수준의 결과를 낸다.
우주 전체를 되감을 수는 없지만, 핵심 법칙을 이해하면 작동하는 축소판을 만들 수 있다. 때로는 그 축소판을 통해 역으로 우주의 비밀을 알게 된다. 블랙홀 충돌의 중력파 파형을 수치 시뮬레이션으로 먼저 예측하고, 나중에 LIGO가 실제로 관측한 것이 대표적인 사례다.
이 원리가 AI에서 어떻게 반복되는지가, 다음 이야기이다.
LLM은 왜 똑똑한가
앞서 세 가지 이야기를 했다. 정보는 관계에서 태어난다. 고차원에서 부피는 껍질로 몰린다. 작은 우주는 큰 우주의 핵심을 시뮬레이션할 수 있다. 이 세 가지가 모두 AI에서 반복된다.
GPT-4, Claude 같은 대규모 언어 모델(LLM)은 고차원 공간에서 작동한다. 얼마나 높은 차원일까? GPT-3의 내부 임베딩 차원은 12,288차원이다. GPT-4는 공식적으로 공개되지 않았지만 그 이상으로 추정된다. OpenAI의 최신 임베딩 모델은 3,072차원, 오픈소스 모델들도 대부분 4,096차원 이상에서 작동한다. “임베딩”이란 단어나 문장을 이 고차원 공간의 점으로 변환한 것이다. 비슷한 의미는 가까운 점, 다른 의미는 먼 점으로 표현된다.
앞서 N차원 구에서 부피가 껍질로 몰리는 현상을 이야기했다. 10차원만 되어도 안쪽 부피가 1/1024로 줄어든다고 했다. 그런데 LLM은 12,000차원에서 작동한다. $(1/2)^{12000}$이 얼마인지 계산할 필요도 없다. 사실상 모든 점이 표면 위에 있다. N차원 구에서 일어나는 이 현상이, LLM의 고차원 공간에서도 그대로 작동한다. 저차원에서 뒤섞여 구분이 안 되던 패턴들이, 이 극단적인 고차원에서는 자연스럽게 분리된다. 부피가 껍질로 몰리면서 점들이 분산되기 때문이다.
비유하자면 이렇다. 좁은 교실에 30명이 모여 있으면 누가 어느 그룹인지 알기 어렵다. 같은 30명을 축구 경기장에 풀어놓으면 같은 팀끼리 자연스럽게 모이고, 그룹이 눈에 들어온다. 12,000차원 공간은 이 경기장을 상상할 수 없을 만큼 넓히는 것과 같다. “사랑”과 “애정”은 가까이, “사랑”과 “증오”는 멀리, “사랑”과 “양자역학”은 완전히 다른 방향에 위치한다. 이런 미세한 의미 차이가 수만 차원의 각도와 거리로 표현된다.
이것은 볼츠만이 말한 “상태의 풍요로움”과 같은 구조다. 차원이 높아질수록 상태 공간이 기하급수적으로 풍부해지고, 그 풍부함 속에서 패턴이 선명하게 드러난다.
LLM의 핵심 메커니즘인 어텐션(Attention)은 “관계에서 정보가 태어난다”는 원리를 수식으로 구현한 것이다.
\[\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right) V\]아이디어는 단순하다. 문장의 모든 단어 쌍에 대해 “이 둘이 얼마나 관련 있는가”를 계산하고, 그 관련도에 따라 정보를 가중 집계한다. DB에서 두 테이블을 JOIN하여 관계에서 의미를 뽑아내는 것과 본질적으로 같다. 단어 하나의 임베딩만으로는 의미가 불완전하다. 다른 단어들과의 관계가 주어질 때 비로소 문맥적 의미가 완성된다.
“나는 은행에 갔다”에서 “은행”이 금융기관인지 은행나무 열매를 줍는 곳인지는, “은행” 하나만 봐서는 알 수 없다. 앞뒤 단어들과의 관계를 계산해야 의미가 결정된다. 2017년 구글의 바스와니 연구팀이 발표한 트랜스포머 아키텍처가 혁명적인 이유가 이것이다. 이전 모델들은 단어를 순서대로 하나씩 처리하느라 긴 문장의 앞 맥락을 잊어버렸다. 트랜스포머는 모든 단어를 동시에 보면서, 관계의 그물을 한 번에 짠다.
여기에 하나가 더 있다. 2025년 1월 딥시크(DeepSeek)가 발표한 R1 모델은, 총 6710억(671B) 파라미터의 거대 모델이 배운 추론 능력을 70억(7B) 파라미터의 작은 모델에 전달하는 데 성공했다. 파라미터 수로는 1%에 불과한 작은 모델이 수학 문제 풀이(MATH-500)에서 92.8%의 정확도를 기록했다.
어떻게 가능한가? 비행 시뮬레이터를 다시 떠올려보자. 대기의 모든 분자를 계산하지 않아도, 공기역학의 핵심 법칙만 구현하면 실전과 같은 훈련 효과를 낸다. 지식 증류(Knowledge Distillation)가 정확히 이것이다.
671B의 교사 모델은 “실제 우주”다. 방대한 텍스트에서 학습한 거의 완전한 표현을 가지고 있다. 7B의 학생 모델은 “시뮬레이션”이다. 교사의 모든 내부 구조를 재현할 수는 없지만, 교사가 보여주는 확률 분포의 패턴을 학습하면 교사의 지식 구조를 시뮬레이션할 수 있다. 80만 개의 정교하게 선별된 추론 데이터가, 비행 시뮬레이터의 양력 공식 역할을 한다.
물리학에서는 이와 비슷한 현상을 홀로그래픽 원리라고 부른다. 홀로그램 필름은 2차원이지만 3차원 영상의 모든 정보를 인코딩하고 있다. 고차원 공간의 정보가 저차원 경계면에 담길 수 있다는 원리다. 큰 모델이 발견한 개념들의 관계 구조가, 작은 모델에게 지도처럼 전달된다.
우주와 시뮬레이션. 교사와 학생. 원본과 홀로그램. 같은 원리가, 규모만 바꿔서, 반복된다.
하나의 원리가 관통한다
이 모든 이야기는 하나의 테마를 반복하고 있었다.
정보는 관계에서 태어나고, 비국소적이며, 지우기 어렵다.
우주에서 입자들이 만날 때마다 정보가 생성되고, 이 정보를 담으려면 공간이 커져야 한다. 그래서 우주는 팽창하고, 시간은 앞으로 흐른다. 한번 생성된 정보를 지우려면 에너지가 필요하고, 우주 전체의 정보를 되돌리는 것은 불가능하다. 시간은 되돌릴 수 없다.
AI에서도 같은 원리가 작동한다. 12,000차원 공간에서 상태의 풍요로움이 커지고, 그 풍부한 공간에서 패턴이 분리된다. 단어가 아니라 단어들 사이의 관계에서 의미가 만들어진다. 고차원의 지식은 저차원으로 압축될 수 있다.
데이터베이스에서 정보는 테이블에 있지 않고 관계에 있다. 우주에서 정보는 입자에 있지 않고 상호작용에 있다. LLM에서 정보는 가중치에 있지 않고 가중치들 사이의 패턴에 있다. 같은 이야기다.
볼츠만은 이것을 알았다. 원자가 실재하고, 그 원자들의 통계적 상호작용이 우주의 거시적 법칙을 만든다는 것을. 하지만 세상은 그를 믿지 않았고, 그는 증명 직전에 떠났다.
그가 살아서 5년만 더 버텼다면 페랭의 실험을 보았을 것이다. 50년을 더 살았다면 란다우어가 정보와 열역학을 잇는 것을 보았을 것이다. 120년을 더 살았다면, 자신의 수식이 설명하는 고차원 상태 공간에서 기계가 인간의 언어를 이해하기 시작하는 것을 보았을 것이다. 볼츠만의 수식 하나가, 그가 상상하지 못한 무대 위에서 여전히 작동하고 있다.
묘비에 새겨진 $S = k \log W$. 이 수식은 120년 전에 돌에 새겨졌지만, 지금 이 순간에도 우주를 팽창시키고 있고, 12,000차원의 임베딩 공간에서 “사랑”과 “애정”을 가까운 점으로 배치하고 있으며, 671B 모델의 지식을 7B 모델에 압축하고 있다. 한 사람이 평생 지키려 했던 생각이, 그가 떠난 뒤에 우주와 AI를 동시에 설명하는 원리가 되었다.
LLM이 왜 작동하는가는 더 이상 마법이 아니다. 우주가 왜 팽창하는가와 같은 원리의, 다른 무대일 뿐이다.