AI 반도체 전환기, 한국의 기회

구글이 Gemini 3.0을 TPU로 전량 학습했다는 발표는 AI 반도체 시장에서 의미 있는 신호탄이다. 겉으로 보기에는 단순히 칩을 교체한 것에 불과하지만, 이는 시장 구조 전체를 흔드는 무거운 신호로 해석할 수 있다. 엔비디아 GPU가 사실상 독점하던 AI 학습 인프라에서 TPU라는 대안이 실제 프로덕션 환경에서 검증되었다는 점, 그리고 메타와 앤트로픽 같은 빅테크 기업들도 TPU 도입을 검토 중이라는 점에서 변화의 조짐이 뚜렷하다.
엔비디아의 절대적 해자는 성능이 아니라 CUDA였다. CUDA는 단순한 소프트웨어 스택이 아니라 AI 인프라의 언어에 가까운 존재이다. 모든 AI 프레임워크가 CUDA 기반으로 설계되어 있고, 대부분의 라이브러리와 최적화 도구가 CUDA 위에서 동작한다. GPU 코드를 손대지 않아도 돌아가게 해주는 이 거대한 생태계가 엔비디아의 진정한 경쟁력이었다. 그러나 지금 처음으로 구조적 흔들림이 발생하고 있다. 구글 내부에서는 이미 PyTorch와 JAX에서 XLA를 거쳐 TPU 코드로 전달되는 파이프라인이 운영되고 있으며, 이 구조 중간에 CUDA가 없다.
많은 사람들이 오해하는 부분이 있다. 현재 LLM의 속도가 느린 이유는 연산 능력이 부족해서가 아니다. H100, H200, B200, TPU v7 등 최신 가속기의 연산력 자체는 인간이 체감할 수 없는 수준까지 올라가 있다. 진짜 병목은 메모리이다. LLM 추론 시간의 80%에서 95%는 데이터를 가져오는 데 소요된다. AI 모델의 파라미터가 아무리 많아도 실제로 연산기가 하는 일은 제한적이다. 모델 파라미터가 HBM에 저장되어 있으면 필요할 때마다 그곳에서 파라미터를 불러와야 한다. 캐시 메모리에 모두 들어가지 않기 때문이다. 연산 로직은 병렬로 실행되지만 메모리 병목은 순차적으로 처리된다. 결과적으로 LLM 시대에는 연산력(FLOPS)은 남아돌고 메모리 대역폭이 막히는 현상이 발생한다.
이 문제를 해결하기 위해 HBM이라는 특수한 메모리가 등장했다. 후공정 패키징 기술로 메모리를 수직으로 적층하고, 층층마다 데이터 통로를 두는 방식이다. 기존 10개 수준이던 통로를 HBM3부터는 1,024개, HBM4에서는 2,048개까지 늘리면서 대역폭을 극대화하고 있다. 결국 현재 AI의 성능 한계는 계산이 느린 것이 아니라 데이터가 빠르게 움직이지 못해서 발생하는 것이다.
GPU는 본래 그래픽 렌더링부터 과학 연산까지 다양한 워크로드를 처리하도록 설계된 범용 장치이다. AI 시대에 들어오면서 텐서코어와 트랜스포머 엔진 등을 추가해 점차 NPU 구조를 하이브리드로 채택하고 있지만, 여전히 데이터 흐름이 복잡하고 계층도 여러 가지가 존재한다. 그러나 LLM을 예시로 보면 그렇게 복잡한 연산을 하지 않는다. 심지어 LLM의 구조는 점점 단순해지고 있다. 거의 대부분이 행렬 또는 벡터 연산으로 커버가 가능하다. 이러한 상황에서 TPU와 같은 NPU가 다시 주목받게 된 것이다. 이 말은 곧 아키텍처 자체를 메모리 중심으로 다시 설계해야 한다는 뜻이다. 여기서 TPU, NPU 같은 ASIC 목적형 칩이 갖는 의미가 생겨난다.
효율 전쟁의 시대와 한국 NPU 생태계
AI 시장의 경쟁 기준이 바뀌고 있다. 과거에는 누가 더 큰 모델을 만들었느냐가 승부의 기준이었다면, 이제는 완전히 다른 국면으로 접어들었다. 엔비디아의 매출총이익률이 70%대에 달하는 상황에서 GPU는 여전히 쇼티지 상태이다. 데이터센터를 무작정 건설하는 것도 전력 부족과 냉각 한계라는 물리적 제약에 직면하고 있다.
이제 학습이 아닌 실제 AI 서비스를 통해 비즈니스를 하려는 수많은 기업들이 등장하는 상황에서 추론 비용이 AI 사용량에 비례해서 폭증하고 있다. 기업별로 LLM 비용이 전체 서비스 비용의 70%에서 90%를 차지하는 상황에서, AI를 구동하는 비용 자체를 줄이면 곧 기업의 이익이 된다. 많은 기업들이 이제 이런 말을 하기 시작한다. “GPT-5가 아니라 우리 회사에 최적화된 20B에서 70B 정도의 모델만 잘 돌아가면 된다.” AI가 사용되는 모든 곳에 프론티어 모델을 돌리는 것이 필요한 것이 아니라, 이제 용도에 따라 작은 모델을 활용하기도 하고, 그 작은 모델조차도 1년 전에 나온 프론티어 모델의 성능을 내는 상황이 되었다. 이렇게 되면 범용 GPU보다 맞춤형 전용 가속기인 NPU로 비용을 줄이면서도 충분한 AI 기반 사업이 가능해지는 것이다.
한국의 NPU 기업들이 정확히 이 전환점에 포지션을 잡고 있다. 퓨리오사AI는 LLM용 고효율 NPU에 집중하는 회사이다. 대표 제품인 RENEGADE는 대형 언어 모델을 빠르게 돌리기 위해 GPU처럼 범용 기능을 잔뜩 넣는 대신, 메모리 계층과 데이터 흐름을 LLM 추론 과정에 맞게 재배치한 구조로 설계되어 있다. LG AI 연구원의 엑사원과 공동으로 연구하며 상용화 계획을 발표했고, 2025년 LG AI 토크 콘서트에서는 RENEGADE X1 패키지의 B2B 상용화 계획이 공개되기도 했다. 2025년 초 메타의 인수 검토 소식으로 기술력을 전 세계적으로 인정받았으나, 퓨리오사AI는 독자적 성장 노선을 선택하여 국산 LLM과 국산 NPU 조합을 실전에서 만들어가고 있다.
리벨리온은 국내 NPU 팹리스 중에서도 SK텔레콤의 실제 데이터센터에 투입되어 상용 서비스에 쓰이고 있다는 점이 가장 눈에 띈다. 데이터센터용 NPU인 ATOM이 SK텔레콤의 에이닷 콜 요약, 패스 스팸 필터링, 금융 어시스턴트, 엑스레이 진화 서비스 같은 곳에 시범 적용되면서 국산 LLM과 국산 NPU 인프라 자립률을 높이는 시나리오의 핵심축을 맡고 있다. 차세대 칩인 REBEL QUAD는 304 TOPS와 144GB의 HBM3e를 사용하는 UCIe 칩렛 구조를 제공하며, 수십억에서 수백억 파라미터급 모델을 감당한다. 리벨리온 공식 발표에 따르면 H200 대비 전성비(전력 대비 성능)가 2.4배 높고 전력 소모는 절반 수준이다. 사피온코리아와의 합병으로 SKT, SK하이닉스, KT, 삼성 등 국내 메이저 플레이어들의 전략적 투자를 받으면서 국내 소버린 AI 인프라를 만드는 핵심 NPU 유니콘 포지션까지 확보한 상태이다.
하이퍼액셀은 아예 LLM 추론 하나만 빠르게 하는 칩을 목표로 설계하는 회사이다. LLM의 병목이 계산이 아니라 메모리 대역폭이라는 점을 완전히 전제로 두고 그 병목을 정면으로 돌파하는 방향으로 아키텍처를 설계했다. 가장 큰 차별점은 HBM 없이 LPDDR 기반으로 아키텍처를 짰다는 점이다. 토큰 생성 과정 전체를 하나의 데이터 플로우로 엮어 모델이 요구하는 메모리 접근 패턴 자체를 최소화하는 구조를 택했다. 이를 하이퍼액셀은 LPU(LLM Processing Unit)라고 부른다. 현재는 FPGA 기반 LPU 클라우드를 이미 운영 중이고, 차세대 실리콘으로 넘어가는 단계에 있다.
엣지 영역에서는 모빌린트가 온디바이스와 엣지단 AI 애플리케이션에 초점을 맞추고 있다. AI PC, 스마트 가전, 보안 카메라, 엣지 서버처럼 중앙 데이터센터 대신 현장 단말기 같은 엣지 장치의 AI를 담당하는 영역을 노리고 있다. LG사이언스파크와 협력하여 스마트 가전이나 로봇 기반 AI 적용 가능성을 실험하고 있다. 딥엑스는 로봇, 드론, 산업 기기 수행용 NPU에 특화된 초저전력 NPU 전문 기업이다. 대표 제품인 DXM 시리즈는 수 와트 수준의 전력만으로 수십 TOPS의 성능을 내기 때문에 배터리 기반 로봇, 드론, 서비스 로봇에 넣기 적합한 구조로 설계되어 있다. 차세대 DXM2는 삼성 2나노 공정을 목표로 5W 이내에서 더 큰 트랜스포머 모델까지 돌리는 것을 목표로 하고 있어서, 로봇 안에서 LLM을 돌리는 초저전력 AI 칩을 지향한다.
한국의 독특한 포지션과 로봇 시대의 저전력 AI
한국은 세계에서 매우 특이한 위치에 있는 국가이다. 전 세계적으로 거의 유일하게 국산 LLM 개발사(LG, 카카오, 네이버 등), 국산 NPU 개발사(앞서 소개한 기업들 외에도 다수), 즉시 실증 가능한 산업군(통신, 가전, 로봇, 금융, 제조 등), 그리고 세계 최고 수준의 메모리 반도체 기업(삼성전자, SK하이닉스)이 한 나라에 물리적으로 모여 있다.
일반적으로 AI를 이야기할 때 모델은 미국, 칩은 대만에서 만들고, 서버는 유럽에 설치하고, 실증은 일본에서 하는 식으로 흩어져 있어서 반복 실험 루프가 오래 걸린다는 단점이 있다. 그러나 한국의 이런 산업 구조는 다른 나라에서 찾아보기 힘든 매우 특수한 경쟁력으로 평가받고 있다. CUDA가 모델-하드웨어 공동 진화의 언어인 것과 같이, 한국은 국산 LLM과 국산 NPU 공동 진화의 언어를 만들 수 있는 거의 유일한 나라인 것이다.
이를 다른 관점에서 보면, 한국은 제조업과 반도체, 그리고 중국에 비해 상대적으로 약하지만 LLM 모델과 AI 엔지니어를 모두 갖춘 중국을 제외한 유일한 국가이다. 미국도 LLM과 AI 엔지니어는 있지만 제조업 기반이 약하다. 중국은 모든 것을 갖추고 있지만 미국과의 기술 제재라는 지정학적 리스크가 있다. 한국은 이 틈새에서 독자적인 생태계를 구축할 수 있는 위치에 있다.
궁극적으로 미국이 하고 싶은 것은 로봇을 만들고, 로봇으로 제조를 하는 로봇 제조 시대를 여는 것이다. 로봇을 만들기 위해서도, 로봇이 다른 제조를 하기 위해서도 매우 중요한 것이 LLM의 저전력화이다. GPU에 비해 NPU가 중요해지는 데에는 여러 효율적인 이유가 있겠지만, 가장 중요한 것은 전력 대비 성능이 높다는 점이다. 이는 클라우드 환경에서의 전력 효율만의 이야기가 아니다. 엣지에서의 전력 효율이 매우 중요해지는 시점이 이미 시작되었다. 로봇을 움직이기 위해서는 지금의 가장 좋은 성능의 LLM이 1/100이나 1/1000 수준의 전력으로 동작해야 한다.
모바일이 PC보다 매우 효율적으로 저전력으로 동작하는 이유는 ARM 저전력 아키텍처와 통합 메모리에 있었다. PC는 GPU와 CPU가 다른 메모리를 사용하는 반면에 모바일은 효율적 측면에서 메모리를 하나로 사용해야 했고, 이것이 성능적으로도 PC보다 높은 경우가 있었다. Apple Silicon의 Unified Memory가 대표적인 사례이다. CPU와 GPU 연산을 위해서 메모리 복사가 필수인데 통합 메모리에서는 그럴 필요가 없기 때문이다.
조금 양상은 다르지만 NPU에서도 매우 빠른 메모리로의 동작이 어려운 이유가 비슷하게 존재한다. NPU는 더 효율적인 병렬 처리를 위해서 병렬 로직이 동작하게 아키텍처를 만들 수 있지만, 메모리는 직렬화되어 있어 메모리에서의 병목 현상을 피할 수 없다. 이 때문에 HBM으로 병렬적 처리를 하려고 하지만, 메모리에서 입력이 되어 들어오는 것의 직렬화는 피할 수 없기에 원천적으로 성능에 병목이 발생한다. 이 문제를 해결하기 위해 PIM(Processing-In-Memory)과 같은 형태로 메모리에서 연산기를 직접 가지게 한다거나, NPU에 통합적으로 메모리를 넣는다거나 하는 방법으로 반도체 엔지니어들이 머리를 짜내고 있다.
특히 클라우드 같은 전력이 거의 무한에 가깝게 사용 가능한 상태에서는 큰 문제가 없지만, 로봇과 같은 엣지에서 처리되어야 하는 경우는 배터리의 한계로 인하여 저전력으로 동작되는 것이 매우 중요하다. 테슬라 옵티머스의 경우 앉아있을 때 100W, 걸을 때 500W의 전력을 소모한다. 로봇이 30분만 움직일 수 있고 충전을 1시간 해야 된다고 한다면, 이를 사용하기에 너무나도 힘들 것이다. 최소한 한 번 충전을 하면 5시간은 동작이 가능하고 충전에 30분이 소요된다고 한다면, 이는 우리의 통제 범위와 인내 범위 안에 있을 수 있다.
아직 엣지에서 효율이 맞춰진 LLM 모델, 특히 월드 모델은 이제 막 실체가 드러나기 시작한 단계이다. Meta의 얀르쿤이 주도한 V-JEPA2가 2025년 6월 출시되어 100만 시간 이상의 비디오 데이터로 학습되었고, 로봇의 zero-shot 제어를 가능하게 했다. 로봇이 비디오 관찰만으로 중력, 충돌 같은 물리 법칙을 학습하여 실제 태스크를 수행할 수 있게 된 것이다. 얀르쿤은 “월드 모델이 로보틱스의 새로운 시대를 열어, AI 에이전트가 대규모 학습 데이터 없이도 실제 세계의 태스크를 완수할 수 있게 될 것”이라고 밝혔다. 그리고 2025년 12월, 얀르쿤은 Meta를 떠나 월드 모델 전문 스타트업 AMI를 설립했다. 이는 LLM 중심의 AI가 아닌 물리 세계를 이해하는 AI로의 패러다임 전환이 본격화되고 있음을 보여준다.
정부 전략과 한국의 기회
AI 인프라 구조가 이렇게 바뀌고 있는 상황에서 칩 회사, 모델 회사, 서비스 회사가 각자만 잘한다고 해서 글로벌 경쟁력을 이기기는 어렵다. 정부가 연말에 내놓은 “AI 반도체 산업 도약 전략”이 눈에 띄는 이유이다. 핵심 키워드는 하나로 정리할 수 있다. 독자 AI 모델과 NPU 패키지이다.
예전처럼 그냥 칩만 잘 만들게 지원하겠다는 것이 아니라, 국산 AI 모델과 국산 AI 반도체를 아예 패키지로 묶어서 공공과 민간 전반에 깔겠다는 것으로 방향을 잡았다. 칩은 국산, 모델도 국산인데 둘이 따로 돌면 사실 생태계 성장에 파급력이 약할 수 있다. 정부가 모델, 칩, 서비스를 한 번에 지원하는 구조로 정책 패키지를 설계하고 있다는 점이 새로운 시도로 주목받고 있다.
해당 정책은 크게 세 가지 축이 있다. 첫 번째는 독자 AI 파운데이션 모델과 국산 AI 반도체 패키지이다. 정부가 이미 국가 대표 파운데이션 모델을 만들 정예 팀을 뽑아서 지표 자원이나 데이터, 연구비를 집중 지원하고 있고, 동시에 과기정통부에서는 국산 AI 반도체와 AI 모델 패키지를 공공 및 민간에 도입하고 확산하는 것을 공식 전략으로 제시하고 있다.
두 번째 축은 기술 실증 파이프라인 프로그램이다. 단순히 연구비만 주는 것이 아니라 모델 개발, NPU에 맞춘 최적화, 벤치마크 성능 검증, 클라우드 및 온디바이스 AI 등에서 실증하고 실제 수요처(클라우드, 통신, 공공 기관 등)에 적용하는 전 과정을 하나의 연속된 파이프라인으로 묶으려는 시도가 이미 진행 중이다. 이 구조의 의미는 연구실에서 잘 돌아가던 칩과 모델이 실제 데이터센터로 넘어가는 과정에서 죽어버리는 “죽음의 계곡”을 메워주겠다는 것이다.
세 번째는 수요 창출, 즉 국가가 초기 레퍼런스가 되어주는 구조이다. 국민 생활, 편의, 치안 등 공공 분야라든가 한국의 주력 사업인 자동차, IoT, 가전 등에 국산 AI 반도체와 AI 모델 패키지를 도입해서 확산하겠다는 방향이 반복해서 등장한다. 국내용으로는 공공 서비스, 행정, 민생 프로젝트, 공무원 전용 내부 LLM 등에 국산 NPU 기반 솔루션을 실제로 써보면서 초기 시장 레퍼런스를 만드는 단계가 있고, 해외용으로는 한국산 AI 모델과 한국산 NPU 패키지를 해외 데이터센터, 스마트시티, 제조라인 등에 들고 나가서 현지 실적과 POC를 지원하는 프로그램을 같이 묶는 방향이다.
한국이 노려볼 수 있는 영역이 여기에 있다. 엣지의 효율에 맞춰진 로봇 맞춤형으로 설계되는 엣지형 LLM, NPU, 그리고 이에 맞춤형으로 운영되는 클라우드까지 경쟁력을 가져가는 것이 가능할 수 있다. 아직 이 영역은 3강으로서의 포지션이 아니라 미국, 중국과도 경쟁할 수 있을 것 같다. 특히 미국이 제조업을 가지고 있지 않아 한국에서 제조의 경험을 가져가야 할 텐데, 이를 우리가 이용하여 우리가 얻을 수 있는 것들을 충분히 얻는다면 단순한 꿈만은 아닐 것이다. 미국의 테슬라나 보스턴 다이내믹스가 휴머노이드 로봇을 만들려고 해도 결국 하드웨어 제조는 아시아에 의존할 수밖에 없다. 이때 단순히 조립만 하는 것이 아니라, 로봇 안에 들어가는 AI 칩과 모델까지 한국에서 제공한다면 밸류체인에서 훨씬 높은 위치를 점할 수 있다.
이렇게 되면 국산 가속기가 해외로 나갈 때 단순히 “칩을 한번 써보시죠”가 아니라 “이건 이미 한국 공공 및 제조에서 검증된 AI 플러스 NPU 패키지입니다”라고 말할 수 있게 된다. 단순 수출이 아니라 패키지형 레퍼런스 수출로 가는 것이다.
한국형 NPU 생태계의 언어를 만들다
정리하자면, 한국은 꽤 특이한 포지션을 가지고 있다. AI칩 시대가 효율 전쟁으로 바뀌고 있는데, CUDA가 GPU에 맞춘 모델-소프트웨어 생태계의 언어였던 것처럼, 지금 한국에서 일어나고 있는 국산 NPU 기업들의 등장과 정부의 모델-NPU 패키지 전략, 이 세 가지를 겹쳐서 보면 우리가 하고 있는 일은 결국 이런 문장으로 요약할 수 있다. “한국형 NPU 생태계의 언어를 새로 만들고 있다.”
모델-하드웨어 공동 진화라는 CUDA식 해자를 다른 방식으로 재현할 수 있는 세계 안에서 몇 안 되는 나라 중 하나가 한국이 될 수 있다. 요즘 AI 인프라의 진짜 병목은 계산이 아니라 메모리이다. HBM 대역폭, 메모리 레이턴시, 데이터 이동 비용이 전체 파이프라인을 정해버리는 시대에, 목적형 아키텍처를 설계할 수 있는 NPU가 처음부터 메모리 중심 구조로 데이터 흐름을 다시 짤 수 있다는 강점을 잘 활용했으면 좋겠다.
기존 메모리 최강의 위치에서 NPU와 결합한 지금이 시점에서, 한국 기업들의 역량과 정책 방향, 생태계의 플레이어들을 보면 이것은 그냥 꿈이 아니라 직접 한번 노려볼 만한 판이다. 특히 로봇 시대가 본격화되면 엣지에서의 저전력 AI는 선택이 아닌 필수가 된다. 월드 모델의 등장으로 로봇이 물리 세계를 이해하고 적응하는 시대가 열리고 있다. 그리고 그 영역에서 한국은 LLM, NPU, 메모리, 제조업이라는 네 가지 퍼즐 조각을 모두 가지고 있는 거의 유일한 국가이다.
한국의 AI 도약은 단순한 희망이 아니라 구조적으로 가능성이 열려 있는 기회이다. 중요한 것은 이 조각들을 하나의 생태계로 엮어내는 실행력이다.
참고자료
“K-엔비디아 만든다. 2030년 AI반도체 유니콘 5개 육성”
“리벨리온, 美 핫칩스에서 차세대 NPU 리벨 쿼드 첫 공개”
“박성현 리벨리온 대표 - AI 반도체 시장서 엔비디아 대항마 될 것”
“V-JEPA: The next step toward advanced machine intelligence”
“A Path Towards Autonomous Machine Intelligence”
“Yann LeCun confirms his new ‘world model’ startup, reportedly seeks $5B+ valuation”