사람 대신 움직이는 브라우저, Agentic 시대의 서막

Agentic 브라우저의 등장

매일 우리는 수많은 웹사이트를 열고 닫기를 반복합니다. 필요한 정보를 찾기 위해 10여 개가 넘는 탭을 이리저리 오가고, 각종 양식을 일일이 채워 넣으며, 클릭과 스크롤을 끊임없이 되풀이합니다. 원래는 우리의 손발이 되어 주어야 할 브라우저가 오히려 우리를 디지털 세계의 노동자로 전락시킨 듯한 모습입니다. 정작 창의적인 일에 써야 할 시간은 이런 반복 작업에 쪼개져 흩어지고, 세상을 탐험할 손가락은 끝없는 클릭의 굴레에 갇혀버립니다. AI 기술이 날로 발전해 우리의 일하는 방식과 사고방식을 바꾸고 있는 지금도, 웹 브라우저라는 디지털 생활의 입구는 여전히 옛 모습에 머물러 있는 듯합니다. 이러한 정체 상태를 뒤흔들 새로운 브라우저 패러다임이 등장했습니다. 바로 사람 대신 스스로 웹을 탐색하고 행동하는 브라우저, Agentic 브라우저의 탄생입니다.

Agentic 브라우저란 무엇인가?

간단히 말해 Agentic 브라우저란 사용자의 고차원적 명령이나 의도를 이해하여, 웹 상에서 필요한 행동을 자동으로 계획하고 실행해 주는 지능형 브라우저를 뜻합니다. 기존의 브라우저는 사용자가 클릭하고 입력한 대로 정보만 보여주는 수동적 도구에 머물렀습니다. 최근 들어 Microsoft Edge의 Copilot이나 Opera의 Aria처럼 브라우저에 AI 챗봇을 접목한 사례도 나오고 있지만, 이들은 물어본 질문에 답을 해주거나 웹페이지 내용을 요약해 주는 대화형 브라우저 수준에 그칩니다. 정보 탐색을 조금 돕는 정도일 뿐, 여전히 사용자가 모든 작업을 주도적으로 수행해야 했습니다. 한편, Perplexity의 Comet과 같이 검색에 특화된 AI 브라우저도 등장했지만, 이는 여러 자료를 요약하고 답변해주는 역할에 가까웠습니다.

Agentic 브라우저는 이보다 한 걸음 더 나아간 네 번째 부류의 브라우저라고 할 수 있습니다. 단순히 정보를 보여주고 대화하는 단계를 넘어, 사용자의 “대리인(Agent)”로서 웹 상에서 직접 행동하는 브라우저입니다. 사용자가 목표나 의도만 알려주면, Agentic Browser 안의 AI 에이전트가 마치 유능한 비서처럼 그 일을 이루기 위한 구체적 단계를 스스로 계획하고 실행합니다. 정보를 검색하고 모으는 것은 물론, 여러 사이트에 걸친 일련의 작업들을 연계하여 수행하고, 최종 결과물까지 제공하는 것을 목표로 합니다. 요컨대, 브라우저가 더 이상 수동적인 정보 창이 아니라 능동적인 디지털 조력자가 되는 것입니다.

예를 들어 사용자가 “다음 주 출장을 위해 뉴욕행 항공권을 찾고, 회사 경비 규정에 맞춰 예약까지 해줘”라고 한 줄 지시를 내린다고 상상해봅시다. 기존 브라우저라면 사용자가 항공사 사이트와 비교 검색 사이트를 직접 찾아 들어가 일일이 검색하고, 일정을 확인한 뒤, 예약 폼을 작성해야 할 것입니다. 그러나 Agentic 브라우저라면 AI가 이러한 과정을 모두 대신합니다. 지시에 담긴 의도를 이해한 뒤, 항공권 검색 사이트들을 탐색하고, 가장 적합한 편을 고른 후, 로그인하여 예약 절차를 진행하며, 필요한 경우 회사 이메일로 승인 요청까지 보내주는 식입니다. 이런 엔드 투 엔드 자동화가 가능하다면, 사용자는 브라우저에게 무엇을 할지 말만 하고 그 사이에 다른 중요한 일에 집중할 수 있게 될 것입니다.

물론 아직 모든 것이 완벽히 자동화된 것은 아니지만, Agentic 브라우저라는 개념은 이처럼 “브라우저가 사용자를 대신해 행동한다”는 발상의 전환을 보여줍니다. 이제 구체적으로 현재 무엇이 가능하고 어떤 한계가 있는지, 그리고 이 기술이 왜 주목할 만한지 살펴보겠습니다.

Agentic 브라우저가 해내는 일들

이 신개념 브라우저로 현재 가능한 작업들은 어디까지 와 있을까요? 세계 최초의 상용 Agentic 브라우저로 등장한 Fellou의 사례를 통해 살펴보면, 이미 놀라운 수준의 기능들이 구현되어 있습니다. 사용자는 마치 사람에게 지시하듯 자연어로 명령을 내리고, Fellou는 그에 맞춰 여러 웹사이트를 넘나들며 필요한 정보를 모으고 동작을 수행합니다. 대표적인 기능과 활용 사례들은 다음과 같습니다:

깊이 있는 정보 수집: Fellou의 AI 에이전트는 사용자의 질문에 단순히 검색 결과를 보여주는 데 그치지 않고, 관련된 수십 개의 웹페이지를 병렬로 탐색하여 핵심 내용을 자동으로 요약하고 리포트 형태로 정리해 줄 수 있습니다. 예를 들어 “차세대 배터리 기술에 대한 최신 동향 조사해줘”라고 하면, 여러 뉴스 기사와 논문 페이지를 동시에 읽고, 중요한 사실들을 모아 하나의 요약 보고서를 만들어주는 식입니다. 이렇게 하면 사람이 일일이 많은 자료를 읽는 수고를 덜 수 있습니다.
웹 상의 멀티스텝 작업 자동화: 사용자가 웹에서 수행하는 일련의 절차들 역시 자동화 가능합니다. 예컨대 “아마존에 들어가 최신 그래픽 카드를 검색한 뒤 재고 있고 평점 높은 상품을 골라 장바구니에 담아줘”라는 요청을 Fellou에 하면, Fellou는 실제 사용자처럼 아마존 페이지를 열고 검색어를 입력하며, 필터를 적용해 조건에 맞는 그래픽 카드를 찾아 클릭하고 장바구니에 추가하는 일까지 알아서 해냅니다. 복잡한 온라인 작업을 한 번의 지시로 척척 수행할 수 있습니다.
사용자 입력이 필요한 절차: 에이전트가 사용자의 추가 입력을 요구하는 대표적 사례로는 ‘로그인이 필요한 사이트’에 접근할 때를 들 수 있습니다. 이 경우 에이전트는 먼저 사용자가 이미 열어 둔 세션이나 저장된 쿠키를 활용할 수 있는지 확인하지만, 세션이 없거나 만료되었다면 다음 절차를 거칩니다. ① 브라우저 상단에 ‘계정 자격 증명이 필요합니다’라는 알림을 띄워 사용자의 승인을 요청하고, ② 사용자가 이메일‧비밀번호 또는 2FA 코드를 입력하면 이를 암호화된 임시 메모리에만 저장해 로그인 절차를 완료합니다. ③ 로그인 이후에는 획득한 세션 토큰만을 사용해 사이트 내부 페이지를 탐색하며, 민감한 자격 증명은 즉시 폐기해 보안을 유지합니다. 이렇게 에이전트가 중간에 사용자에게 필요한 정보를 요청하고, 입력이 끝난 뒤 최소 권한 원칙에 따라 작업을 이어가는 방식이 ‘사용자 입력이 필요한 처리’의 전형적인 예로 볼 수 있습니다.
가상 공간에서의 백그라운드 작업: Fellou에는 “Shadow Window”라는 가상 작업 공간이 있습니다. 이 공간은 화면에 드러나지 않는 Headless 브라우저 방식으로 작동합니다. 이는 실제 사용자가 보고 있는 화면과 별개로 돌아가는 은밀한 브라우저 창인데, 여기서 AI 에이전트들이 조용히 자기 할 일을 수행합니다. 덕분에 사용자 눈앞의 화면은 어지럽히지 않은 채, 여러 작업을 백그라운드에서 동시에 처리할 수 있습니다. 예를 들어 Fellou가 한쪽에서는 뉴스 기사를 모아 요약하고, 또 다른 가상 창에서는 SNS 계정에 자동으로 게시물을 올리는 식으로 병렬 작업을 수행해도, 사용자는 자신의 주 작업 화면에서 방해받지 않습니다.
지능형 요약 및 보고서 생성: 앞서 언급한 정보 수집 결과는 단순 나열이 아니라, 시각적이고 이해하기 쉽게 정리될 수 있습니다. Fellou는 모은 정보를 토대로 그래프나 표를 포함한 시각적 리포트를 생성해 주며, 이를 PDF나 웹 링크 형태로 공유할 수 있게 해줍니다. 여러 웹사이트의 내용이 하나의 문서로 깔끔히 요약되므로, 사용자는 그 자료만 보면 되는 것이죠. 업무 보고서나 시장 조사를 손수 정리하던 시간을 절약 해줍니다.

이처럼 Agentic 브라우저는 정보 탐색부터 실제 웹 조작까지 폭넓은 기능을 갖추어 나가고 있습니다. Fellou가 보여준 예들은 지금까지 사람의 손을 거쳐야 했던 인터넷 상의 업무들을 어디까지 자동화할 수 있는지 그 가능성의 단면을 보여줍니다. 물론 현재 단계에서는 이러한 기능들을 안정적으로 구현하면서도 안전과 정확성을 담보하는 것이 중요한 과제입니다. 이어서 이러한 기술적 제약에는 어떤 것들이 있고, 어떻게 극복해가고 있는지 살펴보겠습니다.

현재 기술적 한계는 무엇인가?

혁신적인 Agentic 브라우저라도 아직 완벽한 만능인은 아닙니다. 초기 단계인 만큼 여러 기술적 한계와 도전과제가 존재하며, 이는 앞으로 풀어야 할 숙제이기도 합니다. 주요 제약 사항들을 정리하면 다음과 같습니다.

시각 정보 해석의 한계: 웹에는 텍스트 이외에도 이미지, 영상, 차트 등 시각적 정보가 풍부합니다. 현재의 AI 브라우저 에이전트는 기본적으로 LLM에 기반하고 있어, 텍스트로 주어진 정보는 잘 이해하지만 이미지나 영상 속 내용을 완벽히 파악하는 데는 제한이 있습니다. 예를 들어 인포그래픽에 중요한 데이터가 담겨 있거나, 동영상 튜토리얼에 필요한 지시사항이 포함되어 있다면, 현 단계의 에이전트는 이를 사람처럼 직관적으로 처리하기 어렵습니다. 일부 AI 비전 기술과 결합해 이미지를 OCR로 읽거나 설명할 수는 있지만, 그 정확도나 맥락 이해는 사람 눈에 미치지 못합니다. 이러한 한계 때문에 CAPTCHA나 그래픽으로 된 정보 앞에서 에이전트가 막히는 경우도 생길 수 있습니다.
브라우저 조작 및 UI 상호작용: Agentic 브라우저는 사람이 하던 클릭, 입력, 스크롤 등을 대신 해줘야 합니다. 이를 위해 DOM 조작이나 가상 마우스/키보드 이벤트 시뮬레이션 방식으로 웹페이지를 다루는데, 모든 웹사이트가 구조가 제각각이다 보니 안정적으로 자동 조작하기 어려운 경우가 있습니다. 예컨대 어떤 사이트는 버튼이나 메뉴가 동적으로 생성되거나 스크립트로 제어되기 때문에, 에이전트가 그 존재를 제대로 인식하지 못할 수 있습니다. 또 인간에게는 쉬운 드래그 앤 드롭, 마우스오버 같은 동작도 기계적으로 흉내 내려면 번거로운 경우가 있습니다. Fellou는 이러한 문제를 해결하고자 OS 수준의 가상 환경(Shadow Workspace)에서 아예 전체 브라우저를 가상 머신으로 띄워 그 안에서 실제 사용자처럼 입력을 시뮬레이트하는 접근을 취합니다. 그럼에도 불구하고, 복잡한 웹 애플리케이션이나 자바스크립트로 가득한 사이트에서 에이전트의 의도대로 조작이 이루어지도록 만드는 일은 지속적인 튜닝과 예외 처리 노하우가 필요한 영역입니다.
의도 전달과 맥락 이해의 어려움: 자연어로 “한 번에 모든 것을” 지시한다는 것이 항상 수월한 일은 아닙니다. 사람은 서로 대화하며 오해가 있으면 질문을 주고받지만, 에이전트에게 명령을 내릴 때 사용자가 원하는 바를 정확히 표현하는 것이 처음부터 쉽지 않을 수 있습니다. 예를 들어 “내 모든 소셜미디어에서 이번 주 소식 중 중요한 것만 모아서 보고해줘”라고 요청한다면, “중요한 것”의 기준이나 어떤 플랫폼들을 포함할지 등 애매한 부분이 생깁니다. 현 단계의 Agentic 브라우저는 이런 모호성을 스스로 해소하지 못해 추가 질문을 던지거나 잘못된 해석을 할 위험이 있습니다. 또한 한번 계획을 세워 실행하다가 예기치 못한 상황(사이트 에러나 권한 문제 등)에 부딪히면, 스스로 대응책을 찾지 못하고 멈출 수도 있습니다. 의도를 완벽히 파악하고 맥락을 유지하는 능력은 아직 인간만큼 유연하지 않으며, 이런 부분에서 종종 사람의 개입이나 사전 설정이 필요합니다.
개인화와 사생활 이슈: Agentic 브라우저는 사용자 대신 여러 계정에 로그인도 하고, 각종 데이터를 긁어모읍니다. 당연히 개인 정보 보호와 보안 문제가 중요하게 대두됩니다. 잘못하면 에이전트가 민감한 데이터를 의도치 않게 외부에 공유하거나, 사용자 허가 없이 행동을 해버리는 위험도 생각해야 합니다. 이를 해결하려면 브라우저 차원에서 엄격한 권한 관리 체계가 필요합니다. 예컨대 Fellou는 웹사이트가 내 컴퓨터나 계정에 접근하려 할 때 위치 정보나 마이크 권한을 묻듯이 사용자에게 허용 여부를 묻도록 설계하고 있습니다. 또한 모든 작업 내역과 데이터 처리를 로컬 또는 안전한 공간에 머물게 하고, 사용자의 비밀번호나 사적인 콘텐츠를 에이전트의 AI 모델에 직접 노출하지 않는 장치도 필요합니다. 현재 이러한 방식을 통해 보안은 비교적 잘 관리하고 있다고는 하지만, 사용자 입장에서 “AI가 내 계정으로 맘대로 활동한다”는 것에 대한 심리적 불안이 완전히 해소된 것은 아니어서, 신뢰 구축이 중요한 과제입니다.
성능과 비용, 그리고 모델 한계: Agentic 브라우저의 머리 역할을 하는 것은 결국 LLM입니다. 복잡한 웹 작업을 계획하고 여러 문서를 요약하려면 GPT-4나 Anthropic Claude와 같은 최신 AI 모델에 다수의 요청을 보내야 합니다. 이는 곧 API 이용 비용과 직결되고, 응답 속도에도 영향을 줍니다. Fellou 팀은 자체 최적화를 통해 “Deep Action” 한 번 수행하는 데 드는 비용을 낮췄다고는 하지만, 여전히 사용 패턴에 따라 적지 않은 컴퓨팅 자원이 필요합니다. 또한 AI 모델 자체의 한계로 인해, 예를 들어 최신 정보 업데이트가 안 되어 있거나, 혹은 환각 현상으로 사실과 다른 결과를 포함시킬 가능성도 존재합니다. 따라서 결과물에 대한 검증 부담이 남아 있을 수 있고, 이런 부분을 줄이기 위한 지속적인 모델 개선과 추가적인 검증 단계도 고려되어야 합니다.

위와 같은 제약들 때문에 현재의 Agentic 브라우저는 아직 완벽히 인간처럼 모든 일을 대신해주진 못합니다. 그러나 중요한 것은, 바로 이러한 불편함과 한계들을 해결해 나가는 과정에서 기술은 발전한다는 사실입니다. 과거에도 그랬듯이, 지금 언급한 문제점들은 차세대 개선과 혁신의 출발점이 될 것입니다. 실제로 Fellou를 비롯한 선도 개발자들은 이런 장애들을 하나씩 극복하기 위한 기술적 해법들을 내놓고 있습니다. 그렇다면 과연 왜 이러한 브라우저 자동화 기술이 특히 지금 이 시점에 중요한지, 그리고 어떤 방향으로 발전해 갈지 생각해봐야 합니다.

왜 지금 Agentic 브라우저에 주목해야 하는가?

왜 하필 지금 브라우저의 자동화, 이른바 Agentic 브라우저가 부상하고 있을까요? 그 배경에는 최근 몇 년간의 AI 발전과 사용자 요구 변화가 자리하고 있습니다.

첫째, LLM의 등장은 결정적 전환점이 되었습니다. 불과 몇 년 전만 해도 컴퓨터가 사람의 자연어 지시를 이해해서 맥락에 맞게 행동한다는 건 상상에 가까웠습니다. 하지만 GPT-3, ChatGPT로 촉발된 LLM 혁신으로 이제 AI는 복잡한 언어 명령도 상당히 이해하고 추론과 계획까지 할 수 있게 되었습니다. 머리가 좋아진 AI에게 손발만 달아주면 실제 업무도 돕게 할 수 있을 것이라는 아이디어는 자연스러운 다음 단계였습니다. 2023년 무렵부터 실험적인 자율 에이전트들이 등장해, AI가 연속적으로 명령을 생성/실행하며 웹을 탐색하도록 시도했는데, 당시엔 미숙했어도 가능성을 입증했습니다. 이제 2024년, 2025년을 거치며 이러한 에이전트 개념을 보다 견고하고 실용적인 형태로 구현하려는 움직임이 가속화되고 있습니다. Agentic 브라우저는 그 구체적인 산물입니다.

둘째, 생산성에 대한 갈증과 웹 환경의 변화입니다. 코로나 이후 비대면 업무와 온라인 정보량이 폭증하면서, 지식 노동자들은 정보 과부하와 툴 과다에 시달리고 있습니다. 하루에도 수십 개 웹사이트와 SaaS 도구를 넘나들며 작업해야 하는 상황에서, 이를 하나로 엮어 자동화하고 싶다는 현실적 요구가 커지고 있습니다. 브라우저는 모든 웹서비스의 통로이기에, 여기서 자동화 효율을 높이는 것이 곧바로 시간 절약과 직결됩니다. 지금까지는 개별 사이트별로 매크로나 RPA 스크립트를 만드는 등 부분 자동화만 이뤄졌다면, Agentic 브라우저는 브라우저 단 전체를 관통하는 자동화를 제시함으로써 이 문제를 총체적으로 해결하려 합니다. 이는 생산성 툴의 패러다임 전환으로 이어질 수 있습니다.

셋째, 기술 생태계의 성숙과 표준화 움직임입니다. AI 에이전트들이 사람 대신 움직이려면 다양한 시스템과 소통해야 하는데, 마침 최근에 이를 돕는 개방형 프로토콜들이 제안되고 있습니다. 예를 들어 Anthropic사가 발표한 MCP는 외부 데이터나 도구를 표준화된 형식으로 LLM에 공급하는 규칙을 정의하고 있습니다. 그리고 Google이 주도한 A2A 프로토콜은 서로 다른 AI 에이전트들끼리 메시지 교환과 협업을 할 수 있는 프로토콜입니다. 이러한 공개 표준들은 AI가 다른 소프트웨어, 다른 AI와 연결되는 길을 열어주고 있습니다. Agentic 브라우저는 이런 흐름을 타고, 브라우저 속 에이전트가 필요하면 다른 AI 서비스와 직접 통신하거나, 반대로 외부 AI로부터 작업 요청을 받아 처리하는 식으로 확장될 수 있습니다. 즉, 혼자만의 폐쇄 생태계가 아니라 여러 에이전트와 연동되는 열린 환경이 만들어지고 있는 것입니다. 이러한 기술적 토양의 성숙이 지금 시점에서 Agentic 브라우저가 현실화되기 좋은 기반이 되고 있습니다.

넷째, 시장의 전략적 기회입니다. 전통적인 브라우저 시장은 오랫동안 크롬, 사파리, 파이어폭스 같은 거대 플레이어들이 장악해왔고, 기술적으로도 성숙기에 접어들어 획기적 혁신이 드물었던 분야입니다. 하지만 AI 접목이라는 변화 앞에서 모두가 처음부터 시작해야 하는 새로운 경기장이 열렸습니다. 이는 마치 스마트폰 등장 시기에 노키아 같은 기존 강자가 아이폰의 패러다임 전환에 뒤처지며 판도가 바뀐 것과 비슷한 기회로 여겨집니다. “브라우저 + AI + 워크플로 자동화”라는 교차점에서 새로운 강자가 탄생할 가능성이 생긴 것입니다. 그래서 스타트업부터 대기업까지 누구나 이 영역을 주목하고 있습니다. 특히 작은 팀이라도 혁신적인 아이디어와 속도로 무장하면 기존 거인을 앞지를 수 있는 비옥한 틈새가 생겼습니다.

이러한 이유들로, Agentic 브라우저는 “왜 지금이 아니면 안 되는가”에 대한 나름의 답을 가지고 탄생했습니다. 요약하면 “LLM의 두뇌 + 브라우저의 손발”을 결합해야 할 필요도, 가능성도, 기회도 모두 무르익은 시기라는 것입니다. 그렇다면 구체적으로 이 분야를 연 Fellou라는 브라우저와, 그 기반 기술인 Eko 프레임워크는 어떤 전략과 작동 방식을 보여주는지 살펴 봐야합니다.

Fellou와 Eko: 세계 최초 Agentic 브라우저의 접근

2024년 12월에 등장한 Fellou는 스스로 “세계 최초의 Agentic 브라우저”를 표방하며 여러 혁신적인 개념을 선보였습니다. Fellou는 단순히 AI 챗봇을 붙인 브라우저가 아니라, 브라우저 자체를 하나의 AI 에이전트 플랫폼으로 재구성한 사례입니다. 그 핵심에는 Eko라고 불리는 오픈소스 에이전트 프레임워크가 있습니다. Fellou 브라우저는 Eko를 내장하여, 다양한 에이전트들이 브라우저 안에서 동작하고 사용자 명령에 따라 워크플로를 실행할 수 있도록 설계되었습니다.

Eko 프레임워크는 쉽게 말해 “자연어로 프로그래밍하는 웹 자동화 엔진”입니다. 이를 통해 개발자는 사람의 업무 절차를 일종의 시나리오로 기술하여, Fellou 브라우저 안에서 실행되는 맞춤형 에이전트를 만들 수 있습니다. 예를 들어 “유튜브에서 특정 채널 영상을 모두 보고 요약 정리하는 에이전트”나 “쇼핑몰 가격을 모니터링해 최저가를 알려주는 에이전트” 등을 코딩할 수 있습니다. 놀라운 점은, 이 코딩이 전통적인 프로그래밍 언어가 아니라 상당 부분 자연어에 가까운 형태로 이루어진다는 것입니다. Eko 프레임워크는 “Language as Code”, 즉 자연어를 곧 코드로 간주하는 접근을 취하고 있어서, 사용자가 문장을 기술하면 그걸 기반으로 에이전트 동작 시퀀스를 생성합니다. 물론 복잡한 로직의 경우 개발자가 Eko의 자바스크립트 API와 Hook을 활용해 세밀하게 제어할 수도 있지만, 궁극적으로 지향하는 바는 “누구나 아이디어만 있으면 에이전트를 설계할 수 있게” 하는 것입니다.

Fellou가 Eko를 채택한 전략적 의미는 상당히 큽니다. 우선, 오픈소스로 이 프레임워크를 공개함으로써 전 세계 개발자들이 Agentic 브라우저 워크플로를 함께 만들어가는 생태계 전략을 취했습니다. 이는 Fellou 혼자 모든 활용 시나리오를 만들어내기보다, 플랫폼을 열어두고 타인의 창의성을 수용하겠다는 것입니다. 실제로 Fellou는 자체 웹사이트에서 Agent Store 개념을 소개하고 있는데, 이는 향후 개발자나 사용자들이 만든 유용한 에이전트를 공유하고 다운로드받을 수 있는 마켓플레이스를 염두에 둔 것으로 보입니다. 이러한 에이전트 생태계가 형성되면, Fellou는 개별 제품을 넘어 플랫폼으로서의 가치를 지니게 됩니다. 스마트폰의 앱스토어처럼, Agentic 브라우저에도 “에이전트 스토어”가 자리잡을 수 있습니다.

기술적인 측면에서 Eko는 기존에 존재하던 오픈소스 웹 자동화 프레임워크인 Browser-Use의 개념을 발전시킨 것입니다. Browser-Use는 AI 에이전트가 실제 사용자의 브라우저를 제어하는 초기 시도였는데, Fellou 팀은 이를 바탕으로 안정성과 속도를 끌어올려 상용 서비스에 견딜 만한 프레임워크로 재탄생시켰습니다. 그 결과 Eko 기반의 Fellou는 유사한 자동화 에이전트보다 2~3배 이상 빠른 작업 처리 속도를 내세우고 있습니다. 예컨대 여러 웹페이지를 읽어 요약 보고서를 만드는 작업을 타 AI 브라우저 툴이 10분 이상 걸릴 때 Fellou는 4분 내외에 끝냈다는 벤치마크 결과도 공개했습니다. 이는 Eko가 병렬 처리와 최적화된 브라우저 제어를 구현한 덕분입니다. 또한 Eko는 작업 진행 중간에 Hook 시스템을 통해 사람이 개입하거나 추가 지시를 내릴 수 있도록 설계되어 있습니다. 덕분에 완전히 자동으로 놔뒀다가도 사용자가 실시간으로 개입해 경로를 조정할 수 있고, 필요하면 에이전트의 행동을 모니터링 및 중지시킬 수도 있습니다. 이러한 인간과 AI의 협업 제어 기능은 실제 업무 환경에서 중요한데, Fellou/Eko는 이 부분을 염두에 두고 있습니다.

Fellou 브라우저 자체의 구조도 흥미롭습니다. Browser + Agent + Workflow의 결합을 강조하는데, 브라우저 부분은 크롬과 유사한 렌더링 엔진을 통해 웹 콘텐츠 접속 및 표시를 담당하고, Agent 부분은 LLM 기반 의사결정 엔진으로 생각하고 계획하는 역할을 합니다. Workflow 부분은 앞서 말한 Eko가 맡아서, 각종 외부 API와 운영체제 기능까지 호출하며 행동을 실행하는 역할을 합니다. Fellou는 웹뿐 아니라 사용자의 로컬 환경까지 제어할 수 있습니다. 예를 들어 PC의 파일 시스템에서 문서를 열어보거나, 로컬 캘린더 앱에 일정을 추가하는 등의 동작도 지원되어 웹과 데스크톱의 경계를 넘나드는 자동화를 추구합니다. 이렇게 웹과 로컬을 아우르는 설계는 브라우저를 단순한 인터넷 창이 아닌 범용 작업 허브로 만들겠다는 포부로 보입니다.

요약하면 Fellou는 “브라우저 안에 작은 사람 하나를 넣었다”고 볼 수 있습니다. 그 “작은 사람”은 우리 대신 웹을 돌아다니며 필요한 일을 하고, 우리가 쉬고 있을 때에도 알아서 찾아보고 제안해주는 든든한 조력자가 되겠다는 것입니다. 물론 현재 Fellou도 초기 버전인지라 완벽하진 않습니다. Fellou는 베타 버전을 신속히 공개해 조기 사용자 피드백을 받아들이며 단기간에 제품 완성도를 끌어올리고 있습니다. 이러한 민첩한 반복 개발을 통해 매 릴리스마다 성능과 안정성을 개선하며 한층 세련된 Agentic 브라우저로 진화하고 있습니다.

Fellou와 Eko가 제시한 방향은 “웹 브라우저의 재발명”이라 부를 만합니다. 나아가, 이는 LLM 이후 시대의 새로운 활용 모델로서 많은 이들의 관심을 모으고 있습니다. 다음으로는, 이렇게 브라우징 자동화가 각광받는 의미와 잠재력에 대해 좀 더 구체적으로 짚어보겠습니다.

LLM 다음 혁신: 브라우징 자동화의 잠재력

많은 AI전문가들이 대규모 언어 모델(LLM)의 뒤를 이어, 대규모 행동 모델(LAM)이 주류가 될 것이라고 전망합니다. 쉽게 말해, 똑똑해진 AI에게 이제는 행동할 수 있는 팔과 다리를 주는 것이 차세대 과제가 된다는 뜻입니다. 브라우징 자동화, 즉 Agentic 브라우저는 바로 그 다음 단계의 대표 주자입니다. 그렇다면 이 기술이 실현되면 어떤 임팩트가 있을까요?

무엇보다 지식 노동의 생산성 혁신이 기대됩니다. 오늘날 많은 사무직 종사자들은 정보를 찾고 정리하고 입력하는 데 업무 시간의 상당 부분을 보냅니다. 만약 Agentic 브라우저가 이러한 루틴 업무의 상당 부분을 자동화해준다면, 사람들은 보다 창의적이고 전략적인 일에 집중할 수 있게 될 것입니다. 가령 컨설턴트나 애널리스트는 보고서를 작성하기 위해 시장조사를 직접 하는 대신, Agentic 브라우저에게 조사 지시를 내리고 완성된 초안을 받아 최종 검토만 하면 될 수 있습니다. 하루 종일 여러 시스템에 로그인해 데이터를 옮겨 적던 직원은, 브라우저 에이전트가 툭하면 대신 양식을 채우고 보고해주니 본인은 결과만 확인하면 되는 식입니다. 이런 변화는 단순히 편리함의 추가 차원이 아니라, 업무 방식 자체의 재편을 의미합니다. 인터넷이 정보 접근을 민주화했고, LLM이 정보 생성의 속도를 높였다면, 에이전트 브라우저는 실행의 수고까지 덜어줌으로써 사람의 역할을 한 단계 더 고차원으로 끌어올릴 수 있습니다.

또한 웹 경험의 개인화에도 큰 잠재력이 있습니다. 현재의 웹은 사용자가 일일이 본인에게 필요한 것을 찾아 나서야 하지만, Agentic 브라우저는 사용자를 오랫동안 관찰하고 학습함으로써, 때로는 묻기도 전에 도움이 될만한 행동을 제안할 수 있습니다. 예컨대 사용자가 매주 월요일 아침마다 일정표와 할 일 목록을 정리하는 루틴이 있다면, 브라우저 에이전트는 월요일이 되기 전에 지난주 이메일과 캘린더를 미리 훑어 초안 To-Do 리스트를 만들어 놓을 수 있습니다. 사용자가 “이번 휴가 어디로 갈까” 검색을 여러 번 했다면, 관련 항공권 가격 추이를 추적해 가격이 떨어지면 알려주는 행동을 취할 수도 있습니다. 이렇듯 사용자 맞춤형 능동 서비스가 가능해지면, 브라우저는 단순히 명령을 기다리는 도구를 넘어 적극적으로 사용자의 삶을 편리하게 해주는 비서가 될 수 있습니다. 이러한 시나리오는 AI가 충분히 똑똑해지고 나면 현실화될 수 있는 부분이며, Fellou도 이를 Proactive Intelligence(능동 지능)라는 이름으로 설명하고 있습니다.

멀티에이전트 협업 시대의 기초를 마련한다는 측면도 중요합니다. Agentic 브라우저가 보편화된다는 것은, 각 사용자가 자신만의 디지털 요원을 거느리게 된다는 뜻이기도 합니다. 그리고 앞서 언급한 A2A 같은 프로토콜을 통해 이 요원들끼리 서로 통신하고 협력할 수 있다면, 우리는 웹상의 복잡한 문제를 풀 때 여러 AI 에이전트 팀을 꾸려 해결하는 것도 가능해집니다. 예를 들어 한 에이전트 브라우저는 금융 정보를 모으고, 다른 한 에이전트는 법률 문서를 검토하며, 또 다른 에이전트는 이를 종합해 사업 보고서를 작성하는 분업적 협업이 이뤄질 수 있는 것이죠. 이는 마치 인간 전문가들이 협업하는 형태를 AI들이 대신하는 그림인데, Agentic 브라우저는 그 중 웹 상의 손발 역할을 맡게 됩니다. 이러한 AI 협업 네트워크는 아직 초기 개념이지만, Agentic 브라우저는 분명 그 퍼즐의 한 조각으로서 기능할 것입니다.

물론 모든 웹 사용자를 Agentic 브라우저가 대체할 것이라는 식의 극단적인 전망은 이릅니다. 대다수 일반인은 기존 익숙한 브라우징 방식에 편안함을 느끼고, 또 AI에 대한 불신이나 학습 곡선 등의 이유로 당장엔 바꾸지 않을 수 있습니다. 따라서 초기에는 특정 수요층에서부터 천천히 퍼져나갈 가능성이 높습니다. 예컨대 데이터 분석가, 리서처, 개발자 등 자동화 효용을 체감할 수 있는 사용자들이 먼저 Agentic 브라우저를 도구로 채택하고, 이들의 생산성 향상이 입증되면 점차 영역을 넓혀가는 식이 될 것입니다. 기업 환경에서도 보안이나 인증 문제 등을 통제할 수 있는 폐쇄망 내 Agentic 브라우저가 팀 단위로 도입되어 업무 자동화를 구현하는 시나리오도 생각해볼 수 있습니다. 이러한 점진적 확산 경로를 거친다면, 궁극적으로 Agentic 브라우저가 새로운 시장을 형성하거나 혹은 기존 브라우저들의 기본 기능으로 통합되는 방향으로 발전할 것입니다.

정리하면, 브라우징 자동화는 LLM 열풍 이후 가장 주목받는 차세대 혁신 중 하나이며, 이는 단순한 기능 추가가 아니라 디지털 업무의 판도를 바꿀 잠재력을 지니고 있습니다. 물론 기대만큼 현실이 따라오기 위해서는 앞서 논의한 기술적 과제들을 해결하면서 신뢰성과 편의성을 충분히 확보해야 할 것입니다.

남은 과제와 미래 전망: 한계 너머로

Agentic 브라우저는 이제 막 태동 단계에 들어섰습니다. Fellou와 같은 선구자가 나오고, 유사한 아이디어들이 쏟아지며 초기 시장의 모양새가 갖춰져 가고 있지만, 동시에 아직 해결해야 할 남은 과제도 분명합니다. 그러나 이러한 한계를 인정하는 동시에, 그것을 넘어설 발전 방향을 함께 바라보는 것이 균형 잡힌 시각일 것입니다.

앞으로 풀어야 할 기술적 난제들은 앞서 열거한 현재의 한계들과 맥을 같이 합니다. 시각 정보 처리 능력은 시간이 갈수록 개선될 것입니다. 점점 더 똑똑한 멀티모달 AI 모델이 개발되면서, Agentic 브라우저도 이미지나 영상 내용을 이해해 작업에 활용하는 능력을 얻게 될 것입니다. 예를 들어 미래의 에이전트는 스스로 캡차를 풀거나, 그래프 이미지를 읽어 데이터로 변환해 분석하는 등 지금은 어려운 일들을 해낼 수 있겠죠. 웹 조작의 정밀함도 개선될 전망입니다. 웹 표준과 에이전트 기술이 함께 발전하면서, 에이전트가 사이트 구조를 스스로 파악해 적절히 대응하거나, 혹은 웹사이트들이 공식 API나 에이전트 친화적 인터페이스를 제공하는 방향으로 진화할 가능성도 있습니다. 실제로 과거에 모바일 앱이 폭발적으로 늘자 각 웹 서비스들이 API 개방에 나서 개발자들이 자동화나 통합을 쉽게 했던 것처럼, 앞으로는 Agent 친화적 웹에 대한 요구도 나타날 수 있습니다.

의도 이해와 맥락 유지 측면에서는, AI의 언어 이해 능력이 고도화되고 또 개인별 학습을 통해 사용자 취향을 익히면서 갈수록 사람 비서에 가까운 수준으로 다가갈 것입니다. Fellou가 도입한 개인 지식 베이스나 능동적 추천 같은 기능은 그런 방향의 초기 시도라고 볼 수 있습니다. 시간이 지나면 Agentic 브라우저가 사용자의 작업 패턴을 학습하여 “말하지 않아도 척척” 원하는 일을 해내는 모습을 볼지도 모릅니다. 물론 이러려면 사용자 신뢰를 바탕으로 한 충분한 사용 데이터 축적과 지속적인 모델 개선이 필요할 것입니다.

보안과 신뢰는 아마 기술적 발전과 별개로 사회적 합의와 제품 디자인 원칙이 함께 발전해야 할 부분일 것입니다. 브라우저가 너무 똑똑해져서 사용자가 통제하지 못하는 수준이 오면 오히려 역효과일 테니, 항상 사용자에게 투명성을 제공하고 원하면 수동 개입할 수 있는 설계를 병행해야 할 것입니다. 이러한 Human-in-the-loop 설계 철학은 앞으로도 Agentic 브라우저가 지켜야 할 중요한 축이 될 것입니다.

Agentic 브라우저의 시장 전망은 동시에 낙관과 현실주의가 교차합니다. 낙관론자들은 “언젠가 모든 브라우저가 Agentic이 될 것”이라고 말 할 것입니다. 그만큼 효용이 명확한 기술이기 때문입니다. 우리가 오늘날 택시를 손으로 잡지 않고 호출앱을 쓰는 것을 당연하게 여기듯, 5~10년 뒤에는 웹 업무의 상당수를 AI 브라우저에 위임하는 것을 자연스럽게 받아들일 수 있다는 것입니다. 반면 현실적인 시각으로는, 주류로 자리잡기까지 상당한 시행착오와 시간이 필요하다는 점도 간과할 수 없습니다. 초창기 스마트폰 앱이 불안정하고 기능이 제한적이었던 시절을 떠올리면, 현재의 Agentic 브라우저 역시 조금 어설픈 비서에 불과할지도 모릅니다. 하지만 그 불편함을 기꺼이 감수한 얼리어답터들이 피드백을 주고 방향을 잡아주었기에 오늘날 세련된 스마트폰 경험이 가능해졌듯, Agentic 브라우저도 초기 도입자들의 역할이 중요할 것입니다. 이들은 새로운 기술을 업무와 생활에 접목해보면서 가능성과 한계를 동시에 체험하고, 개발자들과 함께 해결책을 찾아 나갈 것입니다. 그런 의미에서 지금의 Agentic 브라우저 사용자나 개발자들은 모두 미래를 앞서 경험하는 개척자라 할 수 있습니다.

분명한 것은, 기술 발전은 결국 실용적 불편함의 해결에서 비롯되었다는 사실입니다. Agentic 브라우저가 등장한 것 자체가 우리 모두가 느끼던 브라우저 사용의 불편함 (정보의 홍수와 반복 작업)을 해소하려는 노력에서 나왔듯이, 앞으로도 남은 불편함들이 하나씩 해소될 때마다 기술은 한 계단씩 도약할 것입니다. 어쩌면 먼 미래에는 브라우저란 개념 자체가 사라지고, 우리의 디지털 비서 AI가 알아서 모든 정보를 찾아주고 정리해줄지도 모릅니다. 그러나 그러한 혁신도 오늘의 작은 첫걸음들에서 시작됩니다.

Agentic 브라우저의 태동은 바로 그 첫걸음 중 하나입니다. Fellou라는 선구자의 도전과 그를 따르는 기술 흐름은, 향후 브라우저와 AI의 결합이 어떤 새로운 지평을 열어갈지 보여주는 흥미로운 실험입니다. 아직 가야 할 길이 멀지만, 만약 이 방향이 옳다면 우리는 머지않아 “사람을 위한 브라우저”에서 “사람 대신하는 브라우저”로의 전환을 목격하게 될 것입니다. 그리고 그때 우리는 다시 한 번 생산성 도구의 진화를 실감하게 될 것입니다. 지금의 불편함을 해결하려는 노력이 어떻게 미래의 일상이 될지, Agentic 브라우저의 성장은 그 생생한 사례를 제공해 줄 것입니다.