최근 AI는 단순히 질문에 답하는 챗봇을 넘어 작업을 스스로 수행하는 에이전틱 AI(Agentic AI) 시대로 나아가고 있습니다. 이런 흐름에 가장 민감하게 반응하는 것은 개발자가 아닐까 합니다. 아무래도 실무에서 가장 적극적으로 AI를 쓰는 직군이다 보니 자연스럽게 개발자는 유행을 주도하는 얼리 어댑터가 되었습니다. 요즘 AI를 잘 활용하는 개발자를 보면 답변을 요구하는 수준을 넘어 목표와 도구를 주고 에이전트 손에 쥐어 주고 업무를 자동화하기 위해 이런 저런 시도를 진지하게 하고 있습니다. 앞으로 이런 모습은 다른 직무의 전문가들에게서도 쉽게 찾아 볼 수 있을 것입니다. 에이전틱 AI에 대한 접근성이 정말 놀라운 속도로 좋아지고 있기 때문입니다.
에이전트 시대를 앞당기는 기술의 발전
AI 에이전트를 현실로 만드는 기술 진화를 여러 측면에서 좀 살펴보겠습니다. 가장 널리 알려진 것은 RAG(Retrieval-Augmented Generation)가 아닐까 싶네요. RAG는 LLM을 사전 학습된 지식 너머의 최신 정보와 연결해 환각(Hallucination)을 줄이고 사실에 기반한 답변을 하도록 돕습니다. 덕분에 AI 에이전트는 계속 변하는 데이터를 파악하여 더 정확한 답변을 제공할 수 있습니다.
AI 에이전트 성능을 높이는 새로운 모델도 속속 등장하고 있습니다. Moonshot AI의 Kimi K2나 Alibaba의 Qwen-3 같은 오픈소스 LLM은 AI 에이전트 작업에 최적화된 설계로 주목받습니다. Kimi K2는 복잡한 도구를 자율적으로 사용하는 능력이 뛰어나 사람의 개입 없이도 여러 단계의 작업을 매끄럽게 수행합니다. 반면에 Qwen-3는 하이브리드 사고 모드로 개발자가 추론 과정을 직접 제어할 수 있는 유연성을 제공합니다.
AI 에이전트 개발을 돕는 프레임워크와 도구 역시 꾸준히 나오고 있습니다. Google DeepMind의 GenAI Processors 라이브러리는 멀티모달 AI 파이프라인 구축을 모듈화해 복잡한 비동기 로직을 자동으로 처리합니다. Google의 Opal은 노코드 환경에서 AI 워크플로를 시각적으로 설계하게 해줍니다. 특히 Google이 발표한 ADK(Agent Development Kit)는 비즈니스 로직, LLM 호출, 도구 연결 등을 체계적으로 구성하는 개발 킷으로 복잡하고 AI 에이전트 구현까지 지원합니다. ADK를 활용하면 음성 입력, 코드 실행, API 호출 등 다양한 도구를 AI 에이전트의 팔다리처럼 연결하여 개발 과정의 반복 작업과 오류를 크게 줄일 수 있습니다.
대화의 맥락을 길게 기억하도록 돕는 기술도 발전하고 있습니다. 기존 LLM 기반 AI 에이전트는 매번 새로운 대화를 시작하는 것처럼 행동해 이전 대화 내용을 잊고 같은 질문을 반복하거나 사용자 선호를 기억하지 못했습니다. 이러한 기억의 부재는 개인화된 사용자 경험을 제공하는 데 걸림돌이었습니다. 이 문제를 해결하기 위해 대화 기록을 오래 기억하여 맞춤형 상호작용을 이어가는 기능이 화두로 떠올랐습니다. Google을 비롯한 업계 선두 기업들은 AI 에이전트에 영구적인 메모리를 부여해 ‘상태를 기억하는(stateful) AI’로 전환하는 데 주력하고 있는데, 그 결과물 중 하나가 바로 Vertex AI Memory Bank입니다.
Vertex AI Memory Bank란 무엇인가?
Vertex AI Memory Bank는 Google Cloud의 Vertex AI 에이전트 엔진이 제공하는 관리형 장기 메모리 서비스입니다. 쉽게 말해 AI 에이전트가 사용자와 나눈 대화에서 중요한 정보 저장했다가 다음 대화에 활용하는 기억 장치라 할 수 있습니다.
Vertex AI Memory Bank를 쓰면 AI 에이전트는 대화를 바탕으로 동적인 장기 기억을 만듭니다. 이렇게 쌓인 기억은 여러 세션에 걸쳐 특정 사용자를 위한 개인화 정보로 쓰입니다. 이를 통해 AI 에이전트는 과거 대화를 토대로 사용자에게 맞춤형 응답을 제공하고 오랜 시간이 지나도 대화의 연속성을 유지합니다. Vertex AI Memory Bank의 주요 특징과 장점은 다음과 같습니다.
- 맞춤형 상호작용: 사용자 선호도나 과거 행동을 기억해 대화에 반영하므로 개인화된 대화를 나눌 수 있습니다.
- 세션 연속성 유지: 대화가 끊겼다가 다시 시작돼도 며칠 혹은 몇 주 전의 맥락을 이어 자연스럽게 대화를 이어갈 수 있습니다.
- 맥락 기반 응답 강화: 과거 대화에서 관련 정보를 찾아 현재 질문에 활용하므로 더욱 사실에 가깝고 일관성 있는 답변을 할 수 있습니다. 필요한 기억만 사용해 모델 성능이 떨어지는 문제도 방지합니다.
- 사용자 경험 향상: 사용자가 같은 정보를 반복해서 말할 필요가 없어 더 편리하고 자연스러운 대화가 가능합니다. AI 에이전트가 사용자를 기억한다는 느낌은 신뢰를 주고 대화 효율을 높입니다.
- 관리형 지속성: 클라우드에 기억을 영구적으로 저장하고 관리하므로 어떤 환경에서 에이전트를 배포하든 동일한 사용자 ID로 일관된 기억을 사용합니다. 기억이 비동기 방식으로 원격 생성되어 AI 에이전트의 응답 속도에 영향을 주지 않습니다.
- 지능형 기억 관리: 대화에서 핵심 정보를 추출해 저장하고 새로운 정보가 생기면 기존 기억과 통합합니다. 예를 들어 사용자의 선호 온도를 기억했다가 나중에 정보가 바뀌면 서로 다른 기억을 조율해 최신 정보로 업데이트합니다. 이 모든 과정은 자동으로 이뤄져 개발자가 직접 추출 파이프라인을 만들 필요가 없습니다.
위와 같은 Vertex AI Memory Bank의 주요 특징을 보면 이 기능이 LLM의 컨텍스트 한계를 극복하기 위해 등장했다는 것을 알 수 있습니다. 기존에는 과거 대화 내용을 모두 프롬프트에 넣는 방식으로 기억 문제를 해결하려 했습니다. 이는 응답 지연, 비용 증가, 성능 저하 같은 문제를 일으킵니다. RAG와 Memory Bank를 비교하면 차이점은 명확합니다.
- 지식 출처: RAG는 외부 문서나 데이터베이스에서 정보를 가져와 사실성을 높입니다. 반면에 Vertex AI Memory Bank는 사용자와의 대화에서 얻은 정보를 쌓습니다. RAG가 범용 지식을 보충한다면 Vertex AI Memory Bank는 개인의 경험과 선호를 저장하는 셈입니다.
- 활용 목적: RAG는 주로 최신 정보나 전문 지식처럼 모델이 모르는 내용에 대해 근거 있는 답변을 만드는 데 사용됩니다. Vertex AI Memory Bank는 사용자별로 지속적인 맥락을 유지하며 개인화된 경험을 제공하는 데 목적이 있습니다.
- 구현 방식: RAG는 개발자가 직접 데이터 파이프라인을 구축해야 하는 경우가 많습니다. 반면에 Vertex AI Memory Bank는 이 과정을 자동으로 처리합니다.
정리하자면 RAG는 ‘지식 검색 도구’, Vertex AI Memory Bank는 ‘대화 기억 장치’에 비유할 수 있습니다. 두 기술은 역할이 달라 서로를 보완하며 함께 사용할 수 있으며 필요에 따라 두 방식을 조합하는 것이 필요합니다.
ADK와 Vertex AI Memory Bank 통합 활용 전략
Google에 제공하는 ADK(Google Agent Development Kit)와 Vertex AI Memory Bank를 함께 사용하면 개발자가 메모리 관리 로직을 따로 만들지 않아도 AI 에이전트가 자동으로 대화 내용을 기억하고 필요할 때 꺼내 쓰도록 설정할 수 있습니다.
ADK 통합 덕분에 AI 에이전트는 대화가 끝날 때마다 내용을 Vertex AI Memory Bank로 보내 새로운 ‘기억’을 만듭니다. 다음 대화가 시작되면 AI 에이전트는 메모리 검색 기능으로 과거 기억 중 현재 대화와 관련된 내용을 가져올 수 있습니다. 개발자는 이 결과를 프롬프트에 포함하기만 하면 세션이 바뀌어도 맥락을 이해하는 AI 에이전트를 구현할 수 있습니다.
ADK와 Vertex AI Memory Bank 조합은 특정 상황에서 진가를 발휘합니다. 예를 들어 쇼핑 상담 AI 에이전트가 사용자의 피부 타입이나 선호 향기 같은 정보를 기억해두었다가 “고객님은 지성 피부시니 이번에도 산뜻한 무향 제품을 추천해 드릴게요”와 같이 맞춤형 응대를 할 수 있습니다. 이처럼 두 기술을 함께 사용하면 금융 자문, 의료 상담, 교육, 고객 지원 등 사용자와의 장기적인 관계가 중요한 분야에서 특히 유용합니다.
Vertex AI Memory Bank는 다른 프레임워크와도 쉽게 연동할 수 있도록 설계했습니다. LangChain이나 CrewAI 같은 프레임워크에서도 사용할 수 있으며 REST API를 통해 자체 애플리케이션에 적용할 수도 있습니다. 다만 Google Cloud 서비스이므로 GCP 프로젝트 인증이 필요하고, 데이터 프라이버시와 보안 정책을 지켜야 합니다.
AI 에이전트의 미래, 기억에 달려있다
살펴본 바와 같이 AI 에이전트 분야는 ‘기억하는 AI라는 새로운 국면을 맞이하고 있습니다. Vertex AI Memory Bank의 등장은 과거의 ‘상태 없는(stateless)’ 대화 시스템에서 벗어나, 맥락을 쌓고 학습하는 AI 에이전트로의 전환을 앞당기고 있습니다. OpenAI, Anthropic, Microsoft 같은 기업들도 AI 에이전트가 대화 맥락을 계속 유지하는 것을 기본 기능으로 만들어가고 있습니다. 이러한 변화는 사용자에게 끊김 없는 개인화된 경험을 제공하며 AI가 신뢰할 수 있는 파트너로 자리 잡게 할 것입니다.