AI 에이전트는 더 이상 미래가 아닙니다. 구글 클라우드 넥스트 ‘25와 구글 I/O 2025 행사의 주요 발표 내용을 알고 있다면 이미 멀티 AI 에이전트 시대가 시작되었다고 생각할 것입니다. 작년 까지만 해도 개념 검증(PoC) 단계를 넘어 프로덕션까지 살아 남는 AI 프로젝트는 많지 았았습니다. 하지만 앞으로 사정이 달라질 전망입니다.
모델 생태계의 진화, 모델 최적화 기술의 발전, AI 에이전트 구현을 위한 도구와 프레임워크의 등장, AI 에이전트 간 협업을 위한 표준 정립 등이 서로 맞물리면서 멀티 AI 에이전트 시스템 구축은 지금 당장 도전할 수 있는 과제가 되었습니다.
이런 흐름 속에서 AI 관련 개발 파이프라인에 대한 새로운 개념까지 등장하고 있습니다. AI에 관심 있는 분은 MLOps 용어가 익숙할 것입니다. AI, ML 관련 모델 훈련, 배포 파이프라인 자동화에 익숙해 질만 할 때 시장의 키워드는 생성형 AI로 바뀌었고 LLMOps 또는 GenAIOps라는 용어가 들려오기 시작했습니다. 그러던 것이 이제는 AgentOp까지 그 사상이 확장되고 있습니다. 본 포스팅을 통해 AgentOps란 말을 왜 하기 시작했는지 그 배경을 알아보겠습니다.
모든 것의 시작 DevOps
AI 에이전트 운영이라는 복잡한 주제를 이해하려면 그 뿌리가 되는 DevOps와 MLOps를 먼저 명확하게 이해해야 합니다. 이 두 개념은 현대 소프트웨어 및 머신러닝 시스템 운영의 근간을 이루며 AgentOps로 향하는 진화의 첫 단추라 할 수 있습니다.
현대 소프트웨어 개발 및 운영에 관한 모든 논의는 DevOps에서 시작됩니다. “모든 것의 기반은 DevOps”라는 말처럼, DevOps는 개발(Development)과 운영(Operations)을 통합하여 소프트웨어 제품과 서비스를 빠른 시간에 개발하고 배포하는 것을 목표로 하는 문화, 방식, 도구의 집합입니다. DevOps의 핵심은 자동화에 있으며, 소스 코드 관리를 위한 리포지토리(예: Git), 지속적 통합 및 지속적 배포(CI/CD) 파이프라인, 코드 자동화 테스트 등을 통해 개발에서 배포에 이르는 전 과정을 효율화합니다. ‘결정론적(deterministic)’ 환경이라는 특성 덕분에 DevOps는 성공적으로 정착할 수 있었습니다. 이는 동일한 코드와 동일한 입력값이 주어지면 항상 동일한 결과가 출력됨을 의미합니다.
그러나 머신러닝 시대가 도래하면서 DevOps만으로는 충분하지 않다는 사실이 명확해졌습니다. 머신러닝은 본질적으로 ‘비결정론적(non-deterministic)’ 환경이기 때문입니다. 동일한 학습 코드와 데이터를 사용하더라도 학습 과정의 무작위성으로 인해 매번 미세하게 다른 모델이 생성될 수 있습니다. 더 큰 문제는, 프로덕션 환경에 배포된 모델의 성능이 시간이 지나면서 현실 세계의 데이터 변화(데이터 드리프트)로 인해 저하될 수 있다는 점입니다.
이러한 비결정성과 동적인 성능 변화는 DevOps가 다루지 않았던 새로운 운영 과제를 낳았습니다. 단순히 코드를 배포하는 것을 넘어, 데이터, 모델, 코드를 모두 함께 버전 관리하고 수많은 실험을 추적해야 했습니다. 또한 배포된 모델의 성능을 지속적으로 모니터링하고 필요시 재학습을 자동화하는 체계가 필요해졌습니다. 이것이 바로 MLOps(Machine Learning Operations)의 탄생 배경입니다.
MLOps가 머신러닝 모델 운영의 표준으로 자리 잡았지만, 생성형 AI의 폭발적인 등장은 또 한 번의 패러다임 전환을 요구했습니다. 기존 MLOps 프레임워크가 강력함에도 불구하고, 생성형 AI 애플리케이션의 고유한 특성을 모두 감당하기에는 부족했기 때문입니다. 이로 인해 MLOps를 생성형 AI에 맞게 확장한 새로운 운영 패러다임, 즉 GenAIOps가 부상하게 되었습니다.
생성형 AI 시대를 위한 도약 GenAIOps
생성형 AI의 등장은 또 한 번의 패러다임 전환을 요구했습니다. MLOps를 생성형 AI에 맞게 확장한 GenAIOps는 모델을 직접 학습시키는 것보다 사전 학습된 파운데이션 모델을 ‘활용’하여 지능형 애플리케이션을 구축하는 데 초점을 맞춥니다. 이로 인해 새로운 운영 요소들이 중요해졌습니다.
우선 사실상의 소스 코드인 프롬프트를 체계적으로 관리하고 테스트하는 ‘프롬프트 관리’가 필수적입니다. 또한, 모델의 정확도뿐만 아니라 응답의 정확성, 비용, 지연 시간 등 비즈니스 요소까지 종합적으로 고려하는 ‘고도화된 평가’가 요구됩니다. 나아가 모델이 기업의 최신 내부 데이터를 실시간으로 참조하여 답변하게 함으로써 ‘환각’ 현상을 줄이고 정보 신뢰도를 높이는 ‘검색 증강 생성(RAG)’ 기술이 핵심으로 자리 잡았습니다. 마지막으로 모델이 부적절하거나 유해한 컨텐츠를 생성하지 않도록 입력과 출력을 검사하여 필터링하는 안전장치인 ‘가드레일’을 반드시 구축해야 합니다.
지능형 워크플로우 운영 AgentOps
GenAIOps가 ‘애플리케이션’ 운영에 초점을 맞춘다면 AgentOps는 한 걸음 더 나아가 스스로 추론하고 외부 도구를 사용해 실제 작업을 ‘수행’하는 AI 에이전트 시스템을 운영합니다. 이는 단순히 정보를 생성하는 것을 넘어 지능적인 워크플로우를 자동화하는 새로운 차원의 패러다임입니다.
AgentOps 파이프라인을 구축하기 위해서는 먼저 에이전트가 사용하는 다양한 도구를 중복 개발 없이 재사용하고 접근을 통제하며 쉽게 발견할 수 있도록 하는 ‘도구 관리 및 레지스트리’가 필요합니다. 다음으로 단순 응답의 품질을 넘어 에이전트의 전체 ‘사고 과정(reasoning chain)’을 평가하는 ‘고도화된 에이전트 평가’가 요구됩니다. 뿐만 아니라, 현재 대화의 맥락을 위한 ‘단기 기억’과 여러 세션의 정보를 영구 저장하는 ‘장기 기억’을 관리하는 ‘메모리 아키텍처’를 통해 복잡하고 일관성 있는 상호작용을 구현해야 합니다. 궁극적으로는 복잡한 문제를 해결하기 위해 여러 전문 에이전트가 협력하게 되므로 사용자의 요청을 분석하여 작업을 분배하고 전체 워크플로우를 조율하는 ‘오케스트레이션 및 다중 에이전트 시스템’이 중요해집니다.
구글 클라우드와 함께 AgentOps 시대를 선도하기
살펴본 바와 같이 DevOps에서 AgentOps에 이르는 진화는 기술 복잡성에 대응하기 위한 필연적인 결과라 할 수 있습니다. AgentOps는 더 이상 먼 미래가 아니며, 오늘날 기업이 실제로 구현하는 실용적인 기술 분야입니다.
구글 클라우드는 Vertex AI, Cloud Run, Cloud Build, BigQuery 등 AgentOps의 전체 생명주기를 지원하는 강력하고 통합된 아키텍처를 제공합니다.
구글 클라우드의 다양한 도구와 플랫폼 통해 기업은 멀티 에이전트를 배포하고 운영하는 데 필요한 복잡한 인프라 관리 부담을 덜고, 비즈니스 가치를 창출하는 지능형 에이전트 개발 본연의 작업에 집중할 수 있습니다. AgentOps 시대는 이미 시작되었습니다. AgentOps를 조직의 AI 전환의 토대로 삼고자 한다면 메가존소프트가 도움을 드리겠습니다.