디지털 전환은 이제 당연한 것이 되었습니다. 이제는 Agentic AI가 모두의 관심사입니다. 이처럼 빠르게 DX/AX로이 전환이 이루어지면 데이터 통합의 중요성이 더 커지는 분위기입니다. 이런 와중에 현장에서는 데이터 스프롤(Data Sprawl) 문제를 어떻게 해결해야 할지 고민이 깊어지고 있습니다. 스프롤은 요즘 참 많이 쓰이는 단어입니다. 스토리지, 툴, 데이터 등의 뒤에 붙으면 소재가 다를 뿐 주제는 같습니다. 바로 흩어져 있어 관리가 어렵다는 것입니다. 관련해 이번 포스팅에서는 여러 곳에 분산되어 있어 Agentic AI 시대가 요구하는 데이터 통합의 어려움을 Spanner로 어떻게 해소할 수 있는지 알아보겠습니다.
AI 프로젝트 효율을 떨어뜨리는 요인
AI 프로젝트를 추진 할 때 여러 애로사항이 있지만 아마 데이터가 아닐까요? AI 서비스를 구축하려면 관계형 데이터베이스(RDBMS)부터 복잡한 맥락을 파악하는 그래프 데이터베이스, 그리고 거대언어모델(LLM)의 시각에서 의미를 해석하는 벡터 데이터베이스까지 고려해야 합니다.
이처럼 데이터 플랫폼이 흩어져 있을 때 문제는 무엇일까요? 아마 복잡한 추출·변환·적재(ETL) 과정이 떠오를 것입니다. 이 과정은 실시간 처리하기 어렵다 보니 활용 시점에서 보면 이미 과거의 데이터가 되어 버릴 수 있습니다. 뿐만 아니라 원본에서는 수정되었는데 복사본에는 반영되지 않아 불일치 현상이 깨질 수도 있습니다. 사정이 이렇다 보니 개발자는 끊임없이 발생하는 데이터 파이프라인 오류를 바로잡는 데 많은 시간을 쓸 수 밖에 없습니다.
또한, 데이터가 물리적으로 흩어져 있으면 AI 모델 훈련은 물론이고 프로덕션 환경에 모델을 배포해 추론 서비스를 제공할 때에도 여로모로 불리합니다. 특히 추론 단계에서 AI가 답변을 생성하거나 예측을 수행하려면 최신 맥락을 파악해야 하는데 데이터가 파편화되어 있으면 지연이 발생할 수 있습니다.
AI 시대를 위한 통합 플랫폼
AI 워크로드 측면에서 볼 때 데이터 스프롤 문제를 해결하는 확실한 해법은 ‘통합’입니다. 관련해 다양한 플랫폼의 기능을 하나로 묶을 수 있는 통합 플랫폼에 대한 관심이 높아지고 있습니다. 그러나 단순히 여러 기능을 한데 모아놓았다고 해서 진정한 의미의 통합 플랫폼이라 부를 수는 없습니다. Agentic AI 시대의 다양한 AI 서비스를 뒷받침하려면 최소한 다음과 같은 요건을 충족해야 합니다.
- 상호 운용성(ZeroETL): 관계형, 그래프, 벡터, 전문 검색이 하나의 쿼리 안에서 함께 작동해야 합니다. 데이터 이동이 필요 없는 ZeroETL 환경이 구축되어야 개발 생산성을 높일 수 있습니다.
- 일관성: AI 추론은 최신 데이터를 기반으로 해야 합니다. 멀티 리전 환경에서도 전 세계 모든 읽기 작업이 최신 업데이트를 반영하는 일관성(Strong Consistency)이 필수입니다.
- 확장성과 가용성: 예측 불가능한 AI 트래픽에 대응해 서비스 중단 없이 확장할 수 있어야 하며 미션 크리티컬 워크로드를 위해 극도로 높은 가용성도 보장해야 합니다.
- 클라우드 네이티브 AI 엔진과의 결합: 데이터베이스 외부로 데이터를 유출하지 않고도 임베딩을 생성하거나 ML 모델의 예측 결과를 쿼리 내에서 즉시 활용할 수 있어야 합니다.
통합 플랫폼의 정석 Spanner
AI 시대가 요구하는 통합 플랫폼에 대한 구글 클라우드의 답은 Spanner입니다. 구글 클라우드는 전 세계를 하나의 논리적인 저장소로 묶을 수 있는 기술력을 바탕으로 관계형, 그래프, 벡터 검색 기능을 Spanner라는 단일 인터페이스를 통해 제공합니다. Spanner의 기반은 여전히 강력한 관계형 엔진입니다. ANSI SQL을 완벽하게 지원하며 글로벌 스케일로 99.999%의 가용성을 보장합니다. 기능도 확실합니다.
Spanner의 그래프 기능은 ISO 표준 그래프 쿼리 언어인 GQL을 도입하여 데이터 간의 복잡한 연결 고리를 직관적으로 표현합니다. 기존 관계형 테이블을 데이터 이동 없이 선언형 스키마만으로 그래프로 변환할 수 있습니다. 예를 들어 관광지와 음식점 사이의 관계를 파악할 때 복잡한 자체 조인이나 좌표 계산 대신 그래프 탐색 쿼리 한 줄로 원하는 결과를 찾아냅니다. 이는 금융 사기 탐지나 추천 시스템처럼 실시간으로 관계를 분석해야 하는 분야에서도 유용하게 활용할 수 있습니다.
벡터 검색 또한 스패너 엔진에 내장되어 시맨틱 지능을 구현합니다. 구글의 ScaNN 알고리즘을 활용한 근사 최근접 이웃(ANN) 검색은 대규모 벡터 데이터 속에서도 유사한 정보를 찾아냅니다. 중요한 점은 이러한 벡터 검색이 관계형 SQL이나 그래프 쿼리와 동일한 질의 안에서 함께 실행된다는 것입니다. 예를 들어 ‘해변’이라는 단어를 포함하지 않더라도 ‘해안선’이나’바닷가’와 같은 표현이 담긴 설명을 문맥적으로 이해하여 찾아내는 것이 바로 Spanner 벡터 검색의 힘입니다.
전문 검색 기능은 오타 교정과 자동 동의어 확장을 지원합니다. 가령 ‘가족 친화적’이라는 키워드를 검색할 때 enhnace_query 옵션을 활성화하면 별도의 동의어 사전 관리 없이도 오타 교정과 유사 표현을 자동으로 매칭합니다. 참고로 이 옵션은 Spanner Enterprise와 Enterprise Plus 에디션에서 사용할 수 있습니다.
또한, Vertex AI와 깊이 통합되어 ML.PREDICT 함수를 이용해 자연어 질의를 SQL 안에서 직접 실행할 수 있습니다. 간단히 살펴본 바와 같이 Spanner는 여러 기능을 따로 붙인 부속품처럼 다루지 않고 하나의 인스턴스 안에서 모든 모델이 진정으로 상호 운용되도록 설계한 통합 플랫폼입니다.
통합 아키텍처의 경쟁력
정리하자면 프로덕션 환경에서 운영하는 AI 서비스의 경쟁력은 모델 성능뿐만 아니라 데이터를 얼마나 유기적으로 통합하여 실시간 가치로 변환하느냐에 달려 있습니다. 구글 클라우드의 Spanne는 관계형, 그래프, 벡터 데이터를 단일 엔진으로 완벽하게 통합하여 데이터 사일로와 복잡한 파이프라인이라는 무거운 짐을 덜어줍니다
더 자세한 내용이 궁금하다면, 메가존소프트 문의포탈을 통해 궁금한 부분을 남겨주세요.





