요즘 AI 인프라 관련 소식에서 자주 보이는 단어가 있습니다. 바로 추론(Inference)입니다. 몇 년 전만 해도 AI 인프라와 늘 짝지어 다니던 단어는 훈련(Tanning)이었습니다. 요즘은 훈련보다 추론이 더 많이 보이고 있는데요. 그 이유는 다름 아니라 AI가 이제 본격적으로 사내, 대외 서비스에 적용되기 시작했다는 것입니다. 훈련, 최적화를 마친 모델을 프로덕션 환경에 배포해 서빙하는 곳이 많다 보니 자연스럽게 관심사가 훈련에서 추론으로 옮겨간 것입니다. 관련해 이번 포스팅에서는 훈련과 추론 워크로드를 어떻게 더 효율적으로 처리할 것인지에 대한 이야기를 해볼까 합니다.
학습과 추론의 차이
AI 모델 라이프사이클의 두 축인 학습과 추론은 겉보기엔 비슷해 보이지만 실제 자원 소비 패턴과 인프라 요구 사항은 정반대입니다. 이를 명확히 구분하지 않을 경우 자원 낭비나 성능 저하를 초래할 수 있습니다. 그렇다면 어떤 차이가 날까요?
학습은 수조 개의 파라미터를 최적화하는 과정으로 막대한 연산 능력이 필요한 슈퍼컴퓨팅의 영역이라 할 수 있습니다. 이 과정에서 가장 중요한 것은 갱 스케줄링(Gang Scheduling)입니다. 학습 작업은 수천 개의 GPU가 유기적으로 연결되어 동시에 동작해야 하는데 단 하나의 노드라도 준비되지 않으면 전체 작업이 멈추게 됩니다. 따라서 모든 자원이 준비될 때까지 기다렸다가 한 번에 할당하는 방식이 필수입니다. 또한, 노드 간 빈번한 데이터 교환이 발생하므로 초고속 네트워크를 통해 물리적 거리를 최소화하는 배치가 중요합니다. 작업 시간도 길어 장애 발생 시 학습 내용을 저장하고 복구하는 체크포인트(Checkpoint) 기능이 있어야 합니다.
반면에 추론은 학습된 모델을 실제 서비스에 배포하는 단계로 사용자 반응 속도가 중요한 웹 서비스의 성격을 가집니다. 사용자 트래픽은 예측이 어렵기 때문에 유연성이 무엇보다 중요합니다. 사용자가 없을 때는 자원을 0으로 줄이고 접속이 폭주할 때는 빠르게 자원을 늘리는 오토스케일링이 비용 관리의 핵심이 됩니다. 또한, 최고 성능의 GPU만 고집해야 하는 학습과 달리 추론은 서비스 목표 속도(Latency)에 맞춰 로드밸런서, TPU 등 다양한 하드웨어를 조합하여 비용 효율을 높일 수 있다는 차이점이 있습니다.
GKE와 Slurm 중 무엇을 쓸 것인가?
구글 클라우드 환경에서 훈련과 추론을 위한 효율적인 인프라 활용을 고민하다 보면 GKE와 Slurm으로 선택지를 좁히게 됩니다. 각각의 개념과 특징을 알아보자면 먼저 GKE는 컨테이너 관리의 표준인 쿠버네티스를 구글 클라우드 인프라 위에서 완전 관리형으로 제공하는 서비스입니다. 최근 쿠버네티스는 AI 워크로드를 위한 기능을 대폭 강화하며 단순한 관리 도구를 넘어 AI를 위한 운영 환경으로 진화하고 있습니다. 이를 좀 자세히 짚어 보겠습니다.
기존 쿠버네티스는 순차적 작업 처리에 익숙해 대규모 동시 작업에 약점이 있었습니다. 이는 Kueue라는 AI 특화 스케줄러로 보완되었습니다. Kueue는 작업 대기열을 효율적으로 관리하고 갱 스케줄링을 지원하여 자원 교착 상태(Deadlock)를 방지합니다. 또한, 여러 노드에 걸쳐 실행되는 LLM을 위해 LeaderWorkerSet 기능도 도입했습니다. 이를 통해 분산된 자원들을 슈퍼 파드(Super Pod)라는 하나의 그룹처럼 묶어 안정적으로 관리할 수 있게 되었습니다.
다음으로 Slurm은 수십 년간 슈퍼컴퓨터 센터에서 검증된 워크로드 관리 도구입니다. 구글 클라우드는 Cluster Director라는 도구로 클라우드 환경에서도 Slurm을 손쉽게 사용할 수 있도록 지원하고 있습니다.
예전에는 클라우드에 Slurm을 구축하려면 복잡한 설정 과정이 필요했지만 Cluster Director를 사용하면 이야기가 달라집니다. 웹 콘솔에서 검증된 아키텍처를 선택하기만 하면 클러스터를 즉시 배포하고 관리할 수 있습니다. 기술적으로 Slurm은 하드웨어의 물리적 위치를 파악하여 통신이 잦은 작업끼리 가까운 노드에 배치하는 능력이 뛰어납니다. 이는 AI 모델의 학습 속도를 높이는 결정적인 요소로 작용합니다.
또한, Slurm은 연구원 친화적인 환경을 제공한다는 장점이 있습니다. 많은 AI 전문가들이 대학이나 연구소 시절부터 Slurm 명령어를 사용해 왔기 때문에 기존 연구 코드를 수정 없이 클라우드에서 그대로 사용할 수 있어 연구 생산성을 크게 높여줍니다. 실제 성공 사례로 LG AI 연구원은 엑사원 3.5 학습에 구글 클라우드의 Slurm을 활용했습니다. LG AI 연구원은 Cluster Director 덕분에 일주일 걸리던 구축 시간을 하루 미만으로 단축했고 최소한의 인력으로 대규모 클러스터를 효율적으로 운영할 수 있었습니다.
하나가 아니라 둘 다 활용하는 전략이 필요
그렇다면 두 플랫폼 중 무엇을 선택해야 할까요? 결론부터 말하자면 두 플랫폼은 경쟁 관계가 아닌 상호 보완적인 관계에 있으며 조직의 목표와 AI 워크로드 특성에 따라 선택이 달라집니다.
GKE는 유연한 서비스 운영과 마이크로서비스 아키텍처를 지향하며 AI 모델 추론이나 MLOps 파이프라인, 소규모 학습에 최적화되어 있습니다. 반면에 Slurm은 전통적인 HPC 방식대로 자원을 독점하여 대규모 배치 작업을 처리하는 데 특화되어 있어, 대규모 사전 학습이나 시뮬레이션에 적합합니다.
확장성과 자원 관리 방식도 다릅니다. GKE는 트래픽 변화에 즉각적으로 반응하는 이벤트 기반의 확장을 지원하며 자원을 잘게 쪼개어 빈틈없이 사용하는 효율성을 중시합니다. 이와 달리 Slurm은 작업 대기열에 맞춰 계획적으로 확장하는 큐 기반 방식을 따르며 작업이 끝날 때까지 자원을 독점하여 성능의 안정성을 보장하는 데 초점을 맞춥니다. 운영 방식에서도 GKE는 완전 관리형인 Autopilot을 통해 자동화를 지향합니다. 반면에 Slurm은 전문가 주도의 세밀한 설정과 절차적 관리가 필요하다는 특징이 있습니다.

정리하자면 AI 워크로드를 위한 최적의 해답은 양자택일이 아닌 하이브리드(Hybrid) 전략을 취하는 것입니다. 실제로 구글 내부 팀과 선도적인 AI 기업들은 이미 두 가지 방식을 결합한 파이프라인을 적용하고 있습니다.
일반적인 하이브리드 워크플로는 다음과 같습니다. 먼저 학습 단계에서는 연구원들에게 익숙한 Slurm 환경을 구축하여 최고의 성능과 생산성을 목표로 대규모 모델을 학습시킵니다. 이후 학습이 완료되면 추론 단계로 넘어와 모델을 GKE로 이동시킵니다. 여기서는GKE의 유연한 확장성과 비용 효율성을 무기로 트래픽 변화에 민첩하게 대응하고 안정적인 서비스를 제공하는 것입니다. 하나의 플랫폼으로 통일해야 한다는 강박에서 벗어날 필요가 있습니다. ‘학습은 Slurm의 강력함을 추론은 GKE의 유연함을’ 적극적으로 활용하는 이원화 전략이 더 현실적이지 않을까요?



