얼마 전에 AI 커뮤니티를 뜨겁게 달군 주인공이 등장했습니다. 네, 다들 아시는 ‘DeepSeek’입니다. GPU 컴퓨팅 자원을 공격적으로 투입하지 않아도 ‘최적화’가 가능하다는 가능성을 보여준 사례다 보니 관심이 정말 폭발적이었습니다. 이번 포스팅에서는 DeepSeek을 구글 클라우드의 Cloud Run을 활용해 배포하는 방안을 알아보겠습니다.
DeepSeek AI 주요 모델 라인업 및 기술적 특징 분석
DeepSeek AI는 2023년에 설립된 연구 중심 기업입니다. DeepSeek AI는 다양한 목적과 성능 요구 사항을 만족하기 위해 여러 모델 라인업을 제공합니다. 각 모델은 특정 작업에 최적화되어 있어, 개발자는 프로젝트 필요에 따라 적합한 모델을 선택하여 활용할 수 있습니다. 주요 모델은 다음과 같습니다.
- DeepSeek-V3: 이 모델은 방대한 파라미터를 가진 범용 언어 모델로 텍스트뿐 아니라 이미지와 음성까지 처리하는 멀티 모달 기능을 갖추고 있습니다. 특히 MoE 아키텍처를 적용해 각 토큰을 처리할 때 일부 파라미터만 활성화하여 효율성을 높였습니다. 이 모델은 주로 컨텐츠 생성, 문서 작성, 번역, 일반적인 질의응답(Q&A) 등 광범위한 자연어 처리 작업에 적합하며 코딩 및 수학 문제 해결 능력도 뛰어난 것으로 평가받습니다.
- DeepSeek-R1: DeepSeek-V3를 기반으로 개발된 추론 강화 모델입니다. 복잡한 문제 해결을 위해 단계별 사고(chain of thought) 과정을 생성하는 능력이 특징입니다. 강화 학습을 통해 추론 능력을 극대화하여, 복잡한 수학 문제 해결, 코딩 챌린지, 과학적 추론, 다단계 계획 수립 등 고도의 논리적 사고가 요구되는 작업에 특화되어 있습니다.
- DeepSeek-Coder 시리즈: 코드 생성, 버그 감지, 코드 완성 등 소프트웨어 개발 지원에 중점을 둔 모델입니다. 예를 들어 DeepSeek-Coder-V2는 MoE 아키텍처를 사용하며 대량의 토큰으로 추가 학습되어 코드 관련 작업에서 높은 성능을 보입니다. 다수의 프로그래밍 언어를 지원하여 개발자의 생산성 향상에 기여할 수 있습니다.
- Distilled Models: DeepSeek-R1과 같은 대형 모델의 추론 능력을 기존 오픈 소스 모델에 증류(distillation)하여 만든, 더 작고 효율적인 모델군입니다. 이 모델들은 대형 모델이 생성한 고품질 추론 샘플을 사용해 미세 조정되며, 강화 학습 단계 없이 지도 학습만으로도 뛰어난 추론 성능을 내는 것을 목표로 합니다. 리소스 제약이 있는 환경이나 특정 작업에 최적화된 경량 모델이 필요할 때 유용하게 활용할 수 있습니다.
참고로 모델 선택과 배포에 앞서 라이선스 조건을 꼼꼼하게 봐야 합니다. DeepSeek 모델은 일반적으로 MIT 라이선스 또는 유사한 개방형 라이선스를 따르므로 상업적 사용, 수정, 파생 작업 생성이 허용되는 편입니다. 다만, Distilled 모델처럼 다른 모델을 기반으로 한 경우에는 Llama, Qwe 같은 원본 모델의 라이선스 조건까지 함께 준수해야 합니다. 따라서 사용하려는 특정 모델의 정확한 라이선스 내용은 반드시 공식 채널을 통해 확인하시기 바랍니다.
Cloud Run과 GPU를 이용한 DeepSeek 모델 배포
DeepSeek AI 모델의 기능을 효과적으로 활용하려면 효율적이고 확장 가능한 배포 환경을 구축하는 것이 중요합니다. 구글 클라우드의 Cloud Run은 서버리스 환경에서 컨테이너화된 애플리케이션을 배포하고 GPU 가속을 활용할 수 있는 좋은 솔루션 중 하나입니다. Cloud Run과 GPU를 함께 사용하면 AI 추론 워크로드를 배포할 때 다음과 같은 장점이 있습니다.
- 서버리스 환경의 운영 효율성: Cloud Run은 완전 관리형 플랫폼이므로 인프라 관리에 대한 부담 없이 애플리케이션 실행에 집중할 수 있도록 지원합니다. 컨테이너 기반으로 작동하기 때문에 다양한 언어나 프레임워크로 작성된 애플리케이션을 쉽게 배포할 수 있으며, DeepSeek 모델을 실행하는 Ollama 환경 역시 컨테이너화하여 배포할 수 있습니다.
- GPU 가속을 통한 성능 향상: Cloud Run은 NVIDIA L4 GPU와 같은 고성능 GPU를 지원하여, LLM 추론처럼 계산량이 많은 작업의 처리 속도를 대폭 높일 수 있습니다. L4 GPU는 충분한 VRAM을 제공하므로 다양한 크기의 DeepSeek 모델을 로드하고 실행할 수 있는 환경을 마련해줍니다.
- 자동 확장 및 비용 효율성 (Scale-to-Zero): Cloud Run은 들어오는 요청 수에 따라 인스턴스 수를 자동으로 늘리거나 줄입니다. 특히 요청이 없을 때는 인스턴스 수를 0으로 줄이는 ‘scale-to-zero’ 기능 덕분에 유휴 상태에서 발생하는 비용을 최소화할 수 있습니다. 이 기능은 GPU를 사용하는 서비스에도 적용되어 경제적인 운영이 가능합니다.
- Ollama와의 시너지 효과: Ollama는 다양한 오픈 소스 LLM을 쉽게 관리하고 실행하도록 돕는 도구입니다. DeepSeek 모델 역시 Ollama Hub를 통해 접근하고 실행할 수 있습니다. Ollama 환경을 Docker 컨테이너로 구성하면, 로컬에서 테스트한 환경을 거의 그대로 Cloud Run에 배포할 수 있어 개발 및 배포 과정의 일관성을 유지하는 데 도움이 됩니다. 이러한 조합은 LLM 실험 단계에서 실제 서비스 배포로의 전환을 원활하게 만들어 LLM 기반 서비스 개발의 민첩성을 높입니다.
DeepSeek 모델 배포 절차 개요
DeepSeek 모델을 Cloud Run에 GPU와 함께 배포하는 과정은 일반적으로 다음과 같은 단계를 거칩니다.
- 사전 준비: 먼저 구글 클라우드 프로젝트를 설정하고 Cloud Run, Artifact Registry, Cloud Build 등 필요한 API를 활성화해야 합니다. 또한, 구글 클라우드 CLI를 설치 및 초기화하고, GPU 할당량을 확보하는 작업이 필요합니다. 배포할 DeepSeek 모델을 선택한 후 Ollama를 사용해 로컬 환경에서 테스트하거나 모델 파일을 미리 다운로드합니다.
- Dockerfile 작성: 다음으로, DeepSeek 모델을 실행할 Ollama 환경을 Docker 이미지로 빌드하기 위한 Dockerfile을 작성합니다. 이 파일에는 기본 이미지 지정, 환경 변수 설정, 모델 파일 포함 전략, 그리고 컨테이너 시작 명령어 등이 정의됩니다.
- 컨테이너 이미지 빌드 및 푸시: 작성된 Dockerfile을 사용해 컨테이너 이미지를 빌드하고 이를 구글 클라우드의 Artifact Registry에 푸시합니다. Cloud Build를 활용하면 서버리스 환경에서 일관되게 이미지를 빌드하고 푸시할 수 있습니다.
- Cloud Run 서비스 배포 및 GPU 설정: 이어서 Artifact Registry에 푸시된 Docker 이미지를 사용해 GPU가 활성화된 Cloud Run 서비스를 배포하고 GPU 설정을 진행합니다. 배포 시에는 서비스 이름, 이미지 경로, 리전, CPU, 메모리, GPU 수량 및 유형, 최대/최소 인스턴스 수, 동시성, 타임아웃, 포트 번호, 실행 환경, 서비스 계정, 인증 설정 등을 구성해야 합니다.
- 배포된 서비스 테스트 및 활용: 마지막으로, 배포된 서비스를 테스트하고 활용합니다. 배포가 완료되면 제공되는 서비스 URL을 통해 DeepSeek 모델과 상호작용할 수 있습니다. Ollama는 OpenAI와 호환되는 API 엔드포인트를 제공하므로, 이를 이용해 HTTP 클라이언트로 요청을 보내고 응답을 받아 애플리케이션에 통합할 수 있습니다.
이러한 과정을 거치면 DeepSeek 모델을 Cloud Run의 관리형 환경에 배포하여 안정적이고 확장 가능한 AI 서비스를 구축할 수 있습니다.
DeepSeek과 Cloud Run으로 AI 혁신을 앞당기다
DeepSeek AI 모델의 효율적인 아키텍처와 Google Cloud Run의 서버리스 GPU 플랫폼은 AI 기술의 접근성을 크게 높이고 있습니다. 이를 통해 다양한 규모의 기업과 개발자들이 최첨단 AI 기술을 활용하여 혁신적인 애플리케이션을 개발하고 새로운 가치를 창출할 기회가 넓어지고 있습니다.
기업과 개발자들은 이 포스팅에서 제시된 내용을 바탕으로 DeepSeek 모델과 Cloud Run 환경을 직접 테스트하고, 프로젝트 요구사항에 가장 적합한 모델 및 배포 전략을 세울 수 있을 것입니다. 또한, 구글 클라우드의 다양한 AI/ML 서비스와 연동하여 더욱 정교하고 확장성 있는 AI 솔루션을 구축하는 것도 고려해 볼 수 있습니다. 더 자세한 내용이 궁금하시다면 메가존소프트가 도움을 드리겠습니다.