Gemini를 쓰는 데이터 과학자라면 아마 NotebookLM도 함께 잘 사용하고 있을 것입니다. NotebookLM은 빠르게 진화 중이죠. 빠른 주기로 개선이 이루어지다 보니 유튜브에는 NotebookLM의 놀라운 기능을 소개하는 영상들이 넘쳐 납니다. 이번 포스팅에서는 데이터 과학자의 필수 도구로 위상이 높아지고 있는 NotebookLM 활용 방법을 알아보겠습니다. 데이터 마이닝 표준 프로세스인 CRISP-DM을 구글 클라우드와 NotebookLM으로 어떻게 개선할 수 있는지 함께 보시죠.
데이터 과학자의 소중한 도구 NotebookLM
데이터 과학자에게 NotebookML은 거대 언어 모델(LLM) 기반 생성형 AI 서비스와 결이 좀 다릅니다. 구글 클라우드의 NotebookLM은 사용자가 업로드한 소스에만 근거하여 답변을 생성하는 소스 기반 AI(Source-Grounded AI) 방식을 택한 서비스입니다. 무슨 말이냐 하면 사용자가 직접 업로드한 문서, 예를 들어 사내 보고서, 기술 백서, 분석 자료 등만을 참고하여 답변을 생성하며, 인터넷을 검색하거나 학습 데이터에서 임의로 내용을 가져오지 않습니다. 이것이 바로 소스 기반 AI의 의미입니다.
이 방식은 데이터 과학자에게 매우 큰 도움이 됩니다. NotebookLM은 답변마다 어느 문서의 어느 부분에서 근거를 가져왔는지 인용을 함께 제공합니다. 덕분에 데이터 과학자는 결과를 신뢰하고 검증하는 과정이 훨씬 수월해집니다.
이러한 특성을 바탕으로 NotebookLM은 단순한 질의응답 도구를 넘어 다음과 같은 ‘지식 실험실’ 역할을 수행합니다. 업로드된 자료들을 토대로 가설 수립, 교차 분석, 패턴 발견, 결과 정리까지 데이터 마이닝의 전 과정을 한 공간에서 지원하는 것이죠. 이러한 특징이 실제 업무 현장에서 어떻게 빛을 발하는 지는 다음 섹션에서 CRISP-DM를 예로 살펴보겠습니다.
- 도메인 컨텍스트의 즉각적 확보: 과거에는 데이터 과학자가 새로운 산업군 이해를 위해 수개월간 문헌을 뒤져야 했으나 이제는NotebookLM에 수천 페이지의 산업 보고서와 기술 백서를 업로드하여 핵심 로직을 빠르게 학습할 수 있습니다.
- 비정형 데이터의 구조화 및 통찰 추출: 기업 데이터의 대부분을 차지하면서도 소외되었던 이미지나 PDF 같은 비정형 데이터가 이제는 핵심 자산이 됩니다. NotebookLM의 Data Tables 기능을 활용하면 무질서한 리포트에서 핵심 변수를 구조화된 표로 자동 추출하여 Google Sheets로 직접 내보내고(Export) 즉각적인 분석의 토대로 활용할 수 있습니다.
- 의미론적 추론과 교차 문서 분석: 단순히 개별 문서를 요약하는 수준을 넘어 여러 논문과 사내 가이드라인 사이의 연결 고리를 찾아냅니다. 특정 알고리즘이 내부 보안 기준이나 컴플라이언스를 충족하는지 다각도로 검토하여 분석 설계의 논리적 허점을 사전에 보완합니다.
- 실험 로그 분석 및 지능적 디버깅: 엔지니어가 자연어로 물어보면 복잡한 SQL 패턴을 분석하듯, NotebookLM은 수개월간 기록된 실험 로그를 분석해 성능 향상에 기여한 핵심 변수를 찾아내고 에러 원인을 설명하여 디버깅 시간을 획기적으로 줄여줍니다.
모델링 사이클의 혁신
이제 앞서 소개한 NotebookLM의 특징이 CRISP-DM에 어떻게 적용되는지 살펴보겠습니다.

보통 CRISP-DM은 비즈니스 이해, 데이터 이해, 데이터 준비, 모델 구축, 평가, 배포 단계를 순서대로 밟아 갑니다. 앞 단계가 끝나야 다음 단계로 넘어가는 흐름입니다. 이 흐름에 생성형 AI 기술을 활용하면 어떤 변화가 일어날까요? 구글 클라우드는 각 단계에 생성형 AI 기술을 접목해 순차적으로 단계가 넘어가는 방식에서 벗어나 평가 과에 따라 이전 단계로 자동으로 되돌아가 개선을 할 수 있는 구조를 만들었습니다.
- 비즈니스 및 데이터 이해: NotebookLM이 구축한 지식 소스를 바탕으로 모호한 요구사항을 구체적인 KPI로 변환합니다. Gemini in BigQuery의 대화형 분석(NL2SQL) 기능은 단순 문법 변환을 넘어 미세한 뉘앙스까지 잡아내어 데이터 품질을 즉각 파악합니다.
- 데이터 준비(Prep) 및 합성 데이터: 온프레미스 환경에서 데이터베이스 내부 처리 능력의 한계로 외부 변환이 필요했던 ETL 방식과 달리, 클라우드 환경에서는 데이터를 먼저 적재한 뒤 내부에서 변환하는 ELT 방식이 표준이 됩니다. Vertex AI를 통해 고품질 합성 데이터를 생성하여 학습 범위를 넓히고, BigQuery의 AI.GENERATE 함수(정형·비정형 데이터를 SQL 환경에서Gemini 모델로 분석·보강하는 범용 추론 함수)로 모델의 강건성을 확보합니다.
- 구축(Build) 및 평가(Eval) 루프: 지능형 에이전트가 하이퍼파라미터 튜닝을 자율적으로 수행합니다. 데이터 검증 도구(DVT)는 행 수 비교뿐만 아니라 해시(Hash) 값을 비교하여 데이터 유실이나 왜곡 여부를 꼼꼼하게 확인합니다. 평가 결과가 미흡할 경우 즉시 데이터 재정제 단계로 돌아가는 피드백 루프가 가동됩니다.
- 배포 및 지능형 운영: 배포 이후에는 운영 중 데이터 드리프트(Data Drift, 시간이 지남에 따라 입력 데이터의 통계적 특성이 변화하는 현상)를 실시간 모니터링하는 지능형 운영(LLMOps) 환경으로 이어집니다. AI는 쿼리 패턴을 분석하여 최적의 파티셔닝 기준을 제안하는 등 구체적인 비용 절감 및 성능 개선 방안을 끊임없이 제시합니다.
위 내용을 보면 NotebookML의 용도가 비즈니스 및 데이터 이해에 한정된 것처럼 보일 것입니다. 반은 맞는 말입니다. 데이터를 탐색하고 가설을 세우는 초기 단계에는 NotebookML을 활용해 대량의 문서와 데이터에서 패턴과 방향을 빠르게 포착합니다. 그리고 이후 실제 검증과 모델 구축 단계에서는 Python, SQL, Vertex AI 같은 언어와 도구를 사용해 정밀하게 증명합니다.
추가로 NotebookML의 역할은 분석 후까지 이어집니다. 분석이 완료된 후 데이터 과학자는 NotebookML을 활용해 마케팅, 영업, 경영진 등이 이해할 수 있는 비즈니스 언어로 내용을 정리할 수 있습니다. NotebookML이 제공하는 다양한 보고서 스타일, 슬라이드, 인포그래픽 등 형식도 자유롭게 선택할 수 있습니다. 정리하자면 분석 후 현업 사용자와 데이터 과학자 간 소통 도구로도 NotebookML을 효과적으로 쓸 수 있다는 것입니다.
지금 바로 도전 가능한 목표
NotebookLM을 통해 지식의 한계를 넓히고 현대화된 프로세스로 실행력을 갖추어 보십시오. 데이터 속에 숨겨진 비즈니스의 미래를 통찰하는 가장 강력한 무기는 이미 준비되어 있습니다.
더 자세한 내용이 궁금하다면, 메가존소프트 문의포탈을 통해 궁금한 부분을 남겨주세요.




