Storage Insights datasets, 스토리지 지출을 최적화 하는 방법
Cloud Storage Intelligence의 기능 중 하나로 클라우드 스토리지에 저장된 방대한 양의 데이터에 대한 심층적인 가시성을 확보할 수 있도록 돕는 강력하고 자동화된 도구입니다.
Storage Insights datasets는 Cloud Storage 데이터에 대한 심층적인 가시성을 확보할 수 있는 강력하고 자동화된 방법을 제공하며, Cloud Storage 객체 및 해당 활동에 대한 포괄적인 보고서를 생성하여 BigQuery에 연결된 dataset에 직접 배치합니다.
원시 스토리지 메타데이터를 구조화되고 쿼리 가능한 데이터로 변환하여 익숙한 BigQuery 도구로 분석하여 중요한 통찰력을 얻을 수 있으며, 초기 설정 후(첫 Data Load에 최대 48시간 소요) 24시간마다 자동 데이터 갱신이 됩니다.
주요 특징
- 사용자 정의 가능한 범위: 데이터 세트 범위를 조직, 프로젝트가 포함된 폴더, 프로젝트/프로젝트 집합 또는 특정 버킷 수준으로 설정합니다.
- 메타데이터 데이터 세트: BigQuery에서 직접 버킷 및 객체 메타데이터가 포함된 쿼리 가능한 데이터 세트를 제공합니다.
- 정기적인 업데이트 및 보존: 첫 로드 후 데이터 세트는 24시간마다 메타데이터로 업데이트되며 최대 90일 동안 데이터를 보존할 수 있습니다.
사용 사례
클라우드 관리자 및 FinOps 팀이 비용을 관리하고 가시성을 확보하는 데 유용합니다.
- 비용 할당 및 쇼백(Showback) 계산: BigQuery에서 SQL 쿼리를 실행하여 팀, 프로젝트 또는 애플리케이션별 스토리지 사용량을 집계할 수 있습니다.
- 스토리지 클래스별 데이터 분포 파악: 객체가 어떤 스토리지 클래스(Standard, Nearline, Coldline, Archive)에 저장되어 있는지 분석하여 잠재적으로 잘못 분류된 데이터를 식별할 수 있습니다.
- 수명 주기(Lifecycle) 및 자동 클래스(Autoclass) 정책 최적화: 객체 수명 주기 관리(OLM)나 Autoclass 정책이 설정되지 않은 버킷을 식별하여 비용을 절감할 기회를 찾을 수 있으며, Autoclass 정책이 예상대로 작동하는지 평가하고 그 효과를 분석할 수 있습니다.
- 데이터 정리 및 최적화
- 크기, 이름 또는 체크섬(crc32c)과 같은 메타데이터를 사용하여 중복된 객체를 신속하게 찾아냄
- 특정 명명 규칙(
*_temp
,*.tmp
)을 가진 임시 파일을 찾아 낭비되는 스토리지를 확보
- 특정 날짜보다 오래된 모든 객체를 나열하여 규정 준수를 위한 보관 또는 삭제 조치를 쉽게 실행