Google Cloud Platform(GCP)

빅쿼리 파티셔닝과 클러스터링에 대한 이해

빅쿼리는 대용량 데이터 처리를 위해 데이터를 일별로 분리해서 분할 저장하는 파티셔닝 기능을 제공한다. 파티셔닝은 테이블에 파티션 데코레이터를 지정해서 UTC 타임존 기준 원하는 날짜 혹은 데이터 생성 날짜로 데이터를 분할 저장하는 기법이다. 데이터가 날짜 범위로 분할되어 저장하기 때문에 쿼리 요청시 분할 날짜를 이용하여 처리 대상 데이터의 범위를 줄일 수 있는 장점을 가진다. 하지만 파티셔닝은 일기준으로만 데이터가 …

빅쿼리 파티셔닝과 클러스터링에 대한 이해 더 보기 »

구글클라우드플랫폼 요금 계산하기

GCP 과금에 관한 자세한 내용은 구글 클라우드 플랫폼에 사이트에 정리되어 있고 GCP 과금 계산기(https://cloud.google.com/products/calculator/)를 이용해 자세하게 계산할 수 있다. 이 문서는 데이터 분석 파이프라인에 사용되는 각 GCP 서비스가 어떤 방식으로 과금 하는지에 대해 대략적으로 이해하는데 도움을 주고자 제작한 문서이다. 해당 글은 모두 도쿄 리전 기준으로 설명한다. 클라우드 펍섭 https://cloud.google.com/pubsub/pricing 월 데이터 전송 10GiB까지 무료이다. 이후에는 …

구글클라우드플랫폼 요금 계산하기 더 보기 »

에어플로우를 통한 스케쥴링 처리

에어플로우 설치 아파치 에어플로우는 데이터 처리 파이프라인을 조율하기 위해 만들어진 오픈 소스 소프트웨어이다. 구글 클라우드 플랫폼은 이를 클라우드 컴포저라는 이름으로 쉽게 사용할 수 있도록 서비스 형태로 제공하고 있다. 하지만 클라우드 컴포저는 쿠버네티스로최소 3개의 워커노드를 사용을 요구하며 그외에 추가적인 부가 사용료를 따져보면 월에 700달러 이상의 요금이 부과된다. 따라서 우리는 컴퓨트 엔진에서 서버 인스턴스를 생성한 후 에어플로우를 …

에어플로우를 통한 스케쥴링 처리 더 보기 »