Data/Data Catalog

Google Data Catalog

안녕하세요.

 

구글 클라우드에서 베타, 출시 예정인 Data Catalog에 대해 알아보겠습니다.

 

Data Catalog란?

확장성이 우수한 완전 관리형 데이터 탐색 및 메타데이터 관리 서비스입니다.

 

 

Data Catalog를 사용한 Google Cloud 데이터 검색

자세한건 Cloud Next 19를 통해서 자세히 알아보겠습니다.

출처 : https://www.youtube.com/watch?time_continue=397&v=Qq76r-z_50c

 

 

1. 데이터 카탈로그는 완벽하게 관리되고 확정성이 뛰어난 데이터 검색메타 데이터 관리 서비스입니다.

 

  • 서로 다른 시스템에 분산되어 있는 풍부한 데이터에 직면 해 있는 조직은 데이터 검색을 위한 효과적인 솔루션이 필요
  • 여러 프로젝트 및 시스템에 분산되어 있는 모든 데이터 자산의 통합 데이터 검색을 제공
  • 사용자가 협업 방식으로 비즈니스 메타 데이터에 주석 사용 가능
  • 데이터 거버넌스(데이터의 가용성, 유용성, 통합성, 보안성을 관리하기 위한 정책과 프로세스를 다룸)의 기초 제공

구글 Data Catalog 서비스에서 핵심이 되는 기능은 데이터 검색메타 데이터 관리입니다. 

 

서로 다른 시스템에 분산되어 있는 데이터에 접근하기 위해서는 해당 시스템에 접근하여 데이터를 찾는 번거로움이 있습니다. Data Catalog는 데이터 검색 및 메타 데이터 관리를 통해 이 부분을 효율적으로 처리할 수 있죠.

 

 

2. 데이터 카탈로그 기능 하이라이트

  • 데이터 검색을 위한 간단한 검색 인터페이스 제공
  • 모든 메타 데이터 작업에 대한 UI 및 API 지원
  • 체계화 된 태그를 통해 비즈니스 메타 데이터 지원
  • GCP(구글 클라우드 플랫폼) 데이터 자산의 기술 메타 데이터 자동 수집
  • 메타 데이터에 ACL(Access Control Levels-액세스 수준 제어)  적용
  • DLP(Cloud Data Loss Prevention-클라우드 데이터 손실 방지) 통합을 통해 PII(Personally identifiable information-개인식별정보) 데이터 자동 태그 지정

 

3. 데이터 카탈로그 아키텍쳐

데이터 카탈로그는 오랫동안 널리 사용되는 Google 내부 메타 데이터 관리 서비스의 아키텍처와 혁신을 활용

  • 모든 메타 데이터 항목을 저장하기 위해 전 세계적으로 분산되어 있으며 매우 일관된 데이터베이스인 Spanner - Spanner는 'Cloud Spanner' 구글의 관계형 DB 서비스입니다. consistent database(일관된 DB)는 Spanner가 읽거나 쓰기가 성공해서 트랜잭션이 발생하였을 경우, 기존의 기본키/외래키 같은 무결성 제약조건이나 데이터간 정합성이 일치하는 상태가 유지돼야 하는 것을 말합니다.
  • 기술 메타 데이터의 자동 처리를 위한 실시간 및 배치
  • 데이터 검색을 위한 ACL 검사 기능이 내장 된 Google 검색 색인  Gmail 및 Google 드라이브를 지원하는 것과 동일한 기술을 사용

 

4. 손끝에서의 데이터 탐색

  • UI를 통해 모든 메타 데이터에 대한 검색, 읽기 및 쓰기 액세스 가능
  • 간단한 키워드 검색 인터페이스로 비즈니스 및 기술 사용자 모두 가능
  • 패싯 검색으로 고급 사용자 가능

    type:view

    column:keyword

    tag:approved_for_use:true

    tag:data_classification:confidential

    tag:has_pii:true

    tag:type_pii:ssn

 

제공해주는 UI와 검색 인터페이스를 통해 메타데이터 검색, 읽기 및 쓰기 액세스가 가능하고 비지니스 메타 데이터를 통해 패싯 검색으로 정확한 결과를 확인할 수 있습니다.

 

 

5. API를 통한 프로그래밍 방식의 액세스

  • 전체 메타 데이터 액세스를 위한 읽기, 쓰기 및 검색 API
  • API가 대량 메타 데이터 업데이트를 지원

        Python, JAVA 및 Node.js 언어 라이브러리가 있는 베타 API

 

  • 엔터프라이즈 응용 프로그램 및 사용자 정의 프론트 엔드를 가능하게 하는 API

        GOJEK and others

 

 

 

전체 메타 데이터 액세스를 위한 읽기, 쓰기 및 검색 API를 제공합니다. 커스텀을 할 경우 프론트엔드에서 원하는 기능 및 UI를 추가하고 백엔드에 제공되는 API를 사용해서 간단히 커스텀할 수 있습니다. GOJEK은 이러한 방식으로 API를 사용한 회사입니다.

 

 

6. 기술 및 비즈니스 메타 데이터

기술 메타데이터(데이터 소스에서 자동 수집)

  • 테이블 이름, 열 이름
  • 테이블 기술, 열 기술
  • 생성 된 데이터, 수정된 데이터

비즈니스 메타데이터(사용자 제공 / 유추)

  • 테이블에 PII 유무
  • 데이터 품질 소유자
  • 삭제 날짜
  • 보유 날짜
  • 열을 계산하는 데 사용되는 비즈니스 로직
  • 데이터 품질 점수

기술 메타데이터와 비지니스 메타데이터의 구분입니다. 기술 메타데이터는 데이터에 대한 필수 메타데이터라고 하면 비지니스 메타데이터는 그 외 정보나 사용자 주석이나 메모와 같은 부가적인 설명을 추가한 메타데이터라고 생각하시면 됩니다.

 

 

7. 비즈니스 메타 데이터에 대한 체계화된 태그

비지니스 메타데이터를 통해 데이터의 추가 설명이나 주석을 달아 놓음으로써 데이터에 대한 정보를 보다 자세히 알 수 있고 검색의 폭이 넓어지면서 해당 메타 데이터의 접근이 정확하고 쉬워집니다.

 

 

8. IAM(Cloud Identity and Access Management)이 관리하는 메타 데이터 액세스

액세스 권한에 대한건 Data Catalog에서 ACL이 사용되고 있습니다. 예를 들어 위와 같이 사용자1에는 모든 권한이 있는 반면 사용자2는 ABC에는 모든 권한이 있지만 D에는 읽기에 대한 권한은 있어 검색결과에 뜨지만 데이터셋의 내용은 확인할 수 없습니다. 데이터셋 E에서는 모든 권한이 없기 때문에 검색 결과에서도 확인할 수 없습니다.

 

 

9. 비즈니스 메타 데이터에 대한 ACL 제어

데이터 관리자 권한과 데이터 분석가 권한을 통해 태그단위로 권한을 설정할 수 있습니다. 예를 들어 위와 같이  데이터 관리자는 전체 태그를 확인할 수 있지만 데이터 분석가 권한에서는 'data governance'의 태그의 권한이 없기 때문에 제외하고 확인할 수 있습니다.

 

 

10. DLP 통합으로 BigQuery에서 PII 데이터 자동 태그 추가

DLP(Data Loss prevention)서비스를 통해 내부정보유출을 방지합니다. DLP서비스는 데이터를 스캔하고 개인정보에 포함되는 데이터를 발견할 경우 위와 같이 자동으로 PII태그를 추가합니다. PII태그가 포함되어있으면 권한에 따라 접근이 가능하도록 하여 개인정보유출을 방지합니다.

 

 

11. 가격 및 가용성

메타 데이터 가격 책정

  • 처음 1MB의 메타 데이터 저장
  • 1MB 이상으로 저장된 메타 데이터의 월 GB 당 100달러

카탈로그 API 호출 가격

  • 한 달에 처음 백만 카탈로그 API 호출에 대한 요금 없음
  • 1개월 당 월 10만건의 API 호출 당 $10

2019 년 2 사분기 제공 제품

 

 

12. 파트너십 및 통합

  • Google과의 관계는 최근 몇 달 동안 가속화되었으며 이 파트너십은 조직을 성공으로 이끄는 데이터 거버넌스의 토대를 제공하겠다는 공동의 노력의 다음 단계일 뿐입니다. 기술을 통합하고 기업 조직이 비즈니스에 필수적인 데이터를 보다 쉽게 ​​이해하고 사용할 수 있도록 상호 목표를 가지고 파트너 관계를 계속 구축하게 된 것을 기쁘게 생각한다고 합니다.

 

이상으로 Google Data Catalog에 대한 설명을 마치도록 하겠습니다.

 

감사합니다.

728x90

'Data > Data Catalog' 카테고리의 다른 글

Data Lake란 무엇인가?  (0) 2019.12.23