Data/Data Catalog

Data Lake란 무엇인가?

안녕하세요 씨앤텍 시스템즈 김준형 입니다.

이번 포스트는 Data Lake에대해 조사했습니다.
자료는 https://digitalbourgeois.tistory.com/72,

https://www.blue-granite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses를 참고 했습니다.

Data Lake에 대한 설명은 다음과 같은 차례로 진행하겠습니다.


1. Data Lake란?

2. Data Lake와 Data Warehouse의 비교

3. Data Lake Framework란?

4. Framework가 사용자에게 제공하는 기능


1. Data Lake란?

오랜시간 데이터들은 정형화된 데이터로만 분석되어왔습니다.

하지만 빅데이터와 인공지능 기술의 중요성이 커지면서 다양한 영역의 다양한 데이터가 만나 새로운

가치를 만들어내기 시작했습니다.

이와 같이 빅데이터를 효율적으로 분석하고 사용하고자 다양한 영역의 Raw 데이터를 한곳에 모아서

관리하고자 하는 것을 Data Lake라 합니다.

 

2.  Data Warehouse 와 Data Lake의 비교

 

Data Warehouse와 Data Lake를 비교해 보며 각 장단점을 알 수 있었습니다.

3. Data Lake Framework란?

Data Lake 데이터 사용하려고 준비과정만 80% 정도의 시간이 소요됩니다.

이와 같은 문제를 해결하고자 나온 것이 Data Lake Framework입니다.

데이터 엔지니어가 데이터 사용자들의 데이터 준비 시간을 단축시켜주는 것입니다.

 

4. Framework가 사용자에게 제공하는 기능

            Data Lake는 다양한 영역으로부터 생성된 데이터를 한 곳에 모아두는 것을 의미합니다.

            그렇기 때문에 데이터들을 효율적으로 수집하기 위한 기능들을 제공해야 합니다.

 

            사용자가 자신이 데이터를 사용하기 위한 목적에 맞게 가공하는 행위를 말합니다.

            Data Lake에서 관리하고 있는 데이터들을 Raw Data로서 데이터 분석을 하기 위해

            추가적으로 가공 작업이 필요한 상태입니다.

 

            많은 데이터가 모여 있는 곳인 만큼 데이터의 품질 및 이력을 관리해야 합니다.

 

감사합니다.

728x90

'Data > Data Catalog' 카테고리의 다른 글

Google Data Catalog  (0) 2019.07.19