Data
-
Data/Graph Database
SPARQL 이란?
안녕하세요 씨앤텍 시스템즈의 김준형 입니다. 이번 포스트는 SPARQL에 대해서 정리해 보았습니다. 1. SPARQL이란? 1.1 정의 - SPARQL이란 RDF 형식이나 RDF 형태의 구조화된 데이터를 처리하기 위한 질의 언어 - SPARQL Protocol And RDF Query Language 1.2 특징 - Linked Data를 위한 질의 언어 - 한 번에 여러 데이터 저장소를 질의하여 표현 - 트리플을 이용한 데이터 질의 1.3 사용 - 일반 RDF파일에 질의 - 웹에서 RDF 파일에 질의 - 엔드포인트에 질의 2. RDF란? 2.1 정의 - RDF는 W3C 표준으로서 웹페이지의 제목, 저자, 수정일, 내용과 같은 웹 자원을 표시하기 위한 것 - Resource Description Fram..
-
Data/Bigdata
Apache Spark 기능
안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 이전 포스팅인 Apache Spark란?에 이어서 Spark 기능에 대해서 살펴보겠습니다. Apache Spark의 다양한 기능 중 메인 기능인 아래 3가지를 주로 살펴보겠습니다. ▷ Spark SQL / Spark DataFrame ▷ Spark Streaming ▷ Spark ML 1. Spark SQL / DataFrame 먼저 DataFrame은 Spark에서 데이터를 Excel과 같은 스프레드시트 형태로 로드하여 처리 할 수 있는 기능입니다. 흔히, Python의 Pandas패키지의 DataFrame과 R에서의 DataFrame와 동일한 형태와 처리방법이라고 생각 할 수 있습니다. 다양한 데이터 형식(JSON, CSV, TEXT 등)과 데이터저장소(..
-
Data/Bigdata
Elastic Search란?
안녕하세요 씨앤텍 시스템즈의 김준형 입니다. 이번 포스트는 Elastic Search에대해 조사했습니다. Elastic Search에 대한 설명은 다음과 같은 차례로 진행하겠습니다. 1. Elastic Search란? 2. ELK 스택에 사용된 프로그램 3. ELK 스택 구조 4. ELK 스택 확장 구조 1. Elastic Search란? 정의 : Apache Lucene ( 아파치 루씬 ) 기반의 Java 오픈소스 분산 검색 엔진 특징 : 방대한 양의 데이터를 신속하게 처리, 실시간 ( NRT, Near Real Time ) 으로 저장 사용 : ElasticSearch는 검색을 위해 단독으로 사용되기도 하며, ELK ( ElasticSearch / Logstatsh / Kibana ) 스택으로 사용 A..
-
Data/Bigdata
Apache Spark란?
안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데이터 클러스터 환경에서 데이터를 병렬 처리 할 수 있는 오픈소스 소프트웨어이고 가장 활발하게 개발되고 있습니다. Apache Spark는 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있습니다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다. - https://ko.wikipedia.org/wiki/%EC%9..
-
Data/Bigdata
R을 활용한 빅데이터 처리
안녕하세요. 씨앤텍 시스템즈 입니다. 이번 글은 R을 활용하여 빅데이터 처리해보는 과정을 정리해보도록 하겠습니다. 먼저 사용환경부터 세팅해보도록 하겠습니다. 운영체제는 윈도우 입니다. https://cran.r-project.org/bin/windows/base/ Download R-3.6.2 for Windows. The R-project for statistical computing. If you want to double-check that the package you have downloaded matches the package distributed by CRAN, you can compare the md5sum of the .exe to the fingerprint on the master s..
-
Data/Data Catalog
Data Lake란 무엇인가?
안녕하세요 씨앤텍 시스템즈 김준형 입니다. 이번 포스트는 Data Lake에대해 조사했습니다. 자료는 https://digitalbourgeois.tistory.com/72, https://www.blue-granite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses를 참고 했습니다. Data Lake에 대한 설명은 다음과 같은 차례로 진행하겠습니다. 1. Data Lake란? 2. Data Lake와 Data Warehouse의 비교 3. Data Lake Framework란? 4. Framework가 사용자에게 제공하는 기능 1. Data Lake란? 오랜시간 데이터들은 정형화된 데이터로만 분석되어왔습니다...