Data/Bigdata

하둡 완전분산 환경 설치 및 설정 (hadoop cluster setup)

안녕하세요, (주)씨앤텍시스템즈 신윤중입니다. 본 포스팅에선 하둡 완전분산환경(hadoop cluster setup)을 구축하는 방법과 간단하게 운영환경을 테스트 하는 과정을 소개하겠습니다. 글의 구성은 다음과 같습니다. 1. Hadoop 소개 2. virtualbox 가상 머신에 centos 7 설치 및 기본 환경 설정 3. hadoop설정 및 hdfs, yarn운영 환경 구축 1. Hadoop 소개 하둡은 기존 RDB(관계형데이터베이스)로는 대용량 비정형 데이터를 처리하는데 발생하는 한계를 극복하고자 탄생했습니다. 구글에서 발표한 구글파일시스템(Google filesystem: GFS)과 MapReduce논문을 참고하여 개발되었고 현재 Apache재단의 오픈소스 프로젝트로 개발되고 있습니다. 하둡은 ..

2020.12.11

Data/Bigdata

Selenium을 이용한 인스타그램 크롤링

안녕하세요 씨앤텍 시스템즈의 김준형 입니다. 이번 포스트는 크롤링에 대해서 정리해 보았습니다. 그중에서도 BeautifulSoup 와 Selenium을 이용해서 인스타그램의 데이터를 받아와 보겠습니다. 셀레니움이란 Selenium은 웹사이트 테스트를 위한 도구로 브라우저 동작을 자동화할 수 있습니다. 프로그래밍으로 브라우저 동작을 제어해서 마치 사람이 이용하는 것 같이 웹페이지를 요청하고 응답을 받아올 수 있습니다. 예를들어 2페이지버튼이 단순 url이아니라 Javascript로 이루어져 있다면 시스템이 동작해서 화면전환이 이루어지기 때문에 크롤링할때 꼭 필요한 기술이라고 할 수 있습니다. 실행환경은 윈도우에서 진행하였습니다. Python은 설치되어 있고 환경변수를 설정했다고 가정하고 진행하겠습니다. 인..

2020.06.11

Data/Bigdata

Spark을 이용한 Deeplearning

안녕하세요 씨앤텍시스템즈입니다. 본 포스팅에서는 Spark를 이용하여 Deeplearning을 수행하는 방법을 알아봅니다. 이전 포스팅을 통해서 스파크에 대한 개요(https://cntechsystems.tistory.com/62?category=786008)와 데이터 처리(https://cntechsystems.tistory.com/82?category=786008)방법을 알아보았습니다. 빅데이터 기술분야에서 막강한 기능을 제공하는 스파크는 최근 인공지능 발전의 마중물을 역할을 하게 된 딥러닝 마저도 지원될거라 생각이 되지만, 아직 정식으로 지원되는 기술은 아닙니다. 딥러닝에 대해서 간략하게 알아보자면 머신러닝의 한 분야로써, 뇌의 신경망 구조를 모방한 알고리즘으로 인공신경망 알고리즘을 활용하고 있습니..

2020.06.11

Data/Bigdata

Spark SQL(Pyspark)

안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark를 이용하여 DataFrame을 SparkSQL로 데이터 처리하는 방법을 알아봅니다. SQL(Structured Query Language) 데이터베이스 상에서 저장되어 있는 데이터에 대해 질문을 정의하고 표현하는데 가장 일반적으로 사용되는 질의언어 관계형 데이터베이스 관리 시스템의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 데이터베이스 관리자 또는 많은 데이터 분석가는 복잡한 비즈니스 문제를 데이터 조작 언어(DML, Data Manipulation Laguage)로 조회 Spark SQL 구조화 된 데이터 처리를 위한 Spark 모듈 기본 Spark RDD API와 달리 Spark SQL에서는 데이터의 구조와 수행중인 계산에 대한..

2020.05.26

Data/Bigdata

Spark DataFrame (PySpark)

안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark 2.x의 주요 데이터처리 타입인 DataFrame과 널리 알려진 타이타닉 데이터를 Spark Dataframe으로 처리하는 예제를 수행해보겠습니다. 본 포스팅 앞의 글에서 2020/01/09 - [Bigdata] - Apache Spark란? 을 통해 Spark란 무엇인지, Apache Spark란? 안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데.. cntechsystems.tistory.com 와 2020/02/13 - [Bigdata] - Apache Spar..

2020.04.20

Data/Bigdata

R을 이용한 Bioinformatics (Bioconductor)

안녕하세요 (주)씨앤텍시스템즈입니다 :) 최근 미래 유망 기술로써 2020년 핵심 기술 중 "인공지능"과 "의료빅데이터/맞춤의료"가 선정되면서 4차 산업혁명과 관련하여 더욱더 데이터와 인공지능과 바이오분야에 대해 관심이 많아지고 연구개발 또한 활발해지고 있으며, 저희도 Bigdata, OpenDataPlatform, Health Information등과 관련하여 데이터 중심의 연구개발을 지속적으로 진행하고 있습니다. 그래서 이번 포스팅에서는 인공지능과 의료빅데이터를 활용하기 위한 분석 프로그래밍의 하나인 R과 생명정보학분야에서 오픈데이터베이스로 제공되고 있는 Bioconductor를 이용하여 가볍게! 쉽게! 분석을 해볼 수 있는 시간을 가져보고자 합니다. R이란? - 이미 R이라는 분석 프로그래밍 언어는..

2020.04.20

하둡 완전분산 환경 설치 및 설정 (hadoop cluster setup)

Selenium을 이용한 인스타그램 크롤링

Spark을 이용한 Deeplearning

Spark SQL(Pyspark)

Spark DataFrame (PySpark)

R을 이용한 Bioinformatics (Bioconductor)

티스토리툴바