Bigdata

  • Bigdata

    Google Cloud Platform의 BigQuery 소개

    안녕하세요 (주)씨앤텍시스템즈 신윤중 연구원 입니다. 이번 글에선 GCP(Google CLoud Platform)에서 제공하는 강력한 데이터 분석 도구중에 하나인 BigQuery에 대해 소개하려고 합니다. BigQuery는 대용량 데이터에 대한 scaling 분석을 지원하며, 클라우드 서비스로 제공되는 server-less 완전 관리형 컴퓨팅 데이터 웨어하우스 도구입니다. scailing한 특징은 사용자의 작업 요청량에 따라 실시간으로 컴퓨팅 리소스를 동적할당 합니다. 이에 따라 사용자는 비용의 기준이 되는 클라우드 서비스의 컴퓨팅 리소스를 효율적으로 활용할 수 있습니다. 그리고 클라우드로 제공되는 서비스를 이용함으로써 server-less 운영환경을 가질수 있고, 클라우드에 저장된 데이터의 메타데이터를..

  • Bigdata

    하둡 완전분산 환경 설치 및 설정 (hadoop cluster setup)

    안녕하세요, (주)씨앤텍시스템즈 신윤중입니다. 본 포스팅에선 하둡 완전분산환경(hadoop cluster setup)을 구축하는 방법과 간단하게 운영환경을 테스트 하는 과정을 소개하겠습니다. 글의 구성은 다음과 같습니다. 1. Hadoop 소개 2. virtualbox 가상 머신에 centos 7 설치 및 기본 환경 설정 3. hadoop설정 및 hdfs, yarn운영 환경 구축 1. Hadoop 소개 하둡은 기존 RDB(관계형데이터베이스)로는 대용량 비정형 데이터를 처리하는데 발생하는 한계를 극복하고자 탄생했습니다. 구글에서 발표한 구글파일시스템(Google filesystem: GFS)과 MapReduce논문을 참고하여 개발되었고 현재 Apache재단의 오픈소스 프로젝트로 개발되고 있습니다. 하둡은 ..

  • Bigdata

    Selenium을 이용한 인스타그램 크롤링

    안녕하세요 씨앤텍 시스템즈의 김준형 입니다. 이번 포스트는 크롤링에 대해서 정리해 보았습니다. 그중에서도 BeautifulSoup 와 Selenium을 이용해서 인스타그램의 데이터를 받아와 보겠습니다. 셀레니움이란 Selenium은 웹사이트 테스트를 위한 도구로 브라우저 동작을 자동화할 수 있습니다. 프로그래밍으로 브라우저 동작을 제어해서 마치 사람이 이용하는 것 같이 웹페이지를 요청하고 응답을 받아올 수 있습니다. 예를들어 2페이지버튼이 단순 url이아니라 Javascript로 이루어져 있다면 시스템이 동작해서 화면전환이 이루어지기 때문에 크롤링할때 꼭 필요한 기술이라고 할 수 있습니다. 실행환경은 윈도우에서 진행하였습니다. Python은 설치되어 있고 환경변수를 설정했다고 가정하고 진행하겠습니다. 인..

  • Bigdata

    Spark을 이용한 Deeplearning

    안녕하세요 씨앤텍시스템즈입니다. 본 포스팅에서는 Spark를 이용하여 Deeplearning을 수행하는 방법을 알아봅니다. 이전 포스팅을 통해서 스파크에 대한 개요(https://cntechsystems.tistory.com/62?category=786008)와 데이터 처리(https://cntechsystems.tistory.com/82?category=786008)방법을 알아보았습니다. 빅데이터 기술분야에서 막강한 기능을 제공하는 스파크는 최근 인공지능 발전의 마중물을 역할을 하게 된 딥러닝 마저도 지원될거라 생각이 되지만, 아직 정식으로 지원되는 기술은 아닙니다. 딥러닝에 대해서 간략하게 알아보자면 머신러닝의 한 분야로써, 뇌의 신경망 구조를 모방한 알고리즘으로 인공신경망 알고리즘을 활용하고 있습니..

  • Bigdata

    Spark SQL(Pyspark)

    안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark를 이용하여 DataFrame을 SparkSQL로 데이터 처리하는 방법을 알아봅니다. SQL(Structured Query Language) 데이터베이스 상에서 저장되어 있는 데이터에 대해 질문을 정의하고 표현하는데 가장 일반적으로 사용되는 질의언어 관계형 데이터베이스 관리 시스템의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 데이터베이스 관리자 또는 많은 데이터 분석가는 복잡한 비즈니스 문제를 데이터 조작 언어(DML, Data Manipulation Laguage)로 조회 Spark SQL 구조화 된 데이터 처리를 위한 Spark 모듈 기본 Spark RDD API와 달리 Spark SQL에서는 데이터의 구조와 수행중인 계산에 대한..

  • Bigdata

    Spark DataFrame (PySpark)

    안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark 2.x의 주요 데이터처리 타입인 DataFrame과 널리 알려진 타이타닉 데이터를 Spark Dataframe으로 처리하는 예제를 수행해보겠습니다. 본 포스팅 앞의 글에서 2020/01/09 - [Bigdata] - Apache Spark란? 을 통해 Spark란 무엇인지, Apache Spark란? 안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데.. cntechsystems.tistory.com 와 2020/02/13 - [Bigdata] - Apache Spar..