bigdata

  • Data/Bigdata

    Spark DataFrame (PySpark)

    안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark 2.x의 주요 데이터처리 타입인 DataFrame과 널리 알려진 타이타닉 데이터를 Spark Dataframe으로 처리하는 예제를 수행해보겠습니다. 본 포스팅 앞의 글에서 2020/01/09 - [Bigdata] - Apache Spark란? 을 통해 Spark란 무엇인지, Apache Spark란? 안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데.. cntechsystems.tistory.com 와 2020/02/13 - [Bigdata] - Apache Spar..

  • Data/Bigdata

    R을 이용한 Bioinformatics (Bioconductor)

    안녕하세요 (주)씨앤텍시스템즈입니다 :) 최근 미래 유망 기술로써 2020년 핵심 기술 중 "인공지능"과 "의료빅데이터/맞춤의료"가 선정되면서 4차 산업혁명과 관련하여 더욱더 데이터와 인공지능과 바이오분야에 대해 관심이 많아지고 연구개발 또한 활발해지고 있으며, 저희도 Bigdata, OpenDataPlatform, Health Information등과 관련하여 데이터 중심의 연구개발을 지속적으로 진행하고 있습니다. 그래서 이번 포스팅에서는 인공지능과 의료빅데이터를 활용하기 위한 분석 프로그래밍의 하나인 R과 생명정보학분야에서 오픈데이터베이스로 제공되고 있는 Bioconductor를 이용하여 가볍게! 쉽게! 분석을 해볼 수 있는 시간을 가져보고자 합니다. R이란? - 이미 R이라는 분석 프로그래밍 언어는..

  • Data/Bigdata

    Apache Spark 기능

    안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 이전 포스팅인 Apache Spark란?에 이어서 Spark 기능에 대해서 살펴보겠습니다. Apache Spark의 다양한 기능 중 메인 기능인 아래 3가지를 주로 살펴보겠습니다. ▷ Spark SQL / Spark DataFrame ▷ Spark Streaming ▷ Spark ML 1. Spark SQL / DataFrame 먼저 DataFrame은 Spark에서 데이터를 Excel과 같은 스프레드시트 형태로 로드하여 처리 할 수 있는 기능입니다. 흔히, Python의 Pandas패키지의 DataFrame과 R에서의 DataFrame와 동일한 형태와 처리방법이라고 생각 할 수 있습니다. 다양한 데이터 형식(JSON, CSV, TEXT 등)과 데이터저장소(..

  • Data/Bigdata

    Apache Spark란?

    안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데이터 클러스터 환경에서 데이터를 병렬 처리 할 수 있는 오픈소스 소프트웨어이고 가장 활발하게 개발되고 있습니다. Apache Spark는 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있습니다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다. - https://ko.wikipedia.org/wiki/%EC%9..