SPARK

  • 기술연구소 행사/2020년

    Spark 기반 자율자동차 빅데이터 분석 및 활용 교육

    안녕하세요 씨앤텍시스템즈 입니다. - Spark 기반 자율자동차 빅데이터 분석 및 활용 교육 행사 내용 코로나 초기 시기에 진행되었으나 방역수칙과 환기를 진행하였습니다. Spark를 활용한 자율자동차 빅데이터 분석 교육과정이며, 수강생 30여 명의 분들과 2020년 1월 28일 부터 2020년2월 6일 8일간의 교육 일정입니다. > 배경 및 필요성 > 일정별 세부사항 > 행사 일정 및 포스터 > 교육 후기 > 교육 만족도 조사 > 마치며 코로나가 심하게 발생하기 전 2020년 처음이자 마지막으로 대면 교육을 실시하였습니다. 총 30여명의 수강생분들과 함께 짧지만 유익한 시간이었습니다. 하루빨리 코로나로부터 자유로워져 다시금 뵐 수 있는 기회가 있으면 좋겠습니다. 기업부설 연구소는 유능한 전문 인력과 기술..

  • Bigdata

    Spark SQL(Pyspark)

    안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark를 이용하여 DataFrame을 SparkSQL로 데이터 처리하는 방법을 알아봅니다. SQL(Structured Query Language) 데이터베이스 상에서 저장되어 있는 데이터에 대해 질문을 정의하고 표현하는데 가장 일반적으로 사용되는 질의언어 관계형 데이터베이스 관리 시스템의 데이터를 관리하기 위해 설계된 특수 목적의 프로그래밍 언어 데이터베이스 관리자 또는 많은 데이터 분석가는 복잡한 비즈니스 문제를 데이터 조작 언어(DML, Data Manipulation Laguage)로 조회 Spark SQL 구조화 된 데이터 처리를 위한 Spark 모듈 기본 Spark RDD API와 달리 Spark SQL에서는 데이터의 구조와 수행중인 계산에 대한..

  • Bigdata

    Spark DataFrame (PySpark)

    안녕하세요. (주)씨앤텍시스템즈입니다. 이번에 Spark 2.x의 주요 데이터처리 타입인 DataFrame과 널리 알려진 타이타닉 데이터를 Spark Dataframe으로 처리하는 예제를 수행해보겠습니다. 본 포스팅 앞의 글에서 2020/01/09 - [Bigdata] - Apache Spark란? 을 통해 Spark란 무엇인지, Apache Spark란? 안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데.. cntechsystems.tistory.com 와 2020/02/13 - [Bigdata] - Apache Spar..

  • Bigdata

    Apache Spark 기능

    안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 이전 포스팅인 Apache Spark란?에 이어서 Spark 기능에 대해서 살펴보겠습니다. Apache Spark의 다양한 기능 중 메인 기능인 아래 3가지를 주로 살펴보겠습니다. ▷ Spark SQL / Spark DataFrame ▷ Spark Streaming ▷ Spark ML 1. Spark SQL / DataFrame 먼저 DataFrame은 Spark에서 데이터를 Excel과 같은 스프레드시트 형태로 로드하여 처리 할 수 있는 기능입니다. 흔히, Python의 Pandas패키지의 DataFrame과 R에서의 DataFrame와 동일한 형태와 처리방법이라고 생각 할 수 있습니다. 다양한 데이터 형식(JSON, CSV, TEXT 등)과 데이터저장소(..

  • 교육

    [SPARK 기반 자율주행차 빅데이터 분석 과정] 교육 신청 안내 - 종료

    신청이 종료되었습니다.감사합니다. ※신청방법 홈페이지 신청 링크 : http://futurecaredu.or.kr/index.php?hCode=APPLICATION_VIEW&eo_Idx=29&tp=4 회원 가입 후 하단 교육 신청 버튼 클릭 ※신청기간 2020년 01월 22일까지 신청

  • Bigdata

    Apache Spark란?

    안녕하세요 씨앤텍시스템즈입니다. 이번 포스팅은 빅데이터 소프트웨어이자 가장 화두인 Apache Spark에 대해서 살펴보겠습니다. 1. Apache Spark이란? Apache Spark는 인-메모리 기반 통합 컴퓨팅 엔진이며, 빅데이터 클러스터 환경에서 데이터를 병렬 처리 할 수 있는 오픈소스 소프트웨어이고 가장 활발하게 개발되고 있습니다. Apache Spark는 캘리포니아 대학교 버클리의 AMPLab에서 개발된 스파크의 코드베이스는 나중에 아파치 소프트웨어 재단에 기부되었으며 그 이후로 계속 유지 보수를 해오고 있습니다. 스파크는 암시적 데이터 병렬성과 장애 허용과 더불어 완전한 클러스터를 프로그래밍하기 위한 인터페이스를 제공한다. - https://ko.wikipedia.org/wiki/%EC%9..