빅데이터

  • Data/Bigdata

    Selenium을 이용한 인스타그램 크롤링

    안녕하세요 씨앤텍 시스템즈의 김준형 입니다. 이번 포스트는 크롤링에 대해서 정리해 보았습니다. 그중에서도 BeautifulSoup 와 Selenium을 이용해서 인스타그램의 데이터를 받아와 보겠습니다. 셀레니움이란 Selenium은 웹사이트 테스트를 위한 도구로 브라우저 동작을 자동화할 수 있습니다. 프로그래밍으로 브라우저 동작을 제어해서 마치 사람이 이용하는 것 같이 웹페이지를 요청하고 응답을 받아올 수 있습니다. 예를들어 2페이지버튼이 단순 url이아니라 Javascript로 이루어져 있다면 시스템이 동작해서 화면전환이 이루어지기 때문에 크롤링할때 꼭 필요한 기술이라고 할 수 있습니다. 실행환경은 윈도우에서 진행하였습니다. Python은 설치되어 있고 환경변수를 설정했다고 가정하고 진행하겠습니다. 인..

  • Data/Bigdata

    Elastic Search란?

    안녕하세요 씨앤텍 시스템즈의 김준형 입니다. 이번 포스트는 Elastic Search에대해 조사했습니다. Elastic Search에 대한 설명은 다음과 같은 차례로 진행하겠습니다. 1. Elastic Search란? 2. ELK 스택에 사용된 프로그램 3. ELK 스택 구조 4. ELK 스택 확장 구조 1. Elastic Search란? 정의 : Apache Lucene ( 아파치 루씬 ) 기반의 Java 오픈소스 분산 검색 엔진 특징 : 방대한 양의 데이터를 신속하게 처리, 실시간 ( NRT, Near Real Time ) 으로 저장 사용 : ElasticSearch는 검색을 위해 단독으로 사용되기도 하며, ELK ( ElasticSearch / Logstatsh / Kibana ) 스택으로 사용 A..

  • Technology Research/교육

    [SPARK 기반 자율주행차 빅데이터 분석 과정] 교육 신청 안내 - 종료

    신청이 종료되었습니다.감사합니다. ※신청방법 홈페이지 신청 링크 : http://futurecaredu.or.kr/index.php?hCode=APPLICATION_VIEW&eo_Idx=29&tp=4 회원 가입 후 하단 교육 신청 버튼 클릭 ※신청기간 2020년 01월 22일까지 신청

  • Data/Data Catalog

    Data Lake란 무엇인가?

    안녕하세요 씨앤텍 시스템즈 김준형 입니다. 이번 포스트는 Data Lake에대해 조사했습니다. 자료는 https://digitalbourgeois.tistory.com/72, https://www.blue-granite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses를 참고 했습니다. Data Lake에 대한 설명은 다음과 같은 차례로 진행하겠습니다. 1. Data Lake란? 2. Data Lake와 Data Warehouse의 비교 3. Data Lake Framework란? 4. Framework가 사용자에게 제공하는 기능 1. Data Lake란? 오랜시간 데이터들은 정형화된 데이터로만 분석되어왔습니다...