Scroll indicator done
728x90

Word Cloud : count 를 기준으로 최다빈도로 나타낸 그래프(?), 파이썬으로 나타낼 수 있음

하둡 : 네이티브 자바 언어로 이루어져 있음

 

# MapReduce

  • word count
  • departure delay count
  • hdfs 에 분산 저장된 데이터에 스트리밍 접근을 요청하며 빠르게 분산 처리하도록 고안된 프로그래밍 모델
  • 대량의 데이터를 병렬로 분석
  • 맵 리듀스 알고리즘에 맞게 분석 프로그램을 개발

 

- 클라이언트

- 잡트래커(JobTracker) : master. 네임노드 서버에서 실행

- 태스크트래커(TaskTracker) slave1,2. 데이터노드 에서 실행

 

Resilient (되돌릴 수 있는) Distributed Dataset - RDD

  • disk 기반 데이터 처리의 성능 문제
  • 간단한 인터페이스 지원
  • RDD 변환 API (Scala, python, java, R interface)
  • 분산처리? 확장성과 신뢰성 어떻게 보장? Immutable : 변하지 않는, Partitioned : 데이터 셋을 잘게 잘라서 분산

 

RDD Operation

  • Transformations : RDD에서 새로운 RDD를 생산해냄
  • Actions : RDD에서 RDD가 아닌 데이터 타입 

 

java --version

python --version

환경변수 hadoop, spark 추가

 

728x90