Scroll indicator done
728x90

빅데이터 처리를 위한 라이브러리 = 스파크
여러 개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술 = 하둡
빅데이터란 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터
인터넷에 연결된 여러 컴퓨터들의 처리 능력을 이용하여 메시지를 하나에서 다른 하나로 보냄(message passing)으로써 거대한 계산 문제를 해결하려는 분산처리 모델 = 분산 컴퓨팅
빅데이터 삼요소 3v volume velocity variety 양 속도 종류
R은 통계 계산과 그래픽을 위한 프로그래밍 언어

 

Hadoop을 이용한 실습

spark 시스템 패러다임에서 빅데이터 처리를 위한 기본적인 이론 및 실습

교재 없음

 

hpds, map reduce

spark = scala + python 언어 사용

docker -> 가상화 기술의 컨테이너 역할

 

데이터 컴퓨팅 기술 (안사도 됨)

http://www.hanbit.co.kr/exam/4114 

 

Index of /exam/4114

 

download.hanbit.co.kr

 

# 빅데이터 개념과 처리 과정

  • 정형화된 데이터 = 자료형이 명확한 데이터
  • 스마트 시대 = 제타바이트 시대
  • 테라 페타 엑사 제타 요타 
  • 1TB = 1024GB, 1PB = 1024TB ...
  • KDD : Knowledge Discovery in DB
  • Data Mining
  • Data -> Information -> Knowledge
  • 정보통신 기술의 주도권이 데이터로 이동

데이터 처리 방법 : 스케일업 , 스케일아웃

https://junghyungil.tistory.com/151

 

[Infra] 스케일 업(Scale-up) vs 스케일 아웃(Scale-out)

스케일 업 (Scale-up) 성능이나 용량 증강을 목적으로 하나의 서버에 디스크를 추가하거나 CPU나 메모리를 업그레이드시키는 것을 말한다. 하나의 서버의 능력을 증강하기 때문에 수직 스케일링(ver

junghyungil.tistory.com

 

# 빅데이터 개념과 속성

  • 규모, 크기(Volumne) - 데이터의 크기 (테라바이트, 레코드, 트랜잭션, 표, 파일)
  • 다양성(Variety) - 다양한 종류의 데이터를 수용하는 속성 (정형, 비정형, 반정형 ex. xml, html, json)
  • 속도(Velocity) - 데이터를 빠르게 처리하고 분석할 수 있는 속성 (일반처리, 실시간처리, 스트림)
  • 정확성(Veracity) - 데이터에 부여할 수 있는 신뢰 수준
  • 가치(Value) - 빅데이터를 저장하려고 IT 인프라 구조 시스템을 구현하는 비즈니스적으로 유용한 속성

mit - high performance system

MR - Map Reduce

  • 정형 : 고정된 필드에 저장된 데이터 (DB, 스프레드시트)
  • 반정형 : 고정된 필드에 저장되어 있진 않지만, 메타데이터나 스키마 등을 포함하는 데이터 (XML, html)
  • 비정형 : 고정된 필드에 저장되어 있지 않은 데이터 (사진, 텍스트)

nlp 자연어처리

 

# 빅데이터 처리 과정과 기술

데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현

시각화 : 생성된 정보를 전달하는 기술

 

ETL : Extraction 추출, Transformation 변환, Loading 적재

맵리듀스 : 데이터의 추출, 요약

 

# 분산 파일 시스템

GFS

HDFS

아마존 S3 파일 시스템

 

 

"빅데이터 저장, 처리"

"하둡 에코 시스템에 대한 이해" -> Docker 사용

 

 

 

 

 

 

 

 

728x90