[빅데이터분산컴퓨팅] 2022.09.06 빅데이터의 개념

728x90

빅데이터 처리를 위한 라이브러리 = 스파크
여러 개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술 = 하둡
빅데이터란 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터
인터넷에 연결된 여러 컴퓨터들의 처리 능력을 이용하여 메시지를 하나에서 다른 하나로 보냄(message passing)으로써 거대한 계산 문제를 해결하려는 분산처리 모델 = 분산 컴퓨팅
빅데이터 삼요소 3v volume velocity variety 양 속도 종류
R은 통계 계산과 그래픽을 위한 프로그래밍 언어

Hadoop을 이용한 실습

spark 시스템 패러다임에서 빅데이터 처리를 위한 기본적인 이론 및 실습

교재 없음

hpds, map reduce

spark = scala + python 언어 사용

docker -> 가상화 기술의 컨테이너 역할

데이터 컴퓨팅 기술 (안사도 됨)

http://www.hanbit.co.kr/exam/4114

Index of /exam/4114

download.hanbit.co.kr

# 빅데이터 개념과 처리 과정

정형화된 데이터 = 자료형이 명확한 데이터
스마트 시대 = 제타바이트 시대
테라 페타 엑사 제타 요타
1TB = 1024GB, 1PB = 1024TB ...
KDD : Knowledge Discovery in DB
Data Mining
Data -> Information -> Knowledge
정보통신 기술의 주도권이 데이터로 이동

데이터 처리 방법 : 스케일업 , 스케일아웃

https://junghyungil.tistory.com/151

[Infra] 스케일 업(Scale-up) vs 스케일 아웃(Scale-out)

스케일 업 (Scale-up) 성능이나 용량 증강을 목적으로 하나의 서버에 디스크를 추가하거나 CPU나 메모리를 업그레이드시키는 것을 말한다. 하나의 서버의 능력을 증강하기 때문에 수직 스케일링(ver

junghyungil.tistory.com

# 빅데이터 개념과 속성

규모, 크기(Volumne) - 데이터의 크기 (테라바이트, 레코드, 트랜잭션, 표, 파일)
다양성(Variety) - 다양한 종류의 데이터를 수용하는 속성 (정형, 비정형, 반정형 ex. xml, html, json)
속도(Velocity) - 데이터를 빠르게 처리하고 분석할 수 있는 속성 (일반처리, 실시간처리, 스트림)
정확성(Veracity) - 데이터에 부여할 수 있는 신뢰 수준
가치(Value) - 빅데이터를 저장하려고 IT 인프라 구조 시스템을 구현하는 비즈니스적으로 유용한 속성

mit - high performance system

MR - Map Reduce

정형 : 고정된 필드에 저장된 데이터 (DB, 스프레드시트)
반정형 : 고정된 필드에 저장되어 있진 않지만, 메타데이터나 스키마 등을 포함하는 데이터 (XML, html)
비정형 : 고정된 필드에 저장되어 있지 않은 데이터 (사진, 텍스트)

nlp 자연어처리

# 빅데이터 처리 과정과 기술

데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현

시각화 : 생성된 정보를 전달하는 기술

ETL : Extraction 추출, Transformation 변환, Loading 적재

맵리듀스 : 데이터의 추출, 요약

# 분산 파일 시스템

GFS

HDFS

아마존 S3 파일 시스템

"빅데이터 저장, 처리"

"하둡 에코 시스템에 대한 이해" -> Docker 사용

728x90

저작자표시 비영리 변경금지 (새창열림)

'CLASS > Spark,Hadoop,Docker,Data Visualization' 카테고리의 다른 글

[빅데이터분산컴퓨팅] 2022.10.11 pyspark 환경 설정, word-count.py 실행 (0)	2022.10.11
[빅데이터분산컴퓨팅] 2022.10.04 spark 설치 (4)	2022.10.04
[빅데이터분산컴퓨팅] 2022.09.27 HDFS 아키텍처, 텍스트 파일 word count (0)	2022.09.27
[빅데이터분산컴퓨팅] 2022.09.20 docker, Hadoop, hdfs 시작하기 (0)	2022.09.20
[빅데이터분산컴퓨팅] 2022.09.13 도커에 대해서, 도커 설치 (0)	2022.09.13

search

'CLASS > Spark,Hadoop,Docker,Data Visualization' 카테고리의 다른 글

티스토리툴바