SSENI's
search
sseni
말하는 감자에서 자라기
Today
Yesterday
[빅데이터분산컴퓨팅] 2022.09.06 빅데이터의 개념
빅데이터 처리를 위한 라이브러리 = 스파크
여러 개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술 = 하둡
빅데이터란 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터
인터넷에 연결된 여러 컴퓨터들의 처리 능력을 이용하여 메시지를 하나에서 다른 하나로 보냄(message passing)으로써 거대한 계산 문제를 해결하려는 분산처리 모델 = 분산 컴퓨팅
빅데이터 삼요소 3v volume velocity variety 양 속도 종류
R은 통계 계산과 그래픽을 위한 프로그래밍 언어
Hadoop을 이용한 실습
spark 시스템 패러다임에서 빅데이터 처리를 위한 기본적인 이론 및 실습
교재 없음
hpds, map reduce
spark = scala + python 언어 사용
docker -> 가상화 기술의 컨테이너 역할
데이터 컴퓨팅 기술 (안사도 됨)
http://www.hanbit.co.kr/exam/4114
Index of /exam/4114
download.hanbit.co.kr
# 빅데이터 개념과 처리 과정
데이터 처리 방법 : 스케일업 , 스케일아웃
https://junghyungil.tistory.com/151
[Infra] 스케일 업(Scale-up) vs 스케일 아웃(Scale-out)
스케일 업 (Scale-up) 성능이나 용량 증강을 목적으로 하나의 서버에 디스크를 추가하거나 CPU나 메모리를 업그레이드시키는 것을 말한다. 하나의 서버의 능력을 증강하기 때문에 수직 스케일링(ver
junghyungil.tistory.com
# 빅데이터 개념과 속성
mit - high performance system
MR - Map Reduce
nlp 자연어처리
# 빅데이터 처리 과정과 기술
데이터 소스 -> 수집 -> 저장 -> 처리 -> 분석 -> 표현
시각화 : 생성된 정보를 전달하는 기술
ETL : Extraction 추출, Transformation 변환, Loading 적재
맵리듀스 : 데이터의 추출, 요약
# 분산 파일 시스템
GFS
HDFS
아마존 S3 파일 시스템
"빅데이터 저장, 처리"
"하둡 에코 시스템에 대한 이해" -> Docker 사용
[빅데이터분산컴퓨팅] 2022.10.11 pyspark 환경 설정, word-count.py 실행 (0) | 2022.10.11 |
---|---|
[빅데이터분산컴퓨팅] 2022.10.04 spark 설치 (4) | 2022.10.04 |
[빅데이터분산컴퓨팅] 2022.09.27 HDFS 아키텍처, 텍스트 파일 word count (0) | 2022.09.27 |
[빅데이터분산컴퓨팅] 2022.09.20 docker, Hadoop, hdfs 시작하기 (0) | 2022.09.20 |
[빅데이터분산컴퓨팅] 2022.09.13 도커에 대해서, 도커 설치 (0) | 2022.09.13 |