CLASS/Spark,Hadoop,Docker,Data Visualization 13

[빅데이터분산컴퓨팅] 2022.12.06 liveupdating, lambda, filter, reduce, iter

- liveupdating1.py ####### # This script will make regular API calls to http://data-live.flightradar24.com # to obtain updated total worldwide flights data. # **This version only loads the site. No callbacks.** ###### import dash import dash_core_components as dcc import dash_html_components as html from dash.dependencies import Input, Output import plotly.graph_objs as go import requests url = ..

[빅데이터분산컴퓨팅] 2022.11.29 dashboard

실행 후, http://127.0.0.1:8050/ 접속 - plot1.py import dash import dash_core_components as dcc import dash_html_components as html import plotly.graph_objs as go import numpy as np app = dash.Dash() np.random.seed(42) random_x = np.random.randint(1,101,100) random_y = np.random.randint(1,101,100) app.layout = html.Div([ dcc.Graph( id='scatter3', figure={ 'data': [ go.Scatter( x = random_x, y = random..

[빅데이터분산컴퓨팅] 2022.11.22 scatter, bar, line, bubble, box plot, histogram, heat map, dashboard layout

- scatter1.py ####### # This plots 100 random data points (set the seed to 42 to # obtain the same points we do!) between 1 and 100 in both # vertical and horizontal directions. ###### import plotly.offline as pyo import plotly.graph_objs as go import numpy as np np.random.seed(42) random_x = np.random.randint(1,101,100) random_y = np.random.randint(1,101,100) data = [go.Scatter( x = random_x, y..

[빅데이터분산컴퓨팅] 2022.11.08 Categorical Data Ploting, Seaborn, zomata.csv ploting

# 수치 Data 종류 명목 순위 구간 비율 # Seaborn statistical data visualization 엑셀보다 훨씬 발전된 그래프 작성 가능 Numerical Data Ploting Categorical Data Ploting Visualizing Distribution of the Data Linear Regression and Relation ship Controlling Ploted Figure Aesthetics # seaborn 라이브러리 설치 후 실행 !pip install seaborn import seaborn as sns # seaborn 라이브러리의 tips 데이터 plot sns.set() tips = sns.load_dataset("tips") sns.relplot(..

[빅데이터분산컴퓨팅] 2022.11.01 numpy, pandas, seaborn

x.argmin() : 몇번째 값이 최솟값인지 인덱스를 반환 # pandas import, read, display data dataframe, table [] : list () : tuple { } : set, 중복이 없음 { : } : dic df.T : 전치 [실습] - Pandas import matplotlib.pyplot as plt import numpy as np def f(t): return np.exp(-t) * np.cos(2*np.pi*t) t1 = np.arange(0.0, 5.0, 0.1) t2 = np.arange(0.0, 5.0, 0.02) plt.figure(1) # The subplot() command specifies numrows, numcols, subplot(행의..

[빅데이터분산컴퓨팅] 2022.10.25 The Ratings Counter, Friends by Age, Filtering RDD's

## 1H ## RatingCounter - ratings-counter.py from pyspark import SparkConf, SparkContext import collections conf = SparkConf().setMaster("local").setAppName("RatingHistogram") sc = SparkContext(conf = conf) lines = sc.textFile("file:///C:/Users/jsl11/SparkCourse/ml-100k/u.data") ratings = lines.map(lambda x : x.split()[2]) result = ratings.countByValue() sortedResults = collections.OrderedDict(so..

[빅데이터분산컴퓨팅] 2022.10.18 pyspark word count 예제

# pyspark 실행 확인 C:\Users\Administrator>pyspark [실습1] - word-count.py from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("wordCount") sc = SparkContext(conf = conf) input = sc.textFile("file:///C:/Users/Administrator/SparkCourse/in/word_count.text") words = input.flatMap(lambda x : x.split()) wordCounts = words.countByValue() for word, count in wordCounts..

[빅데이터분산컴퓨팅] 2022.10.11 pyspark 환경 설정, word-count.py 실행

mkdir tmp/hive -> C: 에 설정 spark/conf/log4j ->log4j.rootCategory=ERROR 라고 수정 pyspark -> java 11 환경에서만 가능 PYSPARK_PYTHON 환경변수 설정 (C:\Users\jsl11\AppData\Local\Programs\Python\Python37\python.exe) 환경변수 설정 목록 : PYSPARK_PYTHON, HADOOP_HOME, JAVA_HOME, SPARK_HOME word_count.text 예제 실행 rdd=sc.textFile("README.md") rdd.count() >> Spyder 로 작업 - word-count.py from pyspark import SparkConf, SparkContext co..

[빅데이터분산컴퓨팅] 2022.10.04 spark 설치

Word Cloud : count 를 기준으로 최다빈도로 나타낸 그래프(?), 파이썬으로 나타낼 수 있음 하둡 : 네이티브 자바 언어로 이루어져 있음 # MapReduce word count departure delay count hdfs 에 분산 저장된 데이터에 스트리밍 접근을 요청하며 빠르게 분산 처리하도록 고안된 프로그래밍 모델 대량의 데이터를 병렬로 분석 맵 리듀스 알고리즘에 맞게 분석 프로그램을 개발 - 클라이언트 - 잡트래커(JobTracker) : master. 네임노드 서버에서 실행 - 태스크트래커(TaskTracker) slave1,2. 데이터노드 에서 실행 Resilient (되돌릴 수 있는) Distributed Dataset - RDD disk 기반 데이터 처리의 성능 문제 간단한 ..

[빅데이터분산컴퓨팅] 2022.09.27 HDFS 아키텍처, 텍스트 파일 word count

# HDFS 아키텍처 블록 구조 파일 시스템 사이즈는 64MB 로 설정돼 있음 블록을 저장할 때 3개씩 블록의 복제본을 저장 (수정 가능) # HDFS CLI cat : hdfs dfs -cat URI [URI ...] 파일 내용 나타냄(압축 파일 읽기 위해서는 fs 대신 text 사용) chgrp : hdfs dfs -chgrp [-R] GROUP URI [URI ...] 파일과 디렉터리의 그룹을 변경 cp : hdfs dfs -cp [-f] [-p | -p[topax]] URI [URI ...] 소스에 있는 파일들을 목적지로 복사 [실습] docker rm master / slave1 / slave2 하고 다시 실행 C:\Users\jsl11>docker run -it -h master --name ..

[빅데이터분산컴퓨팅] 2022.09.20 docker, Hadoop, hdfs 시작하기

docker push 업로드 docker pull 다운로드 docker pull skunivcoe/master:master docker pull skunivcoe/slave1:slave1 docker pull skunivcoe/slave2:slave2 master 쪽에서 slave1,2 관리, split 개념 (뒤에서 데이터 모드 라고 설명) 분산 컴퓨팅 # Hadoop Ecosystem Hadoop Common HDFS (hadoop distributed file system) Hadoop YARN Hadoop MapReduce Hadoop 분산 저장 시스템 MapReduce 이를 처리하는 부분 클러스터에 데이터가 저장됨 각각의 클러스터에 분산시켜 저장 각각의 블록이 여러번 복제됨 # MapReduce..

[빅데이터분산컴퓨팅] 2022.09.13 도커에 대해서, 도커 설치

# 도커 : 오픈 소스 컨테이너 프로젝트 복잡한 리눅스 애플리케이션을 컨테이너로 묶어 실행할 수 있음 개발, 테스트, 서비스 환경을 하나로 통일하여 관리할 수 있음 = 효율적 리눅스 커널에서 제공하는 컨테이너 기술 이용 컨테이너 ? 가상화보다 훨씬 가벼운 가상 머신 ? 컴퓨터 안에서 컴퓨터 성능 ex. 맥에서 인터넷 뱅킹 서버 자체(서버 프로그램, DB 등)을 가상 머신에 설치 미리 구축한 가상 머신의 이미지를 여러 서버에 복사하여 실행 -> 이미지 하나로 서버를 계속 만들어낼 수 있음 가상화 기술을 이용해 서버를 임대해주는 서비스 : 클라우드 서비스 가상 머신의 문제점 컴퓨터를 통째로 만듦, 성능 손실 발생 -> 인텔 Hyper V, 반가상화 기술 등장 반가상화 기술 : 호스트와 커널을 공유 가상 머신..

[빅데이터분산컴퓨팅] 2022.09.06 빅데이터의 개념

빅데이터 처리를 위한 라이브러리 = 스파크 여러 개의 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 기술 = 하둡 빅데이터란 거대한 규모(volume), 빠른 속도(velocity), 높은 다양성(variety)을 특징으로 하는 데이터 인터넷에 연결된 여러 컴퓨터들의 처리 능력을 이용하여 메시지를 하나에서 다른 하나로 보냄(message passing)으로써 거대한 계산 문제를 해결하려는 분산처리 모델 = 분산 컴퓨팅 빅데이터 삼요소 3v volume velocity variety 양 속도 종류 R은 통계 계산과 그래픽을 위한 프로그래밍 언어 Hadoop을 이용한 실습 spark 시스템 패러다임에서 빅데이터 처리를 위한 기본적인 이론 및 실습 교재 없음 hpds, map reduce spark = sca..