Scroll indicator done
728x90

python install
python으로 SDK 설정
프로젝트 생성

sudo apt install git

pip3 install jupyter 

jupyter 실행 안 될 때 

## github 소스 가져오기

VCS -> get from version control -> github.com/wikibook/spark code 주소 복사

url에 입력

파이썬 버전 명시 

프로젝트 세팅 / 프로젝트 / 자바에서 파이썬으로 변경

 

master에다 local대신 spark://IP_ADRESS:7077

#collect : driver로 출력하게 해줌

 

#doMap()

주석 처리하고 master 지우고 spark-submit

cd $SPARK_HOME
cd bin

./spark-submit --master
spark://20.194.22.56:7077 /PATH/FILE.py 
(conf.set()이랑 master 없애줘야함)

 

#mapPartitions()

- 파티션 단위로 공유할 수 있음, 파티션 단위로 한 번씩만 적용됨

- 인자로 전달 받은 함수를 파티션 단위로 적용 후 새로운 RDD 생성

- index를 활용하는 형태 : mapPartitionsWithIndex() 사용

 

#groupByKey() 

: key-value 형태 (or reduceByKey())

- groupByKey()는 인자로 받는 것 없음

- 같은 Key값을 갖는 요소들 그룹핑

#distinct, Cartesian, subtract, join

 

 

728x90