SSENI's
search
sseni
말하는 감자에서 자라기
Today
Yesterday
2021.06.25 빅데이터 분석을 위한 스파크 프로그래밍 - virtualbox로 intellij 시작하기
sudo apt install git
pip3 install jupyter
## github 소스 가져오기
VCS -> get from version control -> github.com/wikibook/spark code 주소 복사
url에 입력
파이썬 버전 명시
프로젝트 세팅 / 프로젝트 / 자바에서 파이썬으로 변경
master에다 local대신 spark://IP_ADRESS:7077
#collect : driver로 출력하게 해줌
#doMap()
cd $SPARK_HOME
cd bin
./spark-submit --master
spark://20.194.22.56:7077 /PATH/FILE.py
(conf.set()이랑 master 없애줘야함)
#mapPartitions()
- 파티션 단위로 공유할 수 있음, 파티션 단위로 한 번씩만 적용됨
- 인자로 전달 받은 함수를 파티션 단위로 적용 후 새로운 RDD 생성
- index를 활용하는 형태 : mapPartitionsWithIndex() 사용
#groupByKey()
: key-value 형태 (or reduceByKey())
- groupByKey()는 인자로 받는 것 없음
- 같은 Key값을 갖는 요소들 그룹핑
#distinct, Cartesian, subtract, join
2021.06.30 빅데이터 분석을 위한 스파크 프로그래밍 - 머신 러닝 (0) | 2021.06.30 |
---|---|
2021.06.29 빅데이터 분석을 위한 스파크 프로그래밍 - DataFrame 함수 (0) | 2021.06.29 |
2021.06.28 빅데이터 분석을 위한 스파크 프로그래밍 - DataFrame, DataSet (0) | 2021.06.28 |
2021.06.25 빅데이터 분석을 위한 스파크 프로그래밍 - RDD 트랜스포메이션 ~ 액션 (0) | 2021.06.25 |
2021.06.23 빅데이터 분석을 위한 스파크 프로그래밍 - VirtualBox 통해 pyspark 실행하기 (0) | 2021.06.23 |