[Spark실습]RDD로 작업하기

Read and Display Data from a Text File

 

1.frostroad.txt 파일을 RDD로 정의한다.

myRDD = sc.textFile("/loudacre/frostroad.txt")

 

2.Spark는 아직 file을 읽는 않았다. spark는 RDD에서 action을 수행하기 전까지 file을 읽지 않을 것이다.count action을 사용해서 RDD에 몇개의 요소가 들어있는지 세어보아라.

myRDD.count()
23

 

3.collect를 호출하여 RDD에 있는 모든 데이터를 Spark driver로 반환해라. 파이썬의 경우 list of strings 데이터 타입을 반환할 것이다.

lines = myRDD.collect()

 

4.lines에 담겨있는 collection을 출력한다.

for line in lines: print line

 

 

Transform Data in an RDD

1./loudacre/makes1.txt 파일을 RDD로 불러온다.

makes1RDD = sc.textFile("/loudacre/makes1.txt")

 

2.makes1RDD 내용을 collect와 반복문을 사용해서 출력한다.

for make in makes1RDD.collect(): print make

 

3.makes2.txt 파일에도 앞의 과정을 반복해준다.

makes2RDD = sc.textFile("/loudacre/makes2.txt")
for make in makes2RDD.collect(): print make

 

4.makes1RDD와 makes2RDD를 합쳐주는 새로운 RDD를 생성한다

allMakesRDD = makes2RDD.union(makes2RDD)

 

5.새로운 allMakesRDD를 collect해주고 출력해준다.

for make in allMakesRDD.collect(): print make

 

6.distinct를 사용하여 중복을 제거해준다.

distMakesRDD = allMakesRDD.distinct()
for make in distMakesRDD.collect(): print make

 

7.intersection

for make in makes1RDD.intersection(makes2RDD).collect(): print make

 

8.subtract

for make in makes1RDD.subtract(makes2RDD).collect(): print make

 

9.zip

for make in makes1RDD.zip(makes2RDD).collect(): print make

Designed by JB FACTORY