rdd實現wordcount

1、rdd實現wordcount
rdd調用flatMap方法將rdd中每一個元素按空格分割並鋪平,再通過map方法組成元組,最後通過reduceByKey進行詞頻統計,需要注意的是flatMap方法是先執行map方法在執行flat方法,代碼如下:

    rdd = sc.textFile("hdfs://spark1:9000/user/root/wordcount.txt")
    rdd1 = rdd.flatMap(lambda x: x.split(" "))\
        .map(lambda x: (x, 1))\
        .reduceByKey(lambda a, b : a + b)\
        .sortBy(lambda x: x[1], ascending=False)
    print(rdd1.collect())
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章