sparkstreaming下的第一個word count程序（python版）

原創

2020-06-13 07:56

首先從socket中讀取數據，然後通過sparkstreaming統計輸入的單詞個數

1.通過下面命令開啓端口（報錯則需安裝 nc）

nc -lk 9999

2.編寫sparkstreaming.py代碼

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# Create a local StreamingContext with two working thread and batch interval of 1 second
#至少需要2個核，因爲需要有一個核用於讀取數據
sc = SparkContext("local[2]", "NetworkWordCount")
#間隔一秒讀取一次數據流
ssc = StreamingContext(sc, 1)


# Create a DStream that will connect to hostname:port, like localhost:9999
lines = ssc.socketTextStream("localhost", 9999)

# Split each line into words
words = lines.flatMap(lambda line: line.split(" "))

# Count each word in each batch
pairs = words.map(lambda word: (word, 1))
wordCounts = pairs.reduceByKey(lambda x, y: x + y)

# Print the first ten elements of each RDD generated in this DStream to the console
wordCounts.pprint()

ssc.start()             # Start the computation
ssc.awaitTermination()  # Wait for the computation to terminate

該段代碼的作用是，每隔1s時間，從9999端口讀取該時間段內輸入的數據，並統計讀取到的數據的word count。

3.spark-submit --master local sparkstreaming.py運行上述代碼。

當在步驟1的窗口中輸入數據，則在運行spark的窗口可以看到統計結果。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Kafka集羣部署及命令行操作

前提是：zookeeper集羣已經搭建完畢具體步驟見：https://blog.csdn.net/student__software/article/details/81486769 1、集羣規劃 hadoop102

student__software

2020-07-07 16:46:24

scala，實現case class類的時候業務字段過多導致的異常。不能超過22個字段

一、背景 1、在scala-2.10.x版本種，case class的元素超過22個以後即會編譯報錯 2、有些業務場景下，需要超過22個元素的值我們項目當中日誌一共有105個字段，在對原始日誌進行處理轉換成parquet文件的過程中

2020-07-03 23:23:36

hive中根據身份證號碼獲取年齡、性別

select id_no, id_no, case when length(id_no) = 18 then floor(datediff( from_unixtime(unix_timestamp()

2020-07-03 22:40:11

Hive行轉列過程中使用LATERAL VIEW遇到空MAP或者空數組的情況

背景： HIve在進行行轉列的過程中，如果遇到轉的數組或者MAP()的情況，會出現一種特殊情況，就是數據會消失：原數據： SELECT '1' AS id, MAP() AS

2020-07-03 22:40:11

hadoop 3.1.1的集羣搭建並完成高可用配置(詳細版)

一、簡介 hadoop是Apache基金會的一個頂級項目，最早期版本是十多年前發佈的，隨着飛速的迭代更新，2018年已經更新到了3.1.1版本。網絡上大多數都是舊版本的配置，本文卻是最新版本的hadoop的配置方法。本文以hado

2020-07-03 10:47:38

大數據學習線路圖-java轉大數據

大數據學習線路 https://blog.csdn.net/gitchat/article/details/78341484 hdfs博客： https://blog.csdn.net/kezhong_wxl/article/detail

2020-07-02 19:26:22

HBASE 單機部署

下載頁面: https://www.apache.org/dyn/closer.lua/hbase/2.2.5/hbase-2.2.5-bin.tar.gz 下載 https://mirrors.tuna.tsinghua.ed

2020-07-01 22:35:36

使用hive實現wordcount

1.創建數據 cd data vi wc 2.上傳數據 hdfs dfs -put wc /usr/ 3.創建外部表（先有數據後有表） 4.創建結果表 5.寫結果 6.查詢結果

王艺航的学习笔记

2020-07-01 22:35:11

如何理解MapReduce計算器，這篇文章能給你答案

MapReduce計數器是什麼？計數器是用來記錄job的執行進度和狀態的。它的作用可以理解爲日誌。我們可以在程序的某個位置插入計數器，記錄數據或者進度的變化情況。 MapReduce計數器能做什麼？ MapReduce 計數器（

一颗仙橙的程序员之旅

2020-07-01 20:05:11

深入淺出大數據核心技術與應用之HBase

HBase隸屬於hadoop生態系統，它參考了谷歌的BigTable建模，實現的編程語言爲 Java, 建立在HDFS之上，提供高可靠性、高性能、列存儲、可伸縮、實時讀寫的數據庫系統。它僅能通過主鍵(row key)和主鍵的ran

一颗仙橙的程序员之旅

2020-07-01 18:57:08

這篇文章能讓你對於高性能Spark的理解更上一層樓

引言：摘抄自《中國新通信》：近年來，大數據成爲工業界與學術界關注的熱點，因爲隨着存儲設備容量的快速增長、CUP外理能力的大幅提開，網絡帶寬的不斷增加。也爲大數據時代提共了強有力的技術支撐。從web1.0到web2.0，每個用戶都

一颗仙橙的程序员之旅

2020-07-01 18:57:08

什麼是MapReduce之Shuffle？看了這篇文章，我想你就清楚了

前言：（引用）騰訊分佈式數據倉庫（Tencent distributed Data Warehouse, 簡稱TDW）基於開源軟件Hadoop和Hive進行構建，並且根據公司數據量大、計算複雜等特定情況進行了大量優化和改造，目前

一颗仙橙的程序员之旅

2020-07-01 18:57:08

大數據Hive其實一點都不難，從入坑到放棄？不存在的

Hive 首先，我們來介紹一下什麼是Hive。有些人不僅會想，Hive不就是寫SQL的嗎。沒錯，Hive和SQL的語法結構很像，其實，二者沒有多大區別，甚至可以這樣講，Hive就是寫SQL。但是，問題就來了–它真正的就是SQL了嗎

一颗仙橙的程序员之旅

2020-07-01 18:57:08

linux安裝hadoop配置Yarn

1. 下載JDK，安裝部署JAVA環境。(1)export JAVA_HOME=/home/xxx/jdk1.6.0_24(2)export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib

正在加载丶

2020-06-29 08:33:19

大數據學習筆記之MapReduce

一、神馬是高大上的MapReduce 　　MapReduce是Google的一項重要技術，它首先是一個編程模型，用以進行大數據量的計算。對於大數據量的計算，通常採用的處理手法就是並行計算。但對許多開發者來說，自己完完全全實現一個並行計

正在加载丶

2020-06-29 08:33:18

24小時熱門文章

最新文章

最新評論文章