Streaming概念注意點，receiver

原創

2019-01-25 21:46

文章目錄

StreamingContext多種寫法測試

nc -lk 9999

StreamingContext多種寫法測試

import org.apache.spark.streaming.{Seconds, StreamingContext}
val ssc = new StreamingContext(sc, Seconds(10))
val lines = ssc.socketTextStream("hadoop000",9999)
val results = lines.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_)
results.print()
ssc.start()
ssc.awaitTermination()

關於控制檯沒輸出，需要設置虛擬機核數大於1

conf的方式

import org.apache.spark.streaming.{Seconds, StreamingContext}
val ssc = new StreamingContext(sc.getConf, Seconds(10))
val lines = ssc.socketTextStream("hadoop000",9999)
val results = lines.flatMap(_.split(",")).map((_,1)).reduceByKey(_+_)
results.print()
ssc.start()
ssc.awaitTermination()

報錯，只能創建一個sparkContext傳入conf，會創建一個sparkcontext

關於Streaming要注意的點

1.一旦已經啓動了一個context，就沒有新的計算加進來，就是start後寫業務代碼是無效的。
2.一旦一個context被停止了，他就不能被重啓。
3.同一時間只有一個streamingcontext是活的，在一個JVM裏。

receiver佔一個線程。沒有其他線程處理數據。core的數量大於receiver的數量ReceiverInputDStream 一直接受數據

receiver和mv

receiver讀socket會要創建副本之類的，hdfs不用receiver讀，因爲hdfs上本就有副本。

假設streaming讀的數據是在/spark/text/下，在streaming啓動後，flume之類的採集數據不是直接採集到這的，而是採集到hdfs的其他地方，再從其他地方mv過來的，不是hdfs put上去的，put慢。之所以沒有直接put到那個目錄，是怕可能在一個批次的時間到了還沒沒put完就開始讀取了，而mv快。

在streaming啓動之前的數據不會被讀取，文件處理後再更新也不會重讀的

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Spark讀取HDFS文件分區數量確定

結論 split數量決定分區數量 split數量取決於textFile ("", partitionNum)參數 goalsize = totalsize / partitionNum splitsize = Max(minSi

东户舟先生

2020-07-08 08:59:17

通俗易懂地介紹——MapReduce

昨天，我在Xebia印度辦公室發表了一個關於MapReduce的演說。演說進行得很順利，聽衆們都能夠理解MapReduce的概念（根據他們的反饋）。我成功地向技術聽衆們（主要是Java程序員，一些Flex程序員和少數的測試人員）解釋了M

2020-07-03 06:48:54

分分鐘帶你部署單機oracle數據庫

一、前言本次實施內容是，oracle單實例系統文件安裝，操作系統爲CentOS 6.9，數據庫版本11.2.0.4。 IP 主機名數據庫實例 ORACLE_SID 10.1.1.1 heima.itcast.cn

秃然，无发可说

2020-06-24 15:47:15

Spark SQL Adaptive Execution

Spark SQL Adaptive github slides

东户舟先生

2020-06-22 06:37:09

06-Hbase基礎

文章目錄1.Hbase的架構1.1架構圖1.2Master1.3RegionServer1.4Zookeeper1.5HDFS2.HBase的Shell操作3.HBase的數據模型3.1 rowkey3.2Columns Fami

尘世_迷途小书童

2020-06-16 10:40:59

07-Hive基礎

文章目錄1.Hive簡介1.1Hive的特點1.2HIve的優缺點2.Hive內部原理2.1Hive的架構2.1.1Client（用戶接口）2.1.2Metastore（元數據）2.1.3Driver（驅動器）2.2Hive運行機

尘世_迷途小书童

2020-06-16 10:40:59

Kafka直連方式存儲MySQL

記得在之前寫了一篇是MySQL基礎使用的，這次就用MySQL來保存Direct方式的偏移量。代碼如下： package kafka1 import kafka.common.TopicAndPartition import ka

2020-06-16 02:25:56

Kafka直連存儲HBase

在之前介紹了Kafka與SparkStreaming交互的兩種方式，我提到了公司採用的是Direct方式，這次我向大家分享一下將偏移量存儲在HBase中。代碼如下： package kafka1 import kafka.com

2020-06-16 02:25:56

Kafka直連存儲ZK

這次的博客向大家介紹一下將偏移量存儲在Zookeeper中。我在註明書寫邏輯的地方，可以在那裏對RDD進行算子操作。 package kafka1 import kafka.common.TopicAndPartition

2020-06-16 02:25:56

Linux安裝CentOS6.5mini版全攻略

在使用VMware裝CentOS6.5mini的時候，會出現如下圖這種情況（/etc/rc5.d/s99local : line 25 : eject : command not found ），解決方案有兩種：一、這時按CTRL

2020-06-16 02:25:56

Vagrant與VirtualBox搭建hadoop集羣----第一篇

Vagrant與VirtualBox安裝指南（1）安裝 vagrant_2.2.1_x86_64.msi 注：vagrant 安裝後，把vagrant的安裝路徑添加到環境變量中去，類比java_hom

2020-06-12 17:45:35

Vagrant與VirtualBox搭建hadoop集羣搭建----第二篇

1.參考我的上一篇博客，會啓動四臺虛擬機，這裏本人電腦問題，啓動了三臺如下： 2.用xshell連接三臺虛擬機 A .第一步

2020-06-12 17:45:35

大數據基礎-搞懂linux的$,${},|,||和&&和&使用

程序猿与汪

2020-06-02 20:11:52

大數據基礎-scala樣例類,模式匹配,Option類型,偏函數,正則,異常處理,提取器,泛型,Actor併發變成,WordCount案例

程序猿与汪

2020-06-02 20:11:52

大數據基礎-大數據常用maven依賴配置查詢

2020-05-23 21:31:20

24小時熱門文章

最新文章

最新評論文章