原创 那積滿灰塵的機械鍵盤,該重新拿起了

消失了大半年,突然想起來我也是寫過博客的人,上來可以一下發現上次兩篇文章有評論,閱讀數也不少,讓我很開心。 程序員一號吳老六準備完畢。 開更!!!

原创 spark編程模型(二十二)之RDD存儲行爲操作(Action Operation)——saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

saveAsTextFile def saveAsTextFile(path: String): Unit def saveAsTextFile(path: String, codec: Class[_ <: CompressionCo

原创 spark自定義分區實例

數據準備 數據集下載點擊這裏 數據格式說明 //視頻名稱 視頻網站 播放量 收藏數 評論數 踩數 贊數 川東游擊隊 3 2713 0 0 0 0 視頻網站中數字所代表的的網站:1優酷2搜狐3土豆4愛奇藝5迅雷看

原创 Hive 與 SparkSQL 整合

Hive 與 SparkSQL 整合 配置文件的整合 集羣中已安裝hive的情況 將$HIVE_HOME/conf下的hive-site.xml拷貝到$SPARK_HOME/conf中,即可 集羣中未安裝hive的情況 在$SPA

原创 spark編程模型(十八)之RDD集合標量行爲操作(Action Operation)——first、count、reduce、collect

first def first(): T first返回RDD中的第一個元素,不排序 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1:

原创 spark查找相同字母組成的字謎實戰

項目需求 一本英文書籍包含成千上萬個單詞,現在我們需要在大量的單詞中,找出相同字母組成的所有單詞 數據集 數據集下載點擊這裏 實現分析 觀察數據集的數據,可以知道:每行是一個單詞word,這樣我們就可以將這個單詞轉成一個字符數組Array

原创 鬥魚直播數據分析(二)之爬蟲數據分析及可視化

前言 本文基於鬥魚直播數據分析(一)之利用python3爬蟲獲取數據所爬取的數據進行數據分析可視化,主要是利用SQL進行統計,可視化的顯示用的是Echarts 一、查看數據分佈情況 SELECT crawl_time, COUNT(*)

原创 鬥魚直播數據分析(一)之利用python3爬蟲獲取數據

前言 一、網站爬取邏輯分析 二、爬蟲步驟實現 1.獲取每個分類的URL 2.獲取每個分類下的遊戲url 3.獲取遊戲名稱、直播人數、觀看熱度 三、將爬蟲數據保存到mysql數據庫 1.創建表 2.連接數據庫 3.拼裝sql語

原创 spark編程模型(十四)之RDD鍵值轉換操作(Transformation Operation)——groupByKey、reduceByKey、reduceByKeyLocally

groupByKey def groupByKey(): RDD[(K, Iterable[V])] def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] def group

原创 spark編程模型(十六)之RDD鍵值轉換操作(Transformation Operation)——leftOuterJoin、rightOuterJoin、subtractByKey

leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))] def leftOuterJoin[W](other: RDD[(K, W

原创 spark編程模型(十三)之RDD鍵值轉換操作(Transformation Operation)——combineByKey、foldByKey

combineByKey() def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RD

原创 spark編程模型(九)之RDD基礎轉換操作(Transformation Operation)——mapPartitions、mapPartitionsWithIndex

mapPartitions(): def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implici

原创 spark編程模型(十七)之RDD控制操作(Control Operation)與持久化

Spark可以將RDD持久化到內存或磁盤文件系統中,默認情況下,spark將數據存於內存中,這樣提高迭代計算以及各計算模型之間的數據共享,同時也帶來了一定的風險性。 一般情況下執行節點60%內存用於緩存數據,剩下的40%用於運行任務。 什

原创 spark編程模型(十五)之RDD鍵值轉換操作(Transformation Operation)——cogroup、join

cogroup 參數爲1個RDD def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] def cogroup[W](other: RDD[

原创 spark編程模型(十二)之RDD鍵值轉換操作(Transformation Operation)——partitionBy、mapValues、flatMapValues

partitionBy() def partitionBy(partitioner: Partitioner): RDD[(K, V)] 該函數根據partitioner函數生成新的ShuffleRDD,將原RDD重新分區 scala>