台部落别人说我老六了

消失了大半年，突然想起來我也是寫過博客的人，上來可以一下發現上次兩篇文章有評論，閱讀數也不少，讓我很開心。程序員一號吳老六準備完畢。開更！！！

2019-03-19 09:46:02

saveAsTextFile def saveAsTextFile(path: String): Unit def saveAsTextFile(path: String, codec: Class[_ <: CompressionCo

2018-08-26 22:38:55

數據準備數據集下載點擊這裏數據格式說明 //視頻名稱視頻網站播放量收藏數評論數踩數贊數川東游擊隊 3 2713 0 0 0 0 視頻網站中數字所代表的的網站：1優酷2搜狐3土豆4愛奇藝5迅雷看

2018-08-26 22:38:48

Hive 與 SparkSQL 整合配置文件的整合集羣中已安裝hive的情況將$HIVE_HOME/conf下的hive-site.xml拷貝到$SPARK_HOME/conf中，即可集羣中未安裝hive的情況在$SPA

2018-08-26 22:38:46

first def first(): T first返回RDD中的第一個元素，不排序 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1:

2018-08-26 22:38:41

項目需求一本英文書籍包含成千上萬個單詞，現在我們需要在大量的單詞中，找出相同字母組成的所有單詞數據集數據集下載點擊這裏實現分析觀察數據集的數據，可以知道：每行是一個單詞word，這樣我們就可以將這個單詞轉成一個字符數組Array

2018-08-26 22:38:41

前言本文基於鬥魚直播數據分析(一)之利用python3爬蟲獲取數據所爬取的數據進行數據分析可視化，主要是利用SQL進行統計，可視化的顯示用的是Echarts 一、查看數據分佈情況 SELECT crawl_time, COUNT(*)

2018-08-26 22:38:37

前言一、網站爬取邏輯分析二、爬蟲步驟實現 1.獲取每個分類的URL 2.獲取每個分類下的遊戲url 3.獲取遊戲名稱、直播人數、觀看熱度三、將爬蟲數據保存到mysql數據庫 1.創建表 2.連接數據庫 3.拼裝sql語

2018-08-26 22:38:37

groupByKey def groupByKey(): RDD[(K, Iterable[V])] def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] def group

2018-08-26 22:38:37

leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))] def leftOuterJoin[W](other: RDD[(K, W

2018-08-26 22:38:37

combineByKey() def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RD

2018-08-26 22:38:35

mapPartitions(): def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implici

2018-08-26 22:38:35

Spark可以將RDD持久化到內存或磁盤文件系統中，默認情況下，spark將數據存於內存中，這樣提高迭代計算以及各計算模型之間的數據共享，同時也帶來了一定的風險性。一般情況下執行節點60%內存用於緩存數據，剩下的40%用於運行任務。什

2018-08-26 22:38:33

cogroup 參數爲1個RDD def cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))] def cogroup[W](other: RDD[

2018-08-26 22:38:33

partitionBy() def partitionBy(partitioner: Partitioner): RDD[(K, V)] 該函數根據partitioner函數生成新的ShuffleRDD，將原RDD重新分區 scala>

2018-08-26 22:38:33