台部落蒙面小生

1.創建maven項目編輯器：IDEA 創建項目完成後，將maven配置到自己安裝的位置，並將setting文件和repository配置好。 2.pom文件依賴 <dependencies> <dependency>

2020-07-04 09:18:20

Elasticsearch自帶的分詞器效果不佳，因此可以IK分詞器來完成分詞操作。 IK分詞器帶有兩種analyer： ik_max_word: 會將文本做最細粒度的拆分，比如會將“中華人民共和國國歌”拆分爲“中華人民共和國,中華

2020-07-04 08:38:00

1.信息熵熵在信息論中代表隨機變量“不確定度”的度量。一個離散型隨機變量的熵H(X)定義爲：直覺上，信息量等於傳輸該信息所用的代價，這個也是通信中考慮最多的問題。比如說：賭馬比賽中，有4匹馬{A,B,C,D}，獲勝概率分別爲

2020-07-04 08:37:58

1.集羣管理腳本 start-all.sh 調用 start-master.sh CLASS=”org.spark.deploy.master.Master” 執行main()，並傳入一些參數。調用 start-slave.sh

2020-07-04 08:37:58

1.Graph的創建 1.根據邊和頂點來創建。 def apply[VD: ClassTag, ED: ClassTag]( vertices: RDD[(VertexId, VD)], edges: RD

2020-07-04 08:37:58

1.什麼是數據傾斜數據傾斜指的是，並行處理的數據集中，某一部分（如Spark或Kafka的一個Partition）的數據顯著多於其它部分，從而使得該部分的處理速度成爲整個數據集處理的瓶頸。數據傾斜在spark中將導致兩個嚴重的

2020-07-04 08:37:58

1.機器學習定義機器學習是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的性能。通過算

2020-07-04 08:37:58

1.資源運行中的幾種情況實踐中跑的SparkJob，有的特別慢，查看CPU利用率很低，可以嘗試減少每個executor佔用的CPU core的數量，增加並行的executor數量，同時配合增加分片，整體上增加了CPU的利用率，

2020-07-04 08:37:58

spark.shuffle.file.buffer spark.shuffle.file.buffer默認值：32k 參數說明：該參數用於設置shuffle write task的BufferedOutputStream的bu

2020-07-04 08:37:58

1）.下載head插件 elasticsearch-head-master.zip：https://github.com/mobz/elasticsearch-head 2）.下載nodejs node-v6.9.2-linux-

2020-07-04 08:37:58

spark的輸入輸出 1.文本文件的輸入、輸出 1.sc.textFile(path) 文本文件的輸入。 2.rdd.saveAsTextFile(path) 文本文件的輸出。 2.JSON文件的輸入、輸出實質上是文本文件的輸入

2020-07-04 08:37:58

簡介 Elasticsearch是一個實時分佈式搜索和分析引擎。它用於全文搜索、結構化搜索、分析。 elasticsearch與數據庫的類比關係型數據庫（比如Mysql）非關係型數據庫（Elasticsearch）

2020-07-04 08:37:58

以前處理的數據都是以記錄爲中心，圖計算以圖的方式來展示數據，更多的考慮的是頂點和邊之間的關係。 spark graphx中採用RDPG Resilient Distributed Property Graphx（彈性分佈式屬性圖）

2020-07-04 08:37:58

1.DSL模式通過調用方法來是實現。如： dataFrame.select("name").show dataFrame.filter($"age">25).show 2.SQL模式通過執行SQL。 1）先創建一張表：一

2020-07-04 08:37:58

現有一份CDN數據，該數據的格式爲： IP 命中率響應時間請求時間請求方法請求URL 請求協議狀態碼響應大小 referer 用戶代理一條樣例數據如下： 100.79.121.48 HIT 33 [15/

2020-07-04 08:37:58