原创 Elasticsearch-javaAPI

1.創建maven項目 編輯器:IDEA 創建項目完成後,將maven配置到自己安裝的位置,並將setting文件和repository配置好。 2.pom文件依賴 <dependencies> <dependency>

原创 Elasticsearch-IK分詞器

Elasticsearch自帶的分詞器效果不佳,因此可以IK分詞器來完成分詞操作。 IK分詞器帶有兩種analyer: ik_max_word: 會將文本做最細粒度的拆分,比如會將“中華人民共和國國歌”拆分爲“中華人民共和國,中華

原创 spark-33.spark機器學習_6_決策樹

1.信息熵 熵在信息論中代表隨機變量“不確定度”的度量。一個離散型隨機變量的熵H(X)定義爲: 直覺上,信息量等於傳輸該信息所用的代價,這個也是通信中考慮最多的問題。比如說:賭馬比賽中,有4匹馬{A,B,C,D},獲勝概率分別爲

原创 spark-22.spark內核解析_2_Spark的腳本

1.集羣管理腳本 start-all.sh 調用 start-master.sh CLASS=”org.spark.deploy.master.Master” 執行main(),並傳入一些參數。 調用 start-slave.sh

原创 spark-20.sparkGraphx_2_圖的轉換

1.Graph的創建 1.根據邊和頂點來創建。 def apply[VD: ClassTag, ED: ClassTag]( vertices: RDD[(VertexId, VD)], edges: RD

原创 spark-24.spark調優_2_spark的數據傾斜

1.什麼是數據傾斜 數據傾斜指的是,並行處理的數據集中,某一部分(如Spark或Kafka的一個Partition)的數據顯著多於其它部分,從而使得該部分的處理速度成爲整個數據集處理的瓶頸。 數據傾斜在spark中將導致兩個嚴重的

原创 spark-28.spark機器學習_1_引言

1.機器學習定義 機器學習是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行爲,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。 通過算

原创 spark-25.spark調優_3_spark資源配置

1.資源運行中的幾種情況 實踐中跑的SparkJob,有的特別慢,查看CPU利用率很低,可以嘗試減少每個executor佔用的CPU core的數量,增加並行的executor數量,同時配合增加分片,整體上增加了CPU的利用率,

原创 spark-27.spark調優_5_Shuffle優化

spark.shuffle.file.buffer spark.shuffle.file.buffer默認值:32k 參數說明: 該參數用於設置shuffle write task的BufferedOutputStream的bu

原创 Elasticsearch-安裝可視化管理插件head

1).下載head插件 elasticsearch-head-master.zip:https://github.com/mobz/elasticsearch-head 2).下載nodejs node-v6.9.2-linux-

原创 spark-8.sparkcore_5_spark的輸入輸出

spark的輸入輸出 1.文本文件的輸入、輸出 1.sc.textFile(path) 文本文件的輸入。 2.rdd.saveAsTextFile(path) 文本文件的輸出。 2.JSON文件的輸入、輸出 實質上是文本文件的輸入

原创 Elasticsearch-單節點安裝

簡介 Elasticsearch是一個實時分佈式搜索和分析引擎。它用於全文搜索、結構化搜索、分析。 elasticsearch與數據庫的類比 關係型數據庫(比如Mysql) 非關係型數據庫(Elasticsearch)

原创 spark-19.sparkGraphx_1_sparkGraphx概述

以前處理的數據都是以記錄爲中心,圖計算以圖的方式來展示數據,更多的考慮的是頂點和邊之間的關係。 spark graphx中採用RDPG Resilient Distributed Property Graphx(彈性分佈式屬性圖)

原创 spark-11.sparkSQL_2_sparkSQL執行模式

1.DSL模式 通過調用方法來是實現。 如: dataFrame.select("name").show dataFrame.filter($"age">25).show 2.SQL模式 通過執行SQL。 1)先創建一張表: 一

原创 spark-9.sparkcore_6_實例練習

現有一份CDN數據,該數據的格式爲: IP 命中率 響應時間 請求時間 請求方法 請求URL 請求協議 狀態碼 響應大小 referer 用戶代理 一條樣例數據如下: 100.79.121.48 HIT 33 [15/