原创 機器學習入門(二)驗證曲線

擬合問題的解決 尋找參數的最優:超參數優化器 使用sklearn中的學習曲線 單一參數 這裏我們使用驗證曲線validation_curve來找到單一超參數的優化值 >>>train_loss,test_loss=valida

原创 大數據組件HA配置大全

一.Hadoop的HA /usr/local/hadoop-2.8.4/etc/hadoop 下是所有hadoop配置文件 1.HDFS HA配置: core-site.xml <configuration> <property

原创 Kafka重複消費,不丟失數據

kafka0.11.0.0版本正式支持精確一次處理語義exactly once semantic–EOS kafka冪等性參考 1)冪等producer 保證單個分區的只會發送一次,不會出現重複消息 2)事務(transation

原创 機器學習入門(一)編寫入門程序

目錄1.學習的步驟(本文及後續內容針對開發崗,不深入)2.機器學習庫sklearn3.機器學習入門程序(一)導入數據集(二)選擇模型(三)訓練模型(四)模型預測(五)模型評測(六)模型的保存 1.學習的步驟(本文及後續內容針對開發

原创 Elasticsearch restAPI

文章目錄操作索引1.創建索引2.創建_mapping和type3.查看索引4.刪除索引新增數據1.插入數據2.自定義Id3.自動判斷類型生成_mapping修改數據1.修改數據刪除數據基本查詢1.查詢所有的(match_all)返

原创 字節對spark sql的優化

Spark SQL通過SQL解析器構成語法樹,然後通過規則執行器(邏輯執行器,物理執行器,優化器)先獲得Unresolved Logical Plan,然後獲得Resolved Logical Plan,再通過optimzi 優化

原创 HIVE 行轉列以及列轉行

列轉行 語法: 虛擬表 lateral view explode(split(tag,’,’)) 表別名 as 列別名 表test 列名: id tag select id,tag_new from test later

原创 Failure to find org.glassfish:javax.el:pom:3.0.1-b06-SNAPSHOT in https://rep。。。。。。

<dependency> <groupId>org.glassfish</groupId> <artifactId>javax.el</artifactId>

原创 Flink運行架構

運行架構1.任務提交流程1)yarn模式2.任務調度原理1)執行圖3.worker 和Slots4.forwarding,redistribute(類似spark 寬窄依賴)5.task與operator chains 1.任務提