原创 機器學習重要概念補充

多項式迴歸對非線性數據進行處理的方法:     研究一個因變量與一個或多個自變量間多項式的迴歸分析方法,稱爲多項式迴歸(Polynomial Regression)。     完全是使用線性迴歸的思路,關鍵在於爲數據添加新的特徵,而這些新

原创 簡單線性迴歸及最小二乘法

簡單線性迴歸:簡單線性迴歸及最小二乘法的數據推導 1、簡單線性迴歸是屬於迴歸(regression),即label爲連續數值型(continuous numerical variable),所謂簡單,是指只有一個樣本特徵,即只有一

原创 hive udaf總結

0xx01 概述 hive的udaf全稱 User-Defined Aggregation Functions。hive有兩種udaf,simple and generic.區別如下 Simple UDAFs, as the na

原创 關於Requested row out of range for doMiniBatchMutation on HRegion

1 異常信息如下: 019-11-21 11:12:49,078 [http-nio-17374-exec-6] ERROR c.fengjr.report.center.web.mq.receive.ReceiveMQ_1_3_

原创 SPARK : failure: ``)'' expected but `(' found

問題: 當通過sparkSQL執行 ROW_NUMBER() OVER()開窗函數的時候,報了這個錯,具體sql如下 select data from (SELECT *, ROW_NUMBER() OVER (partition b

原创 應用廣泛的二分類算法——邏輯迴歸

邏輯迴歸 數學思想: ​ 對問題劃分層次,並利用非線性變換和線性模型的組合,將未知的複雜問題分解爲已知的簡單問題。 邏輯迴歸介紹: ​ 其原理是將樣本的特徵和樣本發生的概率聯繫起來,即,預測的是樣本發生的概率是多少。由於概率是一

原创 評價指標總結

評價指標總結 我們需要通過評價指標來判斷模型的好壞: 一、對於分類結果的評價的評價指標: 1、分類準確度:即預測成功的在總數中的佔比 2、利用混淆矩陣: ​ FN:False Negative,被判定爲負樣本,但事實上是正樣本。

原创 數據預處理與特徵工程總結

特徵預處理 ​ 特徵預處理是數據預處理過程的重要步驟,是對數據的一個的標準的處理,幾乎所有的數據處理過程都會涉及該步驟。 數值型特徵無量綱化 ​ 無量綱化使不同規格的數據轉換到同一規格。常見的無量綱化方法有標準化和歸一化。 標

原创 knn算法

什麼是knn ​ kNN(k-NearestNeighbor),也就是k最近鄰算法。顧名思義,所謂K最近鄰,就是k個最近的鄰居的意思。也就是在數據集中,認爲每個樣本可以用離他最距離近的k個鄰居來代表。 ​ 它是一種常用的監督學習方

原创 scala中的接口——trait

scala中的接口 沒有接口,採用trait(特徵)來代替接口的概念,類似於java中的 interface+abstract class, scala中稱爲類 混入/繼承 了特質 特質 trait – 可以類比java中的接口,

原创 flink的window理解

概述 ​ window可以將flink處理的無限stream流切分成有限流,進行時間段內數據的計算,它是有限流處理的核心組件。window對流的切分可以是基於時間的(Time Window),也可以是基於數據的(Count Win

原创 java異常總結

java異常總結 #01 異常概述 異常分爲兩種 ​ checked異常(JVM檢查時異常) ​ Runtime異常(運行時異常) #02 異常處理機制 使用try…catch捕獲異常 ​ try塊業務邏輯代碼出現異常,系統自

原创 JDBC典型用法

JDBC典型用法 #01 JDBC常用的接口和類 DriverManger 常用的方法 ​ createConnetion Connection 常用的方法 創建Statement對象 ​ createStatement ​ pr

原创 記一次不成功的拉鍊表

2019-05-10 02:19:37,565 INFO [AsyncDispatcher event handler] org.apache.hadoop.mapreduce.v2.app.job.impl.TaskAttemptIm

原创 java中的容器類

java中的容器 數組 collection接口 list接口 ArrayList LinkedList Vector stack set接口 HashSet SortedSet接口 TreeSet map