原创 shell腳本基礎知識二

1  shell腳本基礎知識 1.1  目錄 函數及實戰 函數的語法函數的執行函數實戰 for循環語句及實戰 for循環語法結構for循環案例實戰 while和until循環語句及實戰 while循環語法結構un

原创 shell腳本基礎知識一

1  shell腳本基礎知識 1.1  目錄 shell簡介 什麼是shell什麼是shell腳本shell腳本在linux系統運維工作中的地位shell腳本的建立和執行 shell腳本的建立shell腳本的執行shell腳本開

原创 hadoop體系結構及搭建

用於測試,我用4臺虛擬機搭建成了Hadoop結構 我用了兩個臺式機。一個xp系統,一個win7系統。每臺電腦裝兩個虛擬機,要不然內存就滿了。   1、安裝虛擬機環境      Vmware,收費產品,佔內存較大。      或    

原创 shell腳本三大文本處理工具

[-]目錄 一簡介二grep命令 格式選項grep與正則表達式結合egrep和fgrep三sed命令 sed命令基本用法sed文本定位sed基本編輯命令sed高級編輯命令四awk命令 awk編程模型awk調用方法awk編程五總結 一、簡介

原创 決策樹、Bagging、隨機森林、Boosting、Adaboost、GBDT、XGBoost

決策樹(Descision Tree) 決策樹介紹 決策樹基於“樹”結構進行決策: - 每個“內部節點”對應於某個屬性上的測試 - 每個分枝對應於該測試的一種可能結果(即屬性的某個取值) - 每個葉節點對應於一個“預測結果”

原创 線性迴歸與邏輯迴歸

線性迴歸和邏輯迴歸的應用場景? 答:線性迴歸主要用來解決連續值預測的問題,邏輯迴歸用來解決分類的問題,輸出的屬於某個類別的概率,工業界經常會用邏輯迴歸來做排序 線性迴歸 線性迴歸(Linear Regression)是利用稱爲線性迴歸方程

原创 在notebook中使用pyspark遇到的問題

代碼: from pyspark import SparkContext sc = SparkContext() rdd.getNumPartitions() rdd.glom().collect() 遇到的問題: 執行rdd.glom

原创 xgboost 中的gain freq, cover

assuming that you're using xgboost to fit boosted treesfor binary classification. The importance matrix is actually a d

原创 梯度下降小結

 在求解機器學習算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1. 梯度     在微積分裏面,對多元

原创 隱馬爾科夫模型HMM

應用 隱馬爾科夫模型(HMM,Hidden Markov Model)可用標註問題,在語音識別、NLP、生物信息、模式識別等領域被實踐證明是有效的算法。 定義 隱馬爾科夫模型是關於時序的概率模型,描述由一個隱藏的馬爾科夫鏈隨機生成不可觀測

原创 XGBoost理解

什麼是XGbbost XGBoost是Extreme Gradient Boosting的簡稱,對應的模型就是一堆CART樹,思想是將每棵樹的預測值加到一起作爲最終的預測值(可謂簡單粗暴)。 下圖就是CART樹和一堆CART樹的示例,用來

原创 機器學習常見問題整理?

機器學習項目流程? 答:理解實際問題,抽象成數學模型(分類、迴歸、聚類)——>獲取數據——>特徵預處理與特徵選擇——>訓練模型與調優——>模型診斷(過擬合、欠擬合等)——>模型融合——>上線運行。 機器學習算法的分類? 答:監督學習、非監

原创 用spark做web日誌分析

本文以服務器日誌分析爲例,給大家展示真實場景中,怎麼用pySpark去完成大數據的處理和分析的。 總述 這裏的應用主要包括4部分: Part 1: Apache Web服務器日誌格式 Part 2: web服務器日誌初步解析 Par

原创 機器學習算法之線性迴歸

何爲線性迴歸 有監督學習 => 學習樣本爲 :D=(xi,yi)Ni=1 輸出/預測的結果yi爲連續值變量 需要學習映射ƒ : χ → y 假定輸入x和輸出y之間有線性相關關係 測試/預測階段 對於給定的x,預測其輸出y^=f(x)

原创 機器學習系列——機器學習三大類

根據機器學習的應用,一般說來,機器學習有三種算法: 監督式學習(Supervised Learning, SL) 監督學習是指原始數據中既有特徵值也有標籤值的機器學習。用輸入層的數據計算輸出層的值,然後對比標籤值計算誤差,再通過迭代找到