原创 shell腳本基礎知識二
1 shell腳本基礎知識 1.1 目錄 函數及實戰 函數的語法函數的執行函數實戰 for循環語句及實戰 for循環語法結構for循環案例實戰 while和until循環語句及實戰 while循環語法結構un
原创 shell腳本基礎知識一
1 shell腳本基礎知識 1.1 目錄 shell簡介 什麼是shell什麼是shell腳本shell腳本在linux系統運維工作中的地位shell腳本的建立和執行 shell腳本的建立shell腳本的執行shell腳本開
原创 hadoop體系結構及搭建
用於測試,我用4臺虛擬機搭建成了Hadoop結構 我用了兩個臺式機。一個xp系統,一個win7系統。每臺電腦裝兩個虛擬機,要不然內存就滿了。 1、安裝虛擬機環境 Vmware,收費產品,佔內存較大。 或
原创 shell腳本三大文本處理工具
[-]目錄 一簡介二grep命令 格式選項grep與正則表達式結合egrep和fgrep三sed命令 sed命令基本用法sed文本定位sed基本編輯命令sed高級編輯命令四awk命令 awk編程模型awk調用方法awk編程五總結 一、簡介
原创 決策樹、Bagging、隨機森林、Boosting、Adaboost、GBDT、XGBoost
決策樹(Descision Tree) 決策樹介紹 決策樹基於“樹”結構進行決策: - 每個“內部節點”對應於某個屬性上的測試 - 每個分枝對應於該測試的一種可能結果(即屬性的某個取值) - 每個葉節點對應於一個“預測結果”
原创 線性迴歸與邏輯迴歸
線性迴歸和邏輯迴歸的應用場景? 答:線性迴歸主要用來解決連續值預測的問題,邏輯迴歸用來解決分類的問題,輸出的屬於某個類別的概率,工業界經常會用邏輯迴歸來做排序 線性迴歸 線性迴歸(Linear Regression)是利用稱爲線性迴歸方程
原创 在notebook中使用pyspark遇到的問題
代碼: from pyspark import SparkContext sc = SparkContext() rdd.getNumPartitions() rdd.glom().collect() 遇到的問題: 執行rdd.glom
原创 xgboost 中的gain freq, cover
assuming that you're using xgboost to fit boosted treesfor binary classification. The importance matrix is actually a d
原创 梯度下降小結
在求解機器學習算法的模型參數,即無約束優化問題時,梯度下降(Gradient Descent)是最常採用的方法之一,另一種常用的方法是最小二乘法。這裏就對梯度下降法做一個完整的總結。 1. 梯度 在微積分裏面,對多元
原创 隱馬爾科夫模型HMM
應用 隱馬爾科夫模型(HMM,Hidden Markov Model)可用標註問題,在語音識別、NLP、生物信息、模式識別等領域被實踐證明是有效的算法。 定義 隱馬爾科夫模型是關於時序的概率模型,描述由一個隱藏的馬爾科夫鏈隨機生成不可觀測
原创 XGBoost理解
什麼是XGbbost XGBoost是Extreme Gradient Boosting的簡稱,對應的模型就是一堆CART樹,思想是將每棵樹的預測值加到一起作爲最終的預測值(可謂簡單粗暴)。 下圖就是CART樹和一堆CART樹的示例,用來
原创 機器學習常見問題整理?
機器學習項目流程? 答:理解實際問題,抽象成數學模型(分類、迴歸、聚類)——>獲取數據——>特徵預處理與特徵選擇——>訓練模型與調優——>模型診斷(過擬合、欠擬合等)——>模型融合——>上線運行。 機器學習算法的分類? 答:監督學習、非監
原创 用spark做web日誌分析
本文以服務器日誌分析爲例,給大家展示真實場景中,怎麼用pySpark去完成大數據的處理和分析的。 總述 這裏的應用主要包括4部分: Part 1: Apache Web服務器日誌格式 Part 2: web服務器日誌初步解析 Par
原创 機器學習算法之線性迴歸
何爲線性迴歸 有監督學習 => 學習樣本爲 :D=(xi,yi)Ni=1 輸出/預測的結果yi爲連續值變量 需要學習映射ƒ : χ → y 假定輸入x和輸出y之間有線性相關關係 測試/預測階段 對於給定的x,預測其輸出y^=f(x)
原创 機器學習系列——機器學習三大類
根據機器學習的應用,一般說來,機器學習有三種算法: 監督式學習(Supervised Learning, SL) 監督學習是指原始數據中既有特徵值也有標籤值的機器學習。用輸入層的數據計算輸出層的值,然後對比標籤值計算誤差,再通過迭代找到