原创 機器學習實戰(五)—降維(PCA與NMF)

PCA算法 主成分分析算法(PCA)是最常用的線性降維方法,它的目標是通過某種線性投影,將高維的數據映射到低維的空間中,並期望在所投影的維度上數據的信息量最大(方差最大),以此使用較少的數據維度,同時保留住較多的原數據點的特性。

原创 《機器學習》學習筆記(二十一)—RNN(循環神經網絡)

爲什麼要用循環神經網絡 如下圖所示是一個填空系統,他需要做的是給定一句話,然後從這句話中選出需要的詞填在對應位置的空中,具體來講如下圖所示 比如說輸入一句 “I would like to arrive Taipei on No

原创 《數據挖掘:理論與算法》學習筆記(八)—聚類分析

聚類 評估性能 K-Means算法 算法步驟

原创 《機器學習》學習筆記(二十五)—結構化學習:線性模型

結構化線性模型 回顧之前的結構化學習,我們可以知道結構化學習可以分爲下面三個問題 其中第一個問題是估計關係的時候我們需要給出估計 x,yx,yx,y 匹配程度的一個具體形式;在第二個問題中,我們往往假設我們已經找到了是函數值最大

原创 《數據挖掘:理論與算法》學習筆記(六)—神經網絡

感知機—神經網絡最基本的模型 感知機(perceptron)是二分類的線性分類模型,輸入爲實例的特徵向量,輸出爲實例的類別(取1和0)。感知機對應於輸入空間中將實例劃分爲兩類的分離超平面。感知機旨在求出該超平面. 其中,w0w_

原创 機器學習實戰(二)—Softmax 迴歸

數字識別 import tensorflow as tf from tensorflow.examples.tutorials.mnist import input_data #讀取數據集 mnist = input_data.

原创 機器學習實戰(七)—線性迴歸問題

線性迴歸 線性迴歸是利用數理統計中迴歸分析來確定兩種或兩種以上變量間相互依賴的定量關係的一種統計分析方法 線性迴歸利用稱爲線性迴歸方程的最小平方函數對一個或多個自變量和因變量之間關係進行建模。這種函數是一個或多個稱爲迴歸係數的模型

原创 Python數據分析與展示(二)—Matplotlib庫

Matplotlib Python優秀的數據可視化第三方庫 Matplotlib的使用 import matplotlib.pyplot as plt pyplot的繪圖區域 plt.subplot(nrows, ncol

原创 《百面機器學習》學習筆記(二)—模型評估

一、評估指標 1、準確率 準確率是指分類正確的樣本佔總樣本個數的比例Accuracy=ncorrectntotalAccuracy=\frac{n_{correct}}{n_{total}}Accuracy=ntotal​ncor

原创 《百面機器學習》學習筆記(一)—特徵工程

一、什麼是特徵工程 在機器學習中,沒有充足的數據、合適的特徵,再強大的模型結構也無法得到滿意的輸出 。 正如一句業界經典的話所說,“ Garbage in, garbage out” 。 對於一個機器學習問題,數據和特徵往往決定了

原创 Tensorflow學習(一)—線性迴歸

線性迴歸表達式 f(xi)=wxi+bf(x_i)=wx_i+bf(xi​)=wxi​+b 定義線性迴歸的損失函數 loss=1n−1∑i=1n(y^−y)2loss=\frac{1}{n-1}\sum^n_{i=1}(\hat{

原创 軟件測試學習雜記

軟件測試概述 軟件測試的定義 軟件測試是在可以控制的條件下操作一個系統或者應用程序,並且對結果進行評價的活動。也是驗證程序正確並符合用戶需求的過程 軟件測試的重要性 軟件需求—用戶:我要什麼 需求規格說明—分析員:我可以提供什麼

原创 信息安全概論學習雜記

信息安全概論 信息安全的外延和內涵: 外延:在經濟和商業領域,主要強調削弱並控制風險。 內涵:在現代信息系統中,ISO的定義爲:在技術和管理上爲數據處理系統建立的安全保護,保護信息系統的硬件,軟件及相關數據不因偶然或惡意的原因被破

原创 大數據分析學習雜記(下)

貝葉斯分類和因果學習 貝葉斯決策論 貝葉斯決策論(Bayesian decision theory)是在概率框架下實施 決策的基本方法。 對分類問題,在所有相關概率都已知的理想情形下,貝葉斯決策 考慮如何基於這些概率和誤判損失

原创 大數據分析學習雜記(上)

什麼是數據 數據是人類對所感興趣的對象特徵的記錄,數據用於描述事 實,具有時間和空間屬性 大數據 大數據 =海量數據(交易數據、交互數據)+針對海量數據處理的解決方案 大數據不僅僅指的是數據量龐大,更爲重要的是數據類型複雜 大