原创 MongoDB簡介與基本查詢操作命令

MongoDB是一個非關係型的數據庫,以鍵值對的形式儲存,其中鍵值對可以嵌套下去。因此相對傳統的關係型數據庫來說,MongoDB更加的靈活,當然缺點就是由於非結構化的形式導致解析的時候相對複雜。另外,MongoDB已經支持了很多開源的生態

原创 隱語義模型LFM(Latent Factor Model)

隱語義模型LFM(Latent Factor Model)是主題模型中的一種,跟其他主題模型一樣,LFM也需要定義若干“主題”,來表示箇中隱含的關係,這些“主題”是模糊而不是明確的,通過統計用戶行爲的方式聚類計算得出。在LFM的推薦例子中

原创 轉:【NLP】徹底搞懂BERT

原文鏈接:https://www.cnblogs.com/rucwxb/p/10277217.html 注:本文出處https://www.cnblogs.com/rucwxb/p/102772

原创 Softmax激活函數與梯度方向

Softmax函數屬於有監督學習的範疇,一般用於多分類問題,在神經網絡中應用廣泛,很多時候作爲輸出層的激活函數使用。它可以被理解成升級版的Sigmoid函數,本質上是邏輯迴歸常用Sigmoid函數一般化,將k維的任意實數映射成k維的向量,

原创 混淆矩陣(Confusion Matrix)

混淆矩陣是除了ROC曲線和AUC之外的另一個判斷分類好壞程度的方法。以下有幾個概念需要先說明:TP(True Positive): 真實爲0,預測也爲0FN(False Negative): 真實爲0,預測爲1FP(False Posit

原创 轉:機器學習中的範數規則化之(一)L0、L1與L2範數

注:本文出處http://blog.csdn.net/zouxy09 今天我們聊聊機器學習中出現的非常頻繁的問題:過擬合與規則化。我們先簡單的來理解下常用的L0、L1、L2和核範數規則化。最後聊下規則化項參數的選擇問題。這裏因爲篇幅比較

原创 轉:kafka數據可靠性深度解讀

注:本文出處http://mt.sohu.com/20170422/n490083096.shtml Kafka起初是由LinkedIn公司開發的一個分佈式的消息系統,後成爲Apache的一部分,它使用Scala編寫,以可水平擴展和高

原创 Backward Elimination, Forward Selection and Stepwise

Backward Elimination,Forward Selection和Stepwise這三種是特徵選擇中經常用到的方法。當有時候特徵的數量太多的時候,我們除了可以用PCA等方法降維之外,還可以用特徵選擇的方法,篩選出幾個對結果影響

原创 筆記:聚類分析(待整理)

聚類分析優缺點: 優點: 1.聚類是自動的不必帶有方向性 2.易於理解和實施 缺點: 1.有時候難以解讀聚類的結果 2.聚類結果對距離計算方式的算則和特徵之間的權重十分敏感 3.K-mean由K值主導 4.K-means對初始中心的選擇十

原创 時間序列分析筆記(待整理)

時間序列有三種基本模式: 平穩性 / 隨機性(Stationarity):當數據沒有明顯的模式特徵的話,我們認爲它是平穩的,Y值在一個範圍內隨着時間上下浮動。 趨勢性(Trend):當Y值在一段時間內隨着時間有明顯的向上或者向下的趨勢的

原创 我的Python爬蟲筆記(待整理)

Python 爬蟲現階段用到的包是requests還有BeautifulSoup4。 requests主要內容是模擬html的get方式讀取網頁的信息 BeautifulSoup4則是提取網頁中tag標籤裏面的某些特定信息 範例: im

原创 QR Decomposition

QR分解法多用於解決線性代數問題中最小二乘法(Least Square Method)計算線性函數的係數。是其中一種計算特徵根的方法,可用於降維。QR分解用到了施密特正交化過程(Gram–Schmidt process),得出一個正交矩陣

原创 K-Means的三種迭代算法

K-Means是機器學習算法中一個比較經典的聚類算法 具體的實現方式主要有三種:Lloyd(Forgy),Hartigan-Wong和MacQueen Lloyd算法,也可以稱作Forgy或者Lloyd-Forgy,是最爲經典簡

原创 轉:淺析PageRank算法

注:本文出處http://blog.jobbole.com/23286 本文由張洋(@敲代碼的張洋)投稿於伯樂在線。 很早就對Google的PageRank算法很感興趣,但一直沒有深究,只有個輪廓性的概念。前幾天趁團隊outing的

原创 如何理解關聯法則中的三個判斷準則

關聯法則中,我們最常用到的無外乎是三種判斷的準則:support,confidence和lift。 先給出三個判斷標準的公式: 1.support(A)= number of A/total items    support(B)= nu