原创 NLP—TextRank算法獲取文本關鍵詞和摘要

    TextRank算法主要用來生成文本的關鍵詞和摘要,其來源於PageRank算法,下面先介紹PageRank。PageRank在搜索領域有廣泛的應用,最開始用來計算網頁的重要性。可以把整個網絡看成有向圖,網頁是結點,如果網頁A中存

原创 tSNE—高維數據降維可視化(理論部分)

t-SNE是一種降維方法,PCA主成分分析、LDA等屬於線性降維,t-SNE屬於非線性降維,是一種流形學習方法(Manifold Learning)。如圖所示的曲面上,兩點之間的歐式距離爲紅色虛線所示,藍色實線爲兩點之間的測地線距離,第二

原创 Dask-大規模數據存儲與讀取、並行計算

在進行大規模的數據分析時,本機的內存往往不夠,同時又不想使用spark等大數據工具的話,Dask是一個不錯的替代選擇。而且它的api使用跟pandas很相似,對於從pandas數據分析過渡來的使用起來非常方便。下面我們基於亞馬遜用戶音樂評

原创 Python點滴(八)—pandas中的透視表

  首先導入需要使用的numpy和pandas功能庫,numpy用於數值計算,Pandas是基於numpy構建的用於科學計算的功能庫,pandas.pivot_table是Pandas庫(pd)中的函數。然後讀取Lending Club數

原创 Vim_Linux指令_Git

cp /usr/inspur/2.5.0.0-1245/spark2/python/spark_recommend.py /usr/inspur/2.5.0.0-1245/spark2/python/pyspark You have m

原创 海量數據處理相關算法簡介

一、Hash映射/分治,數組的特點是尋址容易,但是插入刪除困難,鏈表的特點是尋址困難,但是插入刪除容易。而哈希表就是這兩者的結合,尋址和插入刪除都容易。左邊是一個數組,數組每個成員包含一個指針指向一個鏈表的頭。如圖所示的就是一種求模數散列

原创 機器學習算法應用場景實例

目錄1 分類算法應用場景實例1.1 O2O優惠券使用預測1.2 市民出行選乘公交預測1.3待測微生物種類判別1.4 基於運營商數據的個人徵信評估1.5 商品圖片分類1.6 廣告點擊行爲預測1.7 基於文本內容的垃圾短信識別1.8 中文句子

原创 Hadoop(一)基礎知識記錄

本文主要介紹Hadoop基本知識,對Hadoop做一個簡單的學習記錄,記錄點滴,與大家一起分享,共同進步;O(∩_∩)O~核心組成: HDFS分佈式文件系統,存儲海量數據MapReduce並行處理框架,實現任務分解和調度低成本  高擴展性

原创 Spark大數據分析——pyspark(三)

Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_

原创 Hive問題

[root@jy-agent-981 ~]# pwd /root [root@jy-agent-981 ~]# cd // [root@jy-agent-981 //]# cd etc/security/keytabs [root@jy-

原创 Machine Learning中的數據不平衡問題

在機器學習問題中,經常會遇到數據分佈不平衡的問題。例如在垃圾郵件分類問題中,只有少數的樣本屬於垃圾郵件,大多數樣本都是非垃圾郵件,這樣訓練出來的分類模型對垃圾郵件檢測率往往較低。這裏介紹一些解決思路,以供大家參考!我們約定:多數類樣本使用

原创 NLP—word2vec詞向量簡介

NLP處理的數據都是文字,而文字是無法直接被計算機計算的,於是人們想出了使用獨熱編碼的方式來表示單詞。浙江 [0,0,0,0,0,0,0,1,0,......0,0,0,0,0,0,0] 江蘇 [0,0,0,0,1,0,0,0,0,...

原创 NLP—文本相似度算法BM25

BM25算法,通常用來做檢索相關性評分。首先對一個查詢Query進行分詞得qi,對每個搜索結果文檔d,計算qi與文檔d的相關性得分。最後將所有的qi進行加權求和,從而得到查詢Query與文檔d的相關性得分。公式中,Q表示查詢Query,q

原创 矩陣的秩、矩陣分解概念

首先來想一個問題,最初的那個人爲什麼要叫他爲“秩”,爲什麼不叫“雞”“鴨”“鵝”?舉個例子就很容易理解,大家排隊買票。如果大家互相不認識,那就會一個排一個,非常有秩序。然而,如果突然來了一個與隊伍前面的人認識的人,這個人又不自覺,非要插隊

原创 NLP—詞頻特徵向量

詞向量、TF-IDF值詞向量都沒有考慮單詞的上下文關係,而僅僅考慮詞的權重,即單詞出現的頻率。雖然丟失了一部分語義信息,但是在面臨聚類、分類等問題時,這種詞向量方法表現也不錯。下面代碼例子中,首先利用docs中出現的單詞構建字典,然後把每