原创 文本轉化爲向量

假如有一句話"I am a student"。用向量來表示每個單詞,採用one hot 編碼表示方式: I -> [1,0,0,0] am -> [0,1,0,0] a -> [0,0,1,0] student -> [0,0,0

原创 初次使用BERT的可視化指南

初次使用BERT的可視化指南 在過去幾年裏,處理語言的機器學習模型的進展一直在迅速加快。這一進步已經離開了研究實驗室,開始爲一些領先的數字產品提供動力。這方面的一個很好的例子是最近公佈的BERT模型如何成爲谷歌搜索背後的主要力量

原创 神經網絡的前向傳播和反向傳播推導

神經網絡的前向傳播和反向傳播推導 x1x_{1}x1​和x2x_{2}x2​表示輸入 wijw_{ij}wij​表示權重 bijb_{ij}bij​表示偏置 σi\sigma_{i}σi​表示激活函數,這裏使用sigmoid激活

原创 numpy庫

numpy庫的使用 創建數組 x1 = np.array([1, 2, 3], dtype="int8") print(x1) print(x1.dtype) # 數據類型 x2 = np.array(range(1, 10)

原创 機器學習:K近鄰(KNN)

K近鄰(K-Nearest Neighor,KNN)學習是一種常用的監督學習方法,它的思想非常簡單:給定測試樣本,基於某種距離度量找出訓練集中與其最靠近的K個訓練樣本,然後基於這K個鄰居的信息進行預測。KNN是一種基本的機器學習算

原创 python3正則表達式

re.match函數 re.match函數嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。 函數語法: re.match(pattern, string, flags=0) 函數參數

原创 文本分類(1)-文本預處理

在進行文本分類之前,需要對文本進行預處理。中文文本和英文文本預處理的方式有所差別。 (1)英文文本預處理 文本預處理過程大致分爲以下幾點: 1、英文縮寫替換 預處理過程中需要把英文縮寫進行替換,如it’s和it is是等價的,wo

原创 jieba庫的基本使用

分詞 import jieba # 朱自清散文節選 text = '人生就是一種承受,一種壓力,讓我們在負重中前行,在逼迫中奮進。無論走到哪裏,我們都要學會支撐自己,沒有人陪你走一輩子,所以你要適應孤獨,沒有人會幫你一輩子,所以

原创 Linux最常用的命令(3)

系統常用命令 命令 選項 示例 含義 top top 顯示當前系統中消耗資源最多的進程 date date 顯示系統當前時間 ps 較少單獨使用,配選項根據需求,ps -ef或者ps -aux

原创 文本分類(3)-卷積神經網絡(CNN)實現文本分類

# cnn實現垃圾郵件分類 from keras.models import Sequential from keras.layers import Dense, Conv1D, GlobalMaxPooling1D, Embed

原创 機器學習:BIRCH聚類、譜聚類

1、BIRCH聚類 BIRCH的全稱是利用層次方法的平衡迭代規約和聚類(Balanced Iterative Reducing and Clustering Using Hierarchies)。BIRCH算法利用了一個樹結構來快

原创 Linux最常用的命令(1)

Linux的目錄 目錄 作用 /bin/ 存放系統命令的目錄,普通用戶和超級用戶都可以執行 /sbin/ 保存系統和環境設置相關的命令 /usr/bin/ 存放系統命令的目錄 /boot/ 系統啓動目錄,

原创 文本分類(2)-基於傳統機器學習方法進行文本分類

傳統機器學習的文本分類通常提取TFIDF或者詞袋特徵,然後給模型進行訓練,傳統的機器學習的分類模型由很多,比如邏輯迴歸、支持向量機、多層感知機、貝葉斯等等。利用傳統機器學習方法進行文本分類的基本思路:獲取數據、數據預處理(上一篇博

原创 統計詞頻

統計詞頻 英文文本詞頻統計 import re from nltk.stem.wordnet import WordNetLemmatizer from nltk.tokenize import word_tokenize #

原创 Linux最常用的命令(2)

權限管理命令 chmod 功能:改變文件或目錄的權限 示例 含義 chmod u+x 文件或目錄 給所有者增加執行(x)權限 chmod g+w,o-r 文件或目錄 給所屬組增加w權限,其他人減少r權限 ch