原创 NLP系列——(3)特徵選擇

文章目錄一、TF-IDF1.1 背景1.2 TF-IDF概述1.3 TF-TIDF的實現1.3.1 用gensim庫來計算tfidf值1.3.2 用sklearn庫來計算tfidf值1.3.3 用python手動實現tiidf的計

原创 NLP模型——FastText

FastText一、預備知識1.1 Softmax 迴歸1.2 分層Softmax1.3 n-gram特徵二、word2vec三、FastText 原理四、FastText 實戰 fastText是Facebook於2016年開源

原创 NLP系列——(9)Attention

Attention一、基本的Attention原理1.1 什麼是Attention?1.2 爲什麼要加入Attention1.3 Attention的原理二、HAN(Hierarchical Attention Networks)

原创 NLP系列——(8)循環和遞歸神經網絡

循環和遞歸神經網絡 RNN的結構。循環神經網絡的提出背景、優缺點。着重學習RNN的反向傳播、RNN出現的問題(梯度問題、長期依賴問題)、BPTT算法。 雙向RNN 遞歸神經網絡 LSTM、GRU的結構、提出背景、優缺點。 針對梯

原创 NLP系列——(5)樸素貝葉斯+SVM+LDA

文本表示一、樸素貝葉斯1.1 樸素貝葉斯理論1.高斯模型2.多項式模型3.伯努利模型1.2 樸素貝葉斯實戰——文本分類二、SVM模型2.1 SVM原理2.2 SVM實戰——文本分類三、LDA主題模型3.1 PLSA、共軛先驗分佈3

原创 NLP系列——(6)神經網絡+FastText

神經網絡+FastText一、神經網絡基礎1.1 前饋神經網絡1.1.1 神經元模型1.1.2 前饋神經網絡1.1.3 網絡層數1.1.4 輸入層1.1.5 輸出層1.1.6 隱藏層1.1.7 隱藏單元1.1.8 激活函數1.1.

原创 NLP系列——(7)卷積神經網絡

卷積神經網絡+Text-Text一、卷積神經網絡1.1 卷積1.1.1 一維卷積1.1.2 二維卷積1.1.3 卷積網絡—動機1.1.4 一維卷積運算和二維卷積運算1.2 池化層二、Text-CNN 一、卷積神經網絡 1.1 卷積

原创 NLP模型——TextCNN

TextCNN 參考 Text-CNN 文本分類

原创 NLP系列——(10)BERT

BERT一、Transformer1.1 Encoder-Decoder框架1.2 Transformer模型架構二、BERT2.1 BERT 原理2.2 BERT模型總體結構2.3 BERT模型輸入2.4 BERT模型預訓練任務

原创 NLP系列——(4)文本表示

文本表示1、文本表示2、 文本表示的方法2.1 one-hot表示2.2 word2vec2.2.1 CBOW2.2.2 Skip-Gram 1、文本表示 文本表示的意思是把字詞處理成向量或矩陣,以便計算機能進行處理。文本表示是自

原创 NLP系列——(2)特徵提取

文章目錄一、中英文文本分析1.1 中文文本特點1.2 英文文本特點二、文本數據的基本特徵提取2.1 詞彙數量2.2 字符數量2.3 平均詞彙長度2.4 停用詞數量2.5 特殊字符數量2.6 數字數量2.7 大寫字母數量三、文本數據的預

原创 NLP系列——(1)數據探索-召回率、準確率、ROC曲線、AUC、PR曲線等概念

數據集探索 ——機器學習之類別不平衡問題 1 各種評估指標 評估指標 Evaluation metrics 可以說明模型的性能,辨別模型的結果。 我們建立一個模型後,計算指標,從指標獲取反饋,再繼續改進模型,直到達到理想的準確度。在預

原创 NLP系列——(1)數據探索-THUCNews

數據集探索 一、數據集 數據集:中、英文數據集各一份 1、中文數據集:THUCNews THUCNews數據子集:https://pan.baidu.com/s/1hugrfRu 密碼:qfud 2、英文數據集:IMDB數據集 IMD

原创 NLP系列——(1)數據探索-彙總

將幾個任務分開整理的,在此做個彙總 NLP系列——(1)數據探索-IMDB NLP系列——(1)數據探索-THUCNews NLP系列——(1)數據探索-召回率、準確率、ROC曲線、AUC、PR曲線等概念

原创 NLP系列——(1)數據探索-IMDB

數據集探索 一、數據集 數據集:中、英文數據集各一份 1、中文數據集:THUCNews THUCNews數據子集:https://pan.baidu.com/s/1hugrfRu 密碼:qfud 2、英文數據集:IMDB數據集 IMD