原创 分類器性能度量指標之ROC曲線、AUC值

目錄   概述 混淆矩陣(Confusion matrix) ROC曲線 AUC(Area under the ROC curve) AUC能拿來幹什麼 總結 參考資料: 概述 二分類問題在機器學習中是一個很常見的問題,經常會用到。ROC

原创 Tensorflow 分類函數(交叉熵的計算)

命名空間:tf.nn 函數 作用 說明 sigmoid_cross_entropy_with_logits 計算 給定 logits 的S函數 交叉熵。 測量每個類別獨立且不相互排斥的離散分類任務中的概率。(可以執行多標籤分類,其中圖片可

原创 文本自動摘要任務的初步總結

由於最近需要進行組內的知識分享,因而藉此機會將文本摘要的一些基本知識以及本人的一些實踐經驗做成文稿,一方面用來組內分享,一方面也是總結一下過去在該領域的一些心得體會。因個人的能力所限,本文實質上是對文本摘要的不完全總結,如有未能囊括的知識

原创 關鍵詞提取:TF-IDF和n-gram

一:引導 目錄 一:引導 二:內容預告 三:關鍵詞提取的方法 01 TF-IDF 02.TextRank 03.文本聚類法 04.有監督的關鍵詞提取 四:TF-IDF+n-gram提取關鍵詞 01.英文新聞測試語料 02.需要的庫 03.

原创 submodular函數優化

幾個月之前寫了一篇文本摘要任務的一些總結(詳見 文本自動摘要任務的初步總結),其中在說無監督方式做抽取式摘要的時候,參考了一篇論文:A Class of Submodular Functions for Document Summariz

原创 欠採樣(undersampling)和過採樣(oversampling)的作用

項目中出現了二分類數據不平橫問題,研究總結下對於類別不平橫問題的處理經驗: 爲什麼類別不平橫會影響模型的輸出?   許多模型的輸出類別是基於閾值的,例如邏輯迴歸中小於0.5的爲反例,大於則爲正例。在數據不平衡時,默認的閾值會導致模型輸出傾

原创 七種損失函數

主要內容: 0-1, Hinge, Logistic, Cross Entropy, Square, Absolute, Huber 簡述: 損失函數刻畫了模型與訓練樣本的匹配程度。   分類損失 對於二分類問題,Y={1,-1},我們

原创 Deep Learning for Extreme Multi-label Text Classification

一、背景介紹 1、研究背景:Multi-label和二分類、多分類研究的內容本身就不太一樣,並且Multi-label的數據稀疏問題比單一分類更嚴重,因此很難學習label之間的依賴關係。 2、研究問題:Extreme Multi-la

原创 Tensorflow 與 pytorch對比

1、前言 很多人在學習深度學習時,都會對於學習哪個深度學習的框架而煩惱,到底是Tensorflow 還是 pytourch?一個主流的說法就是如果搞學術研究,那麼就選擇pytourch,如果是搞項目那就選Tensorflow ,但很多人都

原创 從經典文本分類模型TextCNN到深度模型DPCNN

如今深度學習已經成爲NLP領域的標配技術,在圖像中大爲成功的卷積神經網絡(CNN)也開始廣泛滲透到文本分類、機器翻譯、機器閱讀等NLP任務中。但是,在ACL2017以前,word-level的文本分類模型(以單詞爲語義單位)自2014Ki

原创 Deep Learning for Extreme Multi-label Text Classification閱讀筆記

目錄   概述 模型 Dynamic max pooling 損失函數 ​Hidden Bottleneck layer 實驗參數設置 實驗結果 概述 Extreme multi-label就是說總的標籤量非常多, 成千上萬甚至數百萬

原创 TensorFlow2.0構架

1、TensorFlow2.0主要特徵 tf.keras和eager mode更加簡單 魯棒的跨平臺模型部署 更加靈活 清除不推薦使用的API和減少重複來簡化API 2、架構 該框架分爲兩大部分,左邊爲訓練部分,右邊爲模型部署。 2.

原创 ensorflow 與 pytourch對比

1、前言 很多人在學習深度學習時,都會對於學習哪個深度學習的框架而煩惱,到底是Tensorflow 還是 pytourch?一個主流的說法就是如果搞學術研究,那麼就選擇pytourch,如果是搞項目那就選Tensorflow ,但很多人都

原创 TensorFlow2.0--TensorFlow2.0構架

目錄 1、TensorFlow2.0主要特徵 2、架構 2.1 read &preprocess data 2.2 tf.keras 2.3 Premade Estimators 2.4 distribution strategy 2.5

原创 TensorFlow版本變遷與tf1.0架構

目錄 TensorFlow1.0 1.1XLA:Accelerate linear algebra 1.2 更高級別API 1.3支持docker鏡像 Docker TensorFlow Docker 要求 2、tensorflow1.0