原创 常用python算法實現(二)——前綴樹TrieTree

一.概述(多個關鍵詞-實體檢索-查詢)          TrieTree(前綴樹),又被稱爲字典樹、單詞查找樹,是一種比較常見的數據存儲結構與算法。          顧名思義,前綴樹便是公共的字符只保存一次的多路樹。如你所見,它的基本

原创 超參數優化與NNI(HPO,Hyper-parameter optimization)

一、超參數優化(HPO)簡介         超參數優化 (HPO) 是 Hyper-parameter optimization的縮寫,是指不是依賴人工調參,而是通過一定算法找出機器學習/深度學 習中最優/次優超參數的一類方法。HPO的

原创 中文短文本分類實例十四-LEAM(Joint Embedding of Words and Labels for Text Classification)

一.概述         LEAM(Joint Embedding of Words and Labels for Text Classification),是Guoyin Wang等提出的一種文本分類新方法,看論文標題就可以發現,該方法

原创 NLG文本生成算法一TextRank(TextRank: Bringing Order into Texts)(jieba,TextRank4ZH,gensim實現比較)

一.NLG文本生成任務        文本生成NLG,不同於文本理解NLU(例如分詞、詞向量、分類、實體提取),是重在文本生成的另一種關鍵技術(常用的有翻譯、摘要、同義句生成等)。        傳統的文本生成NLG任務主要是抽取式的,生

原创 Macropodus自然語言處理(NLP)工具包(Albert+BiLSTM+CRF)

一、簡介         Macropodus自然語言處理工具(Albert+BiLSTM+CRF) 中文分詞 命名實體識別 新詞發現 關鍵詞 文本摘要 計算器 中文數字阿拉伯數字轉換。         Macropodus是一個以Alb

原创 文本摘要(text summarization)一:語料簡介概述綜述與工具

一、文本摘要(Document Summarization,Toolkit工具)         文本摘要是指通過各種技術,對文本或者是文本集合,抽取、總結或是精煉其中的要點信息,用以概括和展示原始文本(集合)的主要內容或大意。作爲文本生

原创 python3寫一個http接口服務(get, post),給別人調用2

一、python3寫一個http接口服務,給別人調用2         這次選擇flask,Flask是一個用於構建web應用程序的Python微框架,是一個輕量級的WSGI web應用程序框架。它的目的是使web入門變得快速和容易,並能

原创 文本摘要(text summarization)二: 經驗模型(lead3,keyword,nous-base)

一、文本摘要(Document Summarization)         文本摘要,一般地我們會把它分成抽取式文本摘要和生成式文本摘要。就目前的形勢而言,工業界應用廣泛的還是抽取式文本摘要。抽取式文本摘要的優點很多,主題不易偏離、適應

原创 Xlnet句向量實現(embedding)與句子相似度計算

一.Xlnet概述        Xlnet是bert預訓練模型之後NLP領域的又一重大進展,它充分吸收了Bert的雙向語言模型(自編碼-Mask LM機制)、預訓練+Finetun機制(Transformer特徵抽取 )、大規模語料訓練

原创 自然語言表示簡史(BERT/ELMO/Word2vec/LDA/Bow/Ohehot,詞向量、句向量、優缺點、應用與解決的問題)

一、自然語言表徵與計算機表示        自然語言是指一種人類社會中自然地隨文化演化的語言,聰明的人類經過萬年的積累,並通過後天良久的學習才能理解語言的魅力和含義,機械的計算機當然不能如此容易地表達出來。        要了解自然語言的

原创 文本摘要(text summarization)五: 統計模型(text_pronouns、text_teaser,feature-base)

一、文本摘要(統計模型)         統計模型(feature base)是深度學習興起之前,最有效果,應用最廣泛的文本摘要技術方案。統計學習方法,即便是在今天,基於統計的文本摘要模型,也是一個重要的baseline,以及高併發複雜條

原创 Macropodus中文分詞方法綜述詳解(CWS, chinese word segment)

一、Macropodus簡介         Macropodus自然語言處理工具(Albert+BiLSTM+CRF) 擁有中文分詞 命名實體識別 新詞發現 關鍵詞 文本摘要 計算器 中文 數字阿拉伯數字轉換等算法,其中,中文分詞無疑是

原创 中文短文本分類實例十三-SWEM(Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Po)

一.概述         SWEM(Baseline Needs More Love: On Simple Word-Embedding-Based Models and Associated Pooling Mechanisms),基