原创 「小技巧」只要5分鐘!還愁找不到專業領域詞庫嗎

在NLP領域,詞庫可謂是根基,只要你的任務或項目涉及到專業一些的領域,就必定離不開詞庫。 就拿最基本的分詞來說,導入專業領域的詞庫纔可以幫分詞工具更好的切詞。那麼這個專業詞庫要從哪裏收集?只要幾分鐘,一個小技巧,快速收集自己想要領域的詞庫。

原创 深度學習模型部署的那些事兒

當我們千辛萬苦完成了前面的數據獲取、數據清洗、模型訓練、模型評估等等步驟之後,終於等到老大說“上線”啦。想到辛苦訓練出來的模型要被調用還有點小激動呢,可是真當下手的時候就有點懵了:模型要怎麼部署?部署在哪裏?有什麼限制或要求? 本文基於以上

原创 XLNet只存在於論文?都替你封裝好了還不來用!

相信前段時間大家都被各種XLNet的解讀、解析轟炸了吧。好容易熬過了學會了,到網上一搜,誒!官方沒有公佈中文預訓練模型,其他大佬都還沒動靜,散了散了,追ALBERT的熱點去了。在 ymcui大佬 的中文XLNet 和 CyberZHG大佬的

原创 中文語音識別後檢錯糾錯(二):LSTM句子檢錯糾錯

在構建了基於n-gram的糾錯檢錯模型之後,我們自然不能放過如今大紅大紫的神經網絡,鑑於神經網絡的靈活性和訓練的耗時性,我們在方法嘗試和模型訓練上花了很多時間,期間走過不少彎路,也因工業界大佬進行交流走了捷徑,總得來說,神經網絡的表現雖然沒

原创 tensorflow 文本序列檢錯的tricks

這一大段時期,筆者一直在研究序列檢錯問題,最近涉及到字級序列的檢錯。字級序列進行錯誤檢測其實就是一個和標註詞性一樣的序列標註問題,對於給定的字級序列,預測該序列中每個字是正確還是錯誤。在用tensorflow使用雙向lstm對序列進行檢錯的

原创 2018 NLPCC Chinese Grammatical Error Correction 論文小結

最近,筆者一直在研究語音識別後的文本糾錯,而就在八月26-30日,CCF的自然語言處理和中文計算會議召開了,筆者也從師兄那裏拿到了新鮮出爐的會議論文集,其中重點看的自然是其shared task2:grammatical error cor

原创 復現Entropy-based Term Weighting Schemes for Text Categorization in VSM小結

論文 Entropy-based Term Weighting Schemes for Text Categorization in VSM 提出了新的基於熵的用於文本分類的詞權重計算方法tf·dc,tf·bdc,通過和目前流行的權重計算方

原创 拼音型簡單錯誤語料獲取與處理

在自然語言處理領域中,語料是非常關鍵的一個部分。然而,中文的自然語言處理領域在大的通用型語料上雖然不少,但在特定方向上的語料仍然匱乏。在要進行拼音型文本糾錯任務過程中,我發現這方面的語料着實少,因此在語料的獲取和處理上花費較多時間,以下是我

原创 百度機器閱讀理解比賽賽後總結

2018年4-5月間,筆者參加了百度舉辦的機器閱讀理解競賽,抱師兄大腿地從不知連機器學習的門入沒入的狀態到對自然語言以及閱讀理解有了一定理解。期間經歷了讀不懂論文、不會實現算法、對師兄談及的各種算法一無所知等等痛苦,最終堅持下來,算是有了一

原创 中文語音識別後檢錯糾錯(一):n-gram + 拼音相似度 + 詞語搭配

有幸參加研究生師兄的創新創業項目,一個和金融企業合作的對話文本分析與挖掘的項目。項目組從公司處獲得語音識別後的客服對話文本,我們對文本進行糾錯、情感分析與挖掘等並最終給公司反饋,讓公司能夠從客服對話文本中獲得有效信息。我在項目中參與的部分是