原创 極客夢的博客

作爲自然語言處理中的小學生,喜歡各種新型深度學習框架,無論轉載還是原創,旨在督促自己學習更多的知識。寫的好與不好作爲參考,大家一起交流上進。作爲自己文檔的“github”使用,積累,分享,開放。

原创 自然語言處理當中評價指標彙總

自然語言處理當中評價指標很多,好多專用的術語,本篇旨在對常用的評價指標彙總,督促自己系統學習,大家當做參考不足之處請指出並做交流。 文本分類評測指標如下: P-R曲線的比較: 對於A和B曲線,如果需要比較,比較兩個曲線的輪廓

原创 隨機森林

引入 Bagging算法中,通過bootstrapping得到不一樣的數據,通過這些數據送到一個基本算法之後,得到不同的g,最後對這些g取平均得到G;決策樹算法中,通過遞歸方式建立子樹,最終得到一棵完整的樹。 這兩種算法都有其鮮明的

原创 條件隨機場學習

前戲:一起走進條件隨機場 作者:白寧超 2016年8月2日13:59:46 【摘要】:條件隨機場用於序列標註,數據分割等自然語言處理中,表現出很好的效果。在中文分詞、中文人名識別和歧義消解等任務中都有應用。本文源於筆者做 ,對條件

原创 數據開發常用的幾種數據預處理和數據整理方法

原創 2017-04-27 Kai Wähner 翻譯|謝旭 審校|張衛濱 本文比較了用於數據準備的幾種方法,它們分別是提取-變換-加載批處理(ETL)、流式獲取和數據整理。本文還討論了數據準備如何與可視化分析相關聯,以及不同用戶

原创 隱馬爾科夫模型、三個基本問題、三個訓練算法

參考一篇“機器學習研究會”的文章與宗慶後的《統計自然語言模型》,督促自己回顧一下HMM模型知識爲面試做準備。 這次學習會講了隱馬爾科夫鏈,這是一個特別常見的模型,在自然語言處理中的應用也非常多。常見的應用比如*分詞,詞性標註,命名實體識別

原创 機器學習過擬合

參照臺大機器學習教程 (https://mp.weixin.qq.com/s/vus2mp2RhCL0kPamXVKnAg) - 過擬合的概念:過擬合就是訓練出來的模型在訓練集上表現很好,但是在測試集上表現較差的一種現象!

原创 win10系統崩潰經驗彙總

重裝系統之後一定要建立“系統還原點”,具體參照win10系統還原點建立 平時,自己文檔一定要備份,我用“有道雲筆記”,可以輕鬆收藏微信文章等。 win10系統自帶“WinRe”工具,自動修復工具,當我們系統意外從啓2-3次時候,自動進入

原创 假設檢驗的基本原理和T檢驗

轉載lietal AlgorithmDog AlgorithmDog,督促自己系統學習 假設檢驗原理: T檢驗介紹: T檢驗導出 T檢驗類型 T 檢驗有多種類型,可以分爲只有一組樣本的單體檢驗和有兩組樣

原创 VS2010+ARX2014+C# 開發環境配置

1.設置環境變量能夠找到ARX資源庫,設置完成後重啓(環境變量設置完成後都需要從啓)。 2.安裝AutoCADNetWizardsAutoCADNetWizards.msi 嚮導。(包括ARX類庫和嚮導都在這個網站能找到AutoCA

原创 文本自動摘要

最近人工智能隨着AlphaGo戰勝李世乭這一事件的高關注度,重新掀起了一波新的關注高潮,有的說人工智能將會如何超越人類,有的說將會威脅到人類的生存和發展,種種聲音都在表明人工智能的又一個春天即將到來,但很多學者認爲媒體的過度炒作,會引發民

原创 數據降維之主成分分析、多維縮放、t分佈隨機近鄰嵌入、自編碼神經網絡

主成分分析(PCA) 算法描述: 輸入樣本集: 低維空間 具體過程: 注意:實踐當中通常對樣本矩陣進行奇異值分解代替協方差矩陣特徵值分解. 維數:的選取規則: 自編碼神經網絡 自動編碼器(autoencoder)

原创 CRF,HMM,MEMM

CRF相對於HMM,主要優點CRF的條件隨機性,只需要考慮當前出現的觀察狀態的特性,沒有嚴格的要求,CRF具備一切最大熵隱馬爾科夫模型的優點. MEMM使用的每一個狀態的指數模型來計算給定前一個狀態的條件概率,CRF用單個指數模型計算給

原创 VC維簡單介紹

用途:爲了研究學習過程的一致收斂和推廣性,統計學理論定義的有關函數集學習性能的一個重要指標. 描述:函數集的VC維就是這個函數集能夠打散的最大樣本數目。 注意事項:目前尚沒有通用的任意函數集的VC維計算理論,但N維空間的線性分類器和線

原创 基於隱馬爾科夫模型文本相似度問題研究

文本相似度是表示兩個或者多個文本之間匹配程度的一個度量參數,相似度數值大,說明文本相似度高;反之文件相似程度就低。文本相似度的精確計算問題是進行信息處理的關鍵。 在如今信息技術飛速發展的互聯網時代,文本相似度計算的應用比較廣泛。數十億的網