基於隱馬爾科夫模型文本相似度問題研究

文本相似度是表示兩個或者多個文本之間匹配程度的一個度量參數，相似度數值大，說明文本相似度高；反之文件相似程度就低。文本相似度的精確計算問題是進行信息處理的關鍵。

在如今信息技術飛速發展的互聯網時代，文本相似度計算的應用比較廣泛。數十億的網頁，海量的信息充實着人們的知識庫，在給人們帶來方便的同時也存在不少的問題。人們在享受這些資源的同時也不得不花大量的時間和精力來對其篩選和辨別，如果沒有有效的組織和提取信息的方式，將難以獲取到自己所需要的資源。文本相似度分析是一項解決該問題的關鍵且有實用價值的技術。國內外有很多學者在研究文本相似度計算爲問題並且已經有很多文檔相似度模型被提出並得到廣泛應用，如字符串相似度、文檔結構相似度以及統計相似度等模型。Nirenburg^[1]提出了串匹配的方法；Lambros^[2]等提出同時依據句子的表層結構和內容計算相似度的方法；Gerard Salton和McGill^{[3] [4]}提出的向量空間模型（VectorSpace Model，VSM），它的思想是把文檔簡化爲以特徵項的權重爲分量的想來那個表示，通過詞頻統計與向量降維處理來計算相似度；挪威Agder大學的Vladimir Oleshchuk^[5]等人提出基於Ontology（本體）的文本相似度比較方法，將本體論引入了文本相似度計算，它能計算文本的語義相似度；此外還有學者在研究句子間相似度的計算，如哥倫比亞大學的CarbonellJ等人提出最大邊緣相關的MMR（Maximal Marginal Relevance）方法；學者Chris HQDing^[6]採用隱性語義搜索模型LSI（Latent Semantic Indexing）方法。國內對漢語句子的相似度的計算主要是以詞語爲基本對象的，首先計算詞語間相似度，然後根據詞語間的的相似度利用一定的算法確定文本之間的相似度，主要有基於詞語特徵和基於語義特徵及句法分析特徵的計算方法。由中國的學者王國勝等提出的基於漢明距離文本相似度計算^[7]並引入了漢明碼概念，它避開了傳統的向量空間模型，文本中詞語含義通過它們碼字形式所代表的信息來表示；學者霍華^[8]等提出的基於壓縮矩陣矢量相乘的文本相似度計算方法，利用壓縮稀疏矩陣矢量空間存儲數據的優點，大大減少了存儲空間以及數據量，使得運行效率顯著提高；李曉光、於戈^[9]提出的基於混合語言模型的文檔相似度計算模型。基於哈希算法的基本思想是將每篇文檔映射爲哈希空間中的一個點,點之間的距離可以代表原始文本之間的相似度。基於LDA主題模型的文本相似度計算方法，該方法挖掘隱藏在文本內的不同主題詞之間的關係，得到文本的主題分佈並以此分佈來計算文本之間的相似度。

但是目前仍存在問題：比如上述算法主要是英文文本相似度的一些算法，直接應用於中文效果不好，其原因主要是因爲中文和英文語言特性的差異；目前應用最廣泛的還是基於傳統向量空間模型的文本相似度算法，這類算法操作複雜，運算量大且無法體現文本在詞序及結構上的相似性；好的相似度計算應該準確和高效，儘可能的接近人工的方法，能夠理解文章所要表達的意思，同時在處理海量文本數據時候，還能夠儘可能的高效。

1870年俄國數學家markov提出來馬爾可夫模型，國內的研究大多起始於五、六十年代，王梓坤院士在這方面做出了非常重大的貢獻，他先後發表了大量著作和論文^[10]，還翻譯了國外關於馬爾科夫理論的專著。隱馬爾可夫模型（Hidden Markov Model ，HMM）是對馬爾科夫模型的一種擴充，在這個模型中，事物的狀態表現不明顯，不能很直觀的觀測到，需要做一些轉換，可以通過狀態序列預測到，比如：睡眠的狀態可以分爲“醒覺”、“快速眼動”、“睡眠一期”……，他們便是“狀態”；而可以觀察到的則是這些狀態中的各種生理參數表現。這些表現便構成觀察。

對於隱馬爾科夫模型來說，最重要的就是轉移概率矩陣和觀察概率矩陣。隱馬爾科夫的應用非常廣泛，從國內來看，邢永康，馬少平^[11]將馬爾可夫模型用於聚類，提出了一種新的基於馬爾科夫模型的動態聚類方法；許歡慶，王永成等^[12]他們將隱馬爾科夫用於Web網頁預期；呂棟和李建華^[13]將隱馬爾科夫模型應用於網絡日誌審計。

隱馬爾科夫能解決的三個問題：

解決的問題	解決的方法
評估問題	前向-後向算法
解碼問題	Viterbi算法
學習問題	Baum-Welch估計算法

目前較爲主流的文本相似度計算方法是基於VSM的TF-IDF方法。它是一種基於統計的文本相似度計算方法，它使用詞頻信息來進行相似度的計算。優點是速度快，效率高。但是，它忽略了文本中的詞序問題。而隱馬爾科夫模型中的狀態轉移矩陣，能夠得出上一個單詞爲並且下一個單詞爲的概率，使其能夠反映詞序的變化。因此本文嘗試着結合隱馬爾科夫模型進行相似度計算。

文本相似度的研究在推動計算機智能方面都起着巨大的作用，經過衆多學者的研究，要提高信息搜索的正確率和高效性，離不開一個好的文本相似度算法。文本相似度的研究意義在於，提出更好的文本相似度算法，在效率和正確率方面有進一步的提高，更好的發揮相似度基礎性作用。自然語言含有豐富的含義，其中很重要一部分就是人們要表達的感情等因素，這是基於人類生物學認知上的理解，而計算機只是固件，之所以能夠運行，完全是依靠人類按照自己設計的程序去運行，是沒有感情和思考的，只能按照固定的程序去運行，比較死板，雖然現在人工智能有了很大發展，但是和人類的正常思維還是有很大的差距，所以，計算機對生物學理解還是很困難的，我們現在設計的文本相似度算法，就是能夠讓計算機按照這種規則去進行文本的對比。文本相似度是兩個文本之間比較的結果，目前，中文文本相似度是個研究熱點，很多學者對其進行了大量的研究，另外還有基於屬性論的方法，基於海明碼距離的計算方法，基於數字正文的重構方法等。

自然語言從它產生開始，逐漸演變成一種上下文相關的信息表達和傳遞方式，因此讓計算機處理自然語言，一個基本的問題就是爲自然語言這種上下文相關的特性建立數學模型，這個數學模型就是自然語言處理中常說的統計語言模型（Statistical LanguageModel），它是今天自然語言處理的基礎，並且廣泛應用於機器翻譯、語音識別、印刷體或手寫體識別、拼寫糾錯、漢字輸入和文獻查詢。互聯網的普遍應用導致網上的文本數量成指數級增長，因此如何自動處理這些海量聯機文本信息成爲目前重要的研究課題。自動文本信息抽取是文本信息處理的一個重要環節。文本信息抽取(text informationextraction)是指從文本中自動抽取相關的或特定類型的信息。目前文本信息抽取模型主要有三種：基於詞典的抽取模型，基於規則的抽取模型和基於隱馬爾可夫模型的抽取模型。利用HMM進行文本信息抽取是一種基於統計機器學習的信息抽取方法。HMM易於建立，不需大規模的詞典集與規則集，適應性好，抽取精度較高，除此以外，HMM還用於中文分詞的建立和詞性標註，因而得到研究者的關注。HMM中有三個典型問題。第一，已知模型參數，計算某一給定可觀察狀態序列的概率。第二，根據可觀察狀態的序列找到一個最可能的隱藏狀態序列。第三，根據觀察到的序列集來找到一個最有可能的 HMM。目前隱馬爾科夫模型結構在各個不同的領域中都有所應用。隱馬爾科夫模型結構無論應用於哪一種服務，其核心原理始終不會發生變化，需要靈活變化的只是不同應用場合中所提供的參數，只要將實際參數輸入到隱馬爾科夫模型中就可以解決相應的問題，同時依據不同的應用，算法也可以方便的改動以適應實際需求。由此可見，隱馬爾科夫模型的應用範圍十分廣泛。

參考文獻及資料：

[1] NirenburgS,DomashnevC,GrannesDJ.Two approaehesto matehing in example-based maehine translation.In:Proeeedings of TMI-93,Kyoto,Japan,1993,7:47-57.

[2] LambrosC,Harris P,Stelios P.A Matehing Teehnique in Example-based Maehine Translation.In:ProeeedingsofCOLING94,1991.

[3] Salton G andMeGill.M,Introduetion to Modern Information Retrieval,NewYork:MeGraw一Hill,1983.

[4] Salton G and Chris B.Term Weighting Approaehes in Automatie Text.RetrievalInformation

Proeessing and Management,1988,24(5):513-52.

[5] VladimirO,Asle P.ontology Based Semantie Similarity Comparison of Doeuments,14^thInternational Workshop on Database and ExPert SystemsAPPlieations,SePtember,2003:735-738.

[6] ChlisH.Q.Ding XiaofengHe,Hong yuan Zha,Ming Gu and Horst D.Simon,Amin-maxCut Algorithln for Graphpartitioning and DataClustering,IEEE,2001.

[7] 張煥炯,王國勝,鍾義信.基於漢明距離的文本相似度計算[J].計算機工程與應用,2001,37(19):21-22.

[8] 霍華,馮博琴. 基於壓縮稀疏矩陣矢量相乘的文本相似度計算[J].小型微型計算機系統,2005,26(06):988-990.

[9] 李曉光,於戈,王大玲. 基於混合語言模型的文檔相似性計算模型[J]. 中文信息學報,2006,20(04):41-48.

[10] 王梓坤.生滅過程與馬爾科夫鏈.科學出版社,1980.

[11] 邢永康,馬少平.一種基於Markov鏈模型的動態聚類方法[J].計算機研究與展,2003,40(2):129-135.

[12] 許歡慶,王永成,孫強. 基於隱馬爾可夫模型的Web網頁預取[J].上海交通大學學報,2003,37(3):404-407.

[13] 呂棟,李建華. 基於隱馬爾可夫模型的網絡日誌審計技術的研究[J].信息安全與通信保密,2004,03:32-34.

[14] Kennedy A, Inken D. Sentiment classification of movie reviewsusing contextual valence shifters. ComputationalIntelligence,2006,22(2):110-125P.

[15] S. Debnath, P. Mitra, N. Pal, and C. L. Giles. AutomaticIDentification of informative sections of web pages. TKDE,2005,17(9):1233-1246P.

[16] 金博,史彥軍,滕弘飛.基於語義理解的文本相似度算法.大連理工大學學報,2005,45(2):

291-297.

[17] 秦兵,劉挺,李生.基於局部主題判定與抽取的多文檔文摘技術[J].自動化學報, 2004,30(6):905-910.

[18] 王子慕.一種利用TF-IDF方法結合詞彙語義信息的文本相似度量方法研究[D].吉林大學.2015.

[19] 黃承慧,印鑑,侯昉.一種結合詞項語義信息和TF-IDF方法的文本相似度量方法[J].計算機學報,2011,34(5):856-864.

[20] 餘剛,裴仰軍,朱徵宇等.基於詞彙語義計算的文本相似度研究.計算機工程與設計, 2006,27(2):241-244.

[21] 張華平 ICTCLAS 漢語分詞系統［DB/OL］.http://ictclas.nlpir.org/,2015-01-30.

[22] 桑宇鵬.基於隱馬爾科夫過程的Blog相似性分析方法研究[D].哈爾濱工程大學,2012.

[23] 石晶,胡明,石鑫,戴國忠.基於LDA模型的文本分割[J].計算機學報.2008(10).

[24]石晶,範猛,李萬龍.基於LDA模型的主題分析[J].自動化學報.2009(12).

[25] 蘇振魁.基於馬爾科夫模型的文本相似度研究[D].大連理工大學,2007.

[26] Beeforman D,Berger A, Lafferty J.Statistical modelsfor text segmentation. Machine Learning, 1999, 34(1-3):177-210P.

[27] M. Collins. 2002.Discriminativetraining methods for hidden Markov models: Theory and experiments withperceptron algorithms.In Proceedings of the 2002 Conference on EmpiricalMethods in Natural Language Processing (EMNLP-02),Philadelphia,PA,July.

[28] Hassan and R. Mihalcea. 2011.Measuringsemantic relatedness using salient encyclopedic concepts. Artificial Intelligence,SpecialIssue.

[29] L.Zhao.Semantic similarity detectionin natural language documents.Master’s thesis,Clemson

University,2012.

[30] Croft,W.Bruce,and DavID J.Harper.1979.Usingprobabilistic models of document retrieval without relevance information. Journal of Documentation. 1996,35(4):285-295P.

[31] Karchin R, Hughey R:Weighting hiddenMarkov models for maximum discrimination Bioninf-

Ormatics1998,14:772-782P.

[32] Schapire RE, Singer Y.BoosTexter:Aboosting-based system for text categorization.Machine

Learing,2000,39(2-3):135-168P.

[33] 李旭.基於串匹配方法的文檔複製檢測系統研究[D].燕山:燕山大學.2005

[34] 史彥軍,滕弘飛,金博.抄襲論文識別研究與進展[J].大連理工大學學報,2005,45(1):50-57.

[35] 桓樂樂.基於馬爾科夫模型詞序因子的文本相似度研究[D].湖北工業大學,2012.

[36] 郭亞寧. 基於哈希編碼的文本拷貝檢測算法優化與實現[D].山東大學,2014.

[37]蔣巍. 基於位置敏感哈希的海量文本數據查詢算法研究[J]. 科技通報,2013,10:70-72.

基於隱馬爾科夫模型文本相似度問題研究

極客夢的博客

自然語言處理當中評價指標彙總

隨機森林

條件隨機場學習

數據開發常用的幾種數據預處理和數據整理方法

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結