情感分析綜述

情感分析與情感分類

情感分析(sentiment analysis)是近年來國內外研究的熱點,其任務是幫助用戶快速獲取、整理和分析相關評價信息,對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理。

情感分析包含較多的任務,如情感分類(sentiment classification)、觀點抽取(opinion extraction)、觀點問答和觀點摘要等。因此很難簡單地將其劃歸爲某一個領域,往往從不同的角度將其劃歸到不同的方向。如果單純地判別文本的傾向性,可以將其看作是一個分類任務;如果要從觀點句中抽取相關的要素(觀點持有者、觀點評價對象等),則是一個信息抽取任務;而如果要從海量文本中找到對某一事物的觀點,則可以看作是一個檢索任務。

隨着互聯網技術的迅速發展和普及,對網絡內容管理、監控和有害(或垃圾)信息過濾的需求越來越大,網絡信息的主觀傾向性分類受到越來越多的關注。這種分類與傳統的文本分類不同,傳統的文本分類所關注的是文本的客觀內容(objective),而傾向性分類所研究的對象是文本的“主觀因素”,即作者所表達出來的主觀傾向性,分類的結果是對於一個特定的文本要得到它是否支持某種觀點的信息。這種獨特的文本分類任務又稱爲情感分類。

情感分類

情感分類是指根據文本所表達的含義和情感信息將文本劃分成褒揚的或貶義的兩種或幾種類型,是對文本作者傾向性和觀點、態度的劃分,因此有時也稱傾向性分析(opinion analysis)。

情感分類作爲一種特殊的分類問題,既有一般模式分類的共性問題,也有其特殊性,如情感信息表達的隱蔽性、多義性和極性不明顯等。

針對這些問題人們做了大量研究,提出了很多分類方法。這些方法可以按機器學習方法歸類,也可以按情感文本的特點劃分。

1.按機器學習方法分類

根據機器學習方法所使用訓練樣本的標註情況,情感文本分類可以大致分爲有監督學習方法、半監督學習方法和無監督學習方法三類。

有監督學習方法:基於有監督學習的情感分類方法使用機器學習方法用於訓練大量標註樣本。
2002首次將有監督的學習方法應用到情感分類中,文獻中分別比較了多種分類算法以及各種特徵和特徵權值選擇策略在基於監督學習的情感分類中的效果。2004將主觀句摘要引入情感分類中;2010分析了極性轉移對情感分類的影響;2011使用基於特徵空間及分類算法的集成學習方法有效地提高了情感分類的性能。

半監督學習方法:基於半監督學習的情感分類方法是通過在少量標註樣本上訓練,並在大量未標註樣本上進行學習的方式構建分類模型。
2009將多種機器學習方法(例如:聚類方法、集成學習等)融入基於半監督學習的情感分類中;面對情感分類中漢語標註語料匱乏的問題,2009採用協同學習方法使用標註的英文語料和無標註的中文語料實現了高性能的中文情感分類。2010將情感文本的表達分爲個人的和非個人的兩種視圖,應用協同學習進行情感分類的半監督學習。

無監督學習方法:基於無監督學習的情感分類方法是指僅使用非標註樣本進行情感分類建模。
以往的大部分研究工作都是通過情感分類標註的種子詞集來實現無監督分類,2002通過計算文本中候選單詞與種子情感詞之間的點互信息來計算文本的情感傾向性,選擇“excellent”和“poor”作爲種子詞,在得到每個單詞與種子詞之間的點互信息後,根據SO-PMI計算每個詞的情感傾向性,並通過詞語計數的方式計算文本的整體情感傾向性。2006通過基於HowNet的語義分析抽取單詞的情感信息。2009根據樣本空間中文檔與單詞的共現關係,基於潛在狄利克雷分佈(latent Dirichlet allocation,LDA)的淺層語義分析方法獲取未標註樣本的標籤。

2.按研究問題分類

根據情感文本分類中側重關注的問題,可以將情感分類研究劃分爲領域相關性研究和數據不平衡問題研究兩類。

領域相關性研究:情感分類是一個領域相關(domain-specific)的問題,當訓練集和測試集屬於不同的領域時,基於監督學習的情感分類方法通常會表現出較差的效果。因此,領域適應性(domain adaptation)研究成爲一個重要課題,其目的就是儘量使情感分類器在跨領域學習時保持一定的分類性能。

2005針對領域適應中的特徵選擇、分類器融合和訓練集的組合等問題做了詳細分析。2007提出了一種基於結構共現學習(structural correspondence learning,SCL)的情感分類領域適應方法,在跨領域情感分類中取得了較好的性能。2010利用基於圖模型的Graph-Ranking算法處理中文情感分類中的領域適應問題。2011將集成學習方法應用於“多領域”情感分類,讓多個領域的資源互相幫助,從而使整體的情感分類性能獲得提升。

數據不平衡問題研究:情感分類往往牽涉樣本的正負類別分佈不平衡的問題。

Li et al.(2011b)對實際情況中的樣本不平衡問題做了深入分析。假設在情感分類中有N個樣本的訓練數據,其中包含N+個正類樣本和N-個負類樣本。目前大多數研究總是假設正類樣本數和負類樣本數是平衡的,即N+=N-,但實際情況並非如此,更一般的情況是訓練數據中一類樣本要遠遠多於另一類樣本。

針對不平衡數據的有監督情感分類問題,Li et al.(2011c)提出了一種基於中心向量的不平衡情感分類方法。
該方法包括以下幾個步驟對不平衡數據的標註樣本進行訓練:
①將“多類”裏面的所有訓練樣本進行聚類;
②在各個聚類裏面進行內部層次採樣,獲得同“少類”相同規模的樣本;
③使用這些採樣樣本並結合整個類的中心向量構建的新向量進行訓練學習。該方法借鑑中心向量充分利用“多類”裏面所有樣本的分類信息,獲得了比其他傳統採樣方法或者代價敏感方法更優的分類性能。

針對不平衡數據的半監督情感分類問題,Li et al.(2011b)提出了一種基於協同學習的半監督學習方法。
該方法有如下兩個特點:
①使用欠採樣技術對訓練樣本進行平衡採樣,用於構建多個欠採樣分類器,利用多個分類器對非標註樣本進行標註;
②採用動態特徵子空間的方式,即每次迭代重新生產特徵子空間,增加多分類器之間的差異性,進一步提升協同學習的性能。
實驗結果表明,該方法在處理情感分類的數據不平衡問題上,能夠利用非標註樣本提高分類性能。另外,該工作的一個貢獻是首次提出了一種針對不平衡數據分類的半監督學習方法。

針對不平衡數據的情感分類中的主動學習問題,Li et al.(2012b)提出了一種集成確定性和不確定性樣本選擇策略的方法,用於主動選擇不平衡數據中信息量大的樣本以提高分類性能。其中,確定性和不確定性分佈由兩個分開的特徵子空間進行控制,不確定性用於選擇信息量大的樣本,確定性用於選擇儘量平衡的數據。此外,對於確定性判斷出來的“多類”非標註樣本進行自動標註,進一步降低樣本的標註規模。實驗證明,在同樣的標註情況下該方法能夠大幅度提高不平衡數據的分類性能。

原文鏈接:https://blog.csdn.net/miner_zhu/article/details/82844924

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章