中文評價對象提取以及NLP基礎

前言

在CNCC開會的時候,收到一個問詢:中文評價對象抽取的方法和開源工具。一番谷歌度娘論文閱讀,撰文如下,歡迎指正。

任務界定

情感分析主要是針對主觀性文本單元自動獲取有價值的意見信息,是一個新穎且非常有應用價值的研究課題[1]。評價對象抽取和傾向性分析屬於情感分析的兩個子任務。
一句商品評論如:爲發燒而生的手機,非常的親民,速度非常的快,手感很輕柔,很舒服。攝像效果驚人,夜景效果非常的好,小米係統的很多功能我正在探索中,很好玩。是一款低調奢華有內涵的好手機,爲雷軍大讚。爲京東的快遞小哥也點個滿意的贊。
這裏寫圖片描述
抽取結果:
目標對象:小米手機(銀3GB 64GB)
評價對象:(速度)快,(手感)輕柔,(攝像效果)好……
傾向性:五星好評

解決方案

基線方案

以2010年劉鴻宇等的工作[1](研究情感句中的評價對象抽取及其情感傾向性判斷任務; 作爲基礎入門,哈工大的綜述文本情感分析值得[2]強烈推薦)作爲傳統解決方案的例子。劉將任務分爲兩個主要階段:
1. 自動識別情感句中的評價對象
2. 判別情感句中評價對象的情感傾向性
劉鴻宇等認爲於評價對象的獲取,已有的方法主要可以歸爲兩類:人工構建[3]和關聯規則挖掘[4-5]
判斷情感極性主要是:有監督方法(Kim和Hovy使用詞、位置以及情感詞三類特徵來對情感句進行分類[6]、趙軍等人使用CRF和冗餘標籤對句子序列進行情感傾向性標註[7])、無監督方法(基於句法規則的方法[3,5]
劉等採用的是無監督的方法,在第一屆中文傾向性分析評測取得優秀結果。系統框架圖如下所示這裏寫圖片描述
劉的大體思路是:
1使用句法分析,找出名詞和名詞短語作爲候選的評價對象
2使用三種過濾技術(詞頻過濾、PMI過濾、名詞裁剪)削減候選集合,主要思路還是設置不同的閾值依靠出現頻率和共現頻率刪除候選集(不停的試錯)
3句子劃分成四類,基於規則,比如情感詞的的級性、數量(否定詞)、上下文級性。
句子帶有明顯的傾向性,即句子中帶有一種傾向性的上下文無關情感詞明顯多於另一種
句子不帶有明顯的傾向性,但句子中含有情感詞,且褒義和貶義情感詞的個數相同
句子不帶有明顯的傾向性,且句子中沒有情感詞,但其上下文的句子帶有明顯傾向性
句子不帶有明顯的傾向性,句子中沒有情感詞,且其上下文的句子也不帶有明顯傾向性
結果分析
這裏寫圖片描述

這裏寫圖片描述

這裏寫圖片描述
其中的Strict表示評價對象完全重合,Lenient表示評價對象部分重合,例如攝影效果和攝影。
評價:總的來說,作爲基線模型,本模型使用的是大量的人工閾值,容易復現,沒有使用機器學習算法,比如SVM分類。不過本文的數據集一共只有473個篇章,3,000個句子,卻有10,000個評價對象,有監督學習不一定足夠充分。

提升方案

提升思路:大規模語料庫、強力句法分析器、詞向量、特徵工程、有監督分類算法。後續的nlp&cc 2012的測評任務基本上用的都是有監督學習的思路。
這裏寫圖片描述
這裏寫圖片描述
一個使用CRFS的評價對象提取方案例子如下

鄭敏潔,雷志城,廖祥文,陳國龍. 基於層疊CRFs的中文句子評價對象抽取[J]. 中文信息學報,2013,03:69-76.

COAE中文傾向性分析評測

一共舉行了七屆,目前第八屆COAE報名已經截止
第六屆COAE2014評測在前五屆中文傾向性分析評測的基礎上,重點對情感關鍵句、跨語言情感分析、微博情感新詞、微博傾向性、微博觀點要素識別進行評測。與往年評測的一個不同點是,COAE2014的評測技術論文需按照CCIR2014的要求與格式來撰寫,並向CCIR2014投稿,數據集下載。COAE2015的相關測評參考:HITSCIR_Run:COAE2015微博觀點句識別任務分析系統

開源工具

HanLP

是由一系列模型與算法組成的Java工具包,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
中文分詞:最短路分詞 N-最短路分詞 CRF分詞 索引分詞 極速詞典分詞 用戶自定義詞典
詞性標註
命名實體識別:中國人名識別 音譯人名識別 日本人名識別 地名識別 實體機構名識別
關鍵詞提取:TextRank關鍵詞提取 自動摘要 TextRank自動摘要 短語提取 基於互信息和左右信息熵的短語提取
拼音轉換 多音字 聲母 韻母 聲調
簡繁轉換 繁體中文分詞 簡繁分歧詞(簡體、繁體、臺灣正體、香港繁體)
文本推薦 語義推薦 拼音推薦 字詞推薦
依存句法分析:基於神經網絡的高性能依存句法分析器 MaxEnt依存句法分析 CRF依存句法分析
語料庫工具:分詞語料預處理 詞頻詞性詞典制作 BiGram統計 詞共現統計 CoNLL語料預處理 CoNLL UA/LA/DA評測工具
主頁地址:https://github.com/hankcs/HanLP

TweetNLP

http://www.cs.cmu.edu/~ark/TweetNLP/
針對英文的詞性標註工具,裏面的句子特徵提取部分非常具有借鑑意義,代碼撰寫規範,學習CRFs的童鞋可以邊看代碼邊讀作者的論文。

Jieba分詞

官網:http://www.oschina.net/p/jieba
代碼:https://github.com/fxsjy/jieba
中文分詞、關鍵詞提取和詞性標註的工具

NLTK

目前具有霸主地位的一個NLP大全工具,斯坦福大學自然語言處理組是世界知名的NLP研究小組,他們提供了一系列開源的Java文本分析工具,包括分詞器(Word Segmenter),詞性標註工具(Part-Of-Speech Tagger),命名實體識別工具(Named Entity Recognizer),句法分析器(Parser)等,可喜的事,他們還爲這些工具訓練了相應的中文模型,支持中文文本處理。
http://www.nltk.org/

語料庫

強烈推薦:http://www.36dsj.com/archives/21118
國內外著名大學研究所提供的免費語料庫 用於標註翻譯以及其他自然語言任務
以下語料庫鏈接轉載自http://blog.csdn.net/u010708470/article/details/52749535?locationNum=7
Penn Treebank http://www.cis.upenn.edu/~treebank/home.html
WSJ Corpus https://catalog.ldc.upenn.edu/LDC2000T43
NEGRA German corpus http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/
Tiger corpus http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/
alpino Treebank http://odur.let.rug.nl/~vannoord/trees/
Bultreebank http://www.bultreebank.org/
Turin University Treebank http://www.di.unito.it/~tutreeb/
prague dependency Treebank http://ufal.mff.cuni.cz/pdt2.0/

大而全的NLTK所有語料
NLTK Corpora http://www.nltk.org/nltk_data/

另外COAE每次測評任務的語料庫,天池大賽、DataCastle比賽、今日頭條比賽、搜狗比賽都有提供大量的文本資料(帶標籤)

未完待續

有時間再看看當下最新的測評(nlpcc等測評任務)用的有監督實現,把這篇文章補充完整。
推薦補充閱讀:如何挖掘網民意見?評價對象抽取綜述
翻譯自 Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies, 2012, 5(1): 1-167.

總結

中文評價對象的抽取是情感分析的一個子任務,但不是像POS、分詞和分塊那樣基礎課題,一定要用CRFs、HMM之類序列標註算法,也不一定要用SVM、NN這樣的分類算法。它需要大量的特徵工程再加以合適的分類或標註算法,例如上文13年的那篇CRFs的文章[8]。一般的流程包括文本預處理、特徵抽取(詞性特徵、分塊特徵、ngram特徵、上下文特徵、詞聚類特徵、詞向量)然後使用分類或標註算法(我猜測應該也有LSTM之類序列生成的算法直接生成評價對象)。

[1]劉鴻宇,趙妍妍,秦兵,劉挺. 評價對象抽取及其傾向性分析[J]. 中文信息學報,2010,01:84-88+122.

[2]趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學報,2010,08:1834-1848.

[3]姚天昉,等.一個用於漢語汽車評論的意見挖掘系統[C]//中文信息處理前沿進展—中國中文信息學會二十五週年學術會議論文集.北京:清華大學出版社,
2006: 260-280.

[4]Minqing Hu,Bing Liu. Mining opinion features in customer reviews[ C]//Proceedings of AAAI-2004, 2004: 755-760.

[5]倪茂樹,林鴻飛.基於關聯規則和極性分析的商品評論挖掘[C]//第三屆全國信息檢索與內容安全學術會議,2007: 635-642.

[6]Soo-Min Kim,Eduard Hovy. Automatic detection of opinion bearing words and sentences[C]//Proceedings of IJCNLP-2005,2005: 61-66.

[7]Jun Zhao,Kang Liu,GenWang. Adding redundant features for crfs-based sentence sentiment classification [C]//Proceedings of the 2008 Conference on EmpiricalMethods in Natural Language Processing, 2008:117-126.

[8]鄭敏潔,雷志城,廖祥文,陳國龍. 基於層疊CRFs的中文句子評價對象抽取[J]. 中文信息學報,2013,03:69-76.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章