前言

在CNCC開會的時候，收到一個問詢：中文評價對象抽取的方法和開源工具。一番谷歌度娘論文閱讀，撰文如下，歡迎指正。

任務界定

情感分析主要是針對主觀性文本單元自動獲取有價值的意見信息,是一個新穎且非常有應用價值的研究課題^[1]。評價對象抽取和傾向性分析屬於情感分析的兩個子任務。
一句商品評論如：爲發燒而生的手機，非常的親民，速度非常的快，手感很輕柔，很舒服。攝像效果驚人，夜景效果非常的好，小米係統的很多功能我正在探索中，很好玩。是一款低調奢華有內涵的好手機，爲雷軍大讚。爲京東的快遞小哥也點個滿意的贊。

抽取結果:
目標對象：小米手機（銀3GB 64GB）
評價對象：（速度）快，（手感）輕柔，（攝像效果）好……
傾向性：五星好評

解決方案

基線方案

以2010年劉鴻宇等的工作^[1]（研究情感句中的評價對象抽取及其情感傾向性判斷任務; 作爲基礎入門，哈工大的綜述文本情感分析值得^[2]強烈推薦）作爲傳統解決方案的例子。劉將任務分爲兩個主要階段：
1. 自動識別情感句中的評價對象
2. 判別情感句中評價對象的情感傾向性
劉鴻宇等認爲於評價對象的獲取,已有的方法主要可以歸爲兩類:人工構建^[3]和關聯規則挖掘^[4-5]
判斷情感極性主要是：有監督方法（Kim和Hovy使用詞、位置以及情感詞三類特徵來對情感句進行分類^[6]、趙軍等人使用CRF和冗餘標籤對句子序列進行情感傾向性標註^[7]）、無監督方法（基於句法規則的方法^[3,5]）
劉等採用的是無監督的方法，在第一屆中文傾向性分析評測取得優秀結果。系統框架圖如下所示
劉的大體思路是：
1使用句法分析，找出名詞和名詞短語作爲候選的評價對象
2使用三種過濾技術(詞頻過濾、PMI過濾、名詞裁剪)削減候選集合，主要思路還是設置不同的閾值依靠出現頻率和共現頻率刪除候選集（不停的試錯）
3句子劃分成四類，基於規則，比如情感詞的的級性、數量（否定詞）、上下文級性。
句子帶有明顯的傾向性,即句子中帶有一種傾向性的上下文無關情感詞明顯多於另一種
句子不帶有明顯的傾向性,但句子中含有情感詞,且褒義和貶義情感詞的個數相同
句子不帶有明顯的傾向性,且句子中沒有情感詞,但其上下文的句子帶有明顯傾向性
句子不帶有明顯的傾向性,句子中沒有情感詞,且其上下文的句子也不帶有明顯傾向性
結果分析

其中的Strict表示評價對象完全重合，Lenient表示評價對象部分重合，例如攝影效果和攝影。
評價：總的來說，作爲基線模型，本模型使用的是大量的人工閾值，容易復現，沒有使用機器學習算法，比如SVM分類。不過本文的數據集一共只有473個篇章，3，000個句子，卻有10，000個評價對象，有監督學習不一定足夠充分。

提升方案

提升思路：大規模語料庫、強力句法分析器、詞向量、特徵工程、有監督分類算法。後續的nlp&cc 2012的測評任務基本上用的都是有監督學習的思路。

一個使用CRFS的評價對象提取方案例子如下

鄭敏潔,雷志城,廖祥文,陳國龍. 基於層疊CRFs的中文句子評價對象抽取[J]. 中文信息學報,2013,03:69-76.

COAE中文傾向性分析評測

一共舉行了七屆，目前第八屆COAE報名已經截止
第六屆COAE2014評測在前五屆中文傾向性分析評測的基礎上，重點對情感關鍵句、跨語言情感分析、微博情感新詞、微博傾向性、微博觀點要素識別進行評測。與往年評測的一個不同點是，COAE2014的評測技術論文需按照CCIR2014的要求與格式來撰寫，並向CCIR2014投稿，數據集下載。COAE2015的相關測評參考：HITSCIR_Run：COAE2015微博觀點句識別任務分析系統

開源工具

HanLP

是由一系列模型與算法組成的Java工具包，目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
中文分詞：最短路分詞 N-最短路分詞 CRF分詞索引分詞極速詞典分詞用戶自定義詞典
詞性標註
命名實體識別：中國人名識別音譯人名識別日本人名識別地名識別實體機構名識別
關鍵詞提取：TextRank關鍵詞提取自動摘要 TextRank自動摘要短語提取基於互信息和左右信息熵的短語提取
拼音轉換　多音字　聲母　韻母　聲調
簡繁轉換　繁體中文分詞　簡繁分歧詞（簡體、繁體、臺灣正體、香港繁體）
文本推薦語義推薦拼音推薦字詞推薦
依存句法分析：基於神經網絡的高性能依存句法分析器　MaxEnt依存句法分析　CRF依存句法分析
語料庫工具：分詞語料預處理　詞頻詞性詞典制作　BiGram統計　詞共現統計　CoNLL語料預處理　CoNLL UA/LA/DA評測工具
主頁地址：https://github.com/hankcs/HanLP

TweetNLP

http://www.cs.cmu.edu/~ark/TweetNLP/
針對英文的詞性標註工具，裏面的句子特徵提取部分非常具有借鑑意義，代碼撰寫規範，學習CRFs的童鞋可以邊看代碼邊讀作者的論文。

Jieba分詞

官網：http://www.oschina.net/p/jieba
代碼：https://github.com/fxsjy/jieba
中文分詞、關鍵詞提取和詞性標註的工具

NLTK

目前具有霸主地位的一個NLP大全工具，斯坦福大學自然語言處理組是世界知名的NLP研究小組，他們提供了一系列開源的Java文本分析工具，包括分詞器(Word Segmenter)，詞性標註工具（Part-Of-Speech Tagger），命名實體識別工具（Named Entity Recognizer），句法分析器（Parser）等，可喜的事，他們還爲這些工具訓練了相應的中文模型，支持中文文本處理。
http://www.nltk.org/

語料庫

強烈推薦：http://www.36dsj.com/archives/21118
國內外著名大學研究所提供的免費語料庫用於標註翻譯以及其他自然語言任務
以下語料庫鏈接轉載自http://blog.csdn.net/u010708470/article/details/52749535?locationNum=7
Penn Treebank http://www.cis.upenn.edu/~treebank/home.html
WSJ Corpus https://catalog.ldc.upenn.edu/LDC2000T43
NEGRA German corpus http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/
Tiger corpus http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/
alpino Treebank http://odur.let.rug.nl/~vannoord/trees/
Bultreebank http://www.bultreebank.org/
Turin University Treebank http://www.di.unito.it/~tutreeb/
prague dependency Treebank http://ufal.mff.cuni.cz/pdt2.0/

大而全的NLTK所有語料
NLTK Corpora http://www.nltk.org/nltk_data/

另外COAE每次測評任務的語料庫，天池大賽、DataCastle比賽、今日頭條比賽、搜狗比賽都有提供大量的文本資料（帶標籤）

未完待續

有時間再看看當下最新的測評（nlpcc等測評任務）用的有監督實現，把這篇文章補充完整。
推薦補充閱讀：如何挖掘網民意見？評價對象抽取綜述
翻譯自 Liu B. Sentiment analysis and opinion mining[J]. Synthesis Lectures on Human Language Technologies, 2012, 5(1): 1-167.

總結

中文評價對象的抽取是情感分析的一個子任務，但不是像POS、分詞和分塊那樣基礎課題，一定要用CRFs、HMM之類序列標註算法，也不一定要用SVM、NN這樣的分類算法。它需要大量的特徵工程再加以合適的分類或標註算法，例如上文13年的那篇CRFs的文章^[8]。一般的流程包括文本預處理、特徵抽取（詞性特徵、分塊特徵、ngram特徵、上下文特徵、詞聚類特徵、詞向量）然後使用分類或標註算法（我猜測應該也有LSTM之類序列生成的算法直接生成評價對象）。

[1]劉鴻宇,趙妍妍,秦兵,劉挺. 評價對象抽取及其傾向性分析[J]. 中文信息學報,2010,01:84-88+122.

[2]趙妍妍,秦兵,劉挺. 文本情感分析[J]. 軟件學報,2010,08:1834-1848.

[3]姚天昉,等.一個用於漢語汽車評論的意見挖掘系統[C]//中文信息處理前沿進展—中國中文信息學會二十五週年學術會議論文集.北京:清華大學出版社,
2006: 260-280.

[4]Minqing Hu,Bing Liu. Mining opinion features in customer reviews[ C]//Proceedings of AAAI-2004, 2004: 755-760.

[5]倪茂樹,林鴻飛.基於關聯規則和極性分析的商品評論挖掘[C]//第三屆全國信息檢索與內容安全學術會議,2007: 635-642.

[6]Soo-Min Kim,Eduard Hovy. Automatic detection of opinion bearing words and sentences[C]//Proceedings of IJCNLP-2005,2005: 61-66.

[7]Jun Zhao,Kang Liu,GenWang. Adding redundant features for crfs-based sentence sentiment classification [C]//Proceedings of the 2008 Conference on EmpiricalMethods in Natural Language Processing, 2008:117-126.

[8]鄭敏潔,雷志城,廖祥文,陳國龍. 基於層疊CRFs的中文句子評價對象抽取[J]. 中文信息學報,2013,03:69-76.

中文評價對象提取以及NLP基礎

前言

任務界定

解決方案

基線方案

提升方案

COAE中文傾向性分析評測

開源工具

HanLP

TweetNLP

Jieba分詞

NLTK

語料庫

未完待續

總結

前端使用 Konva 實現可視化設計器（13）- 折線 - 最優路徑應用【思路篇】

基於B/S的信息管理系統的架構技術介紹

基於sigar的B/S系統監控

oracle 的服務器進程（PMON, SMON,CKPT,DBWn,LGWR，ARCn）

sql 聯合查詢

C# 小爬蟲

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結