情感分析的相關基礎概念

1. 什麼是觀點

觀點是一個廣義的概念,包括了情感、評估、評價、態度,以及其他相關信息,包括觀點持有者和觀點評價對象。

觀點四元組表示。觀點的結構化表示一般有四元組:
(g,s,h,t) (g, s, h, t)
其中,gg表示觀點評價對象或者評價對象的屬性,ss表示情感詞,hh是觀點持有者,tt表示觀點的評價時間。不同的觀點持有者,其評論的觀點影響力可能會不一致,比如一個總統的觀點可能比普通人的觀點更加重要;而時間則可以反映觀點的時間變動情況,一個人在不同的時間,可能對一個評價對象的觀點是不一致的。

常規型觀點。常規型觀點在文獻中常簡稱爲觀點,主要包括以下兩類:

  • 直接觀點:直接觀點是直接對實體或實體屬性表達的觀點。
  • 間接觀點:間接觀點是間接地對實體或實體屬性表述的觀點,而這一實體或實體屬性會對另外一些實體嘗試正面或負面的影響。比如“注射藥物後,我的關節感覺很痛”。

比較型觀點。比較型觀點是對兩個或更多實體之間的相同或不同點進行比較,表達了觀點持有者對其中一個的偏好。比如“可口可樂比百事可樂好喝”。

第一人稱觀點。表達了一個人或團體對一個實體的態度。
非第一人稱觀點。由一個人轉述他人的觀點,即相信他人會持有某種觀點。
元觀點。元觀點是對觀點的觀點。比如:“我對中國足球在比賽中失分覺得很傷心。”

2. 情感對象

情感對象又稱爲觀點評價對象,是觀點所評價的實體、實體的一部分或實體的一個屬性。

一個實體ee可以被層次化地分解和表示,可以是一個產品、服務、主題、個人、組織、事件。可以用一個對e:(T,W)e:(T,W)來描述,其中TT是一個層次關係,而WWee的屬性集合。在很多文獻中,實體也被稱爲對象,實體屬性也被稱爲特徵。

觀點五元組表示。當實體採用實體對的形式表示時,此時觀點的表示可以表達爲五元組:
(e,a,s,h,t) (e, a, s, h, t)
五元組的表示法也是工業中經常採用的存儲形式。當觀點針對整個實體進行評價時,此時屬性用一個特定的值“general”表示。

3. 觀點中的情感

情感是觀點中所蘊含的感受、態度、評價或情緒。通常情感由一個三元組表示:
(y,o,i) (y, o, i)
其中,yy是情感類型,oo是情感的傾向,ii是情感的強度。

情感類型有基於語言學、心理學和消費者調研等劃分方法,一般用的比較多是消費者調研,它將情感分爲兩種類型:理性情感和感性情感。

理性情感來源於理性推理、切實的信念和實用主義的態度,不包含任何主觀的情緒。比如“手機的音質很清晰”。

感性情感則存在於人們深度的心理狀態之中,來自於對實體的不可觸及切情緒化的反應。比如“我對他們的服務人員很生氣”。

情感傾向可以是正面、負面或者中立的。

情感強度表示情感的不同強度,一般有三種方法,一種是對情感詞劃分強度,比如good和excellent表達對情感強度就不同;另一種是採用程度副詞,比如非常、很等。第三種是採用情感評分,一般採用5檔評分,評分規則如下:

  • 感性正向(+2分或5星)
  • 理性正向(+1分或4星)
  • 中立(0分或3星)
  • 理性負向(-1分或2星)
  • 感性負向(-2分或1星)

4. 情感分析的目標和任務

情感分析的目標就是給定一個包含觀點信息的文檔dd,抽取出dd中所有觀點五元組,抽取完成後,需要對抽取楚的實體和屬性進行分類,這裏涉及幾個概念:

  • 實體類別:指的是一個唯一特定的實體
  • 實體表達:也叫實體提及,指的的段落中實際表示一個實體類別的詞或短語
  • 屬性類別:實體的一個唯一特定的屬性
  • 屬性表達:也叫屬性提及,指的是段落中實際表示一個屬性的詞或短語,可以名詞、名詞短語、動詞、動詞短語、形容詞、副詞等。

每個實體或者實體類別都應當在一個特定應用中有唯一的名稱,把實體表達聚合或組合爲實體類別的過程叫作實體消解或者實體聚類,同樣地,把不同具有相同語義但不同文本的屬性表達組合爲一個屬性類別的過程叫做屬性消解或者屬性聚類。

5. 觀點摘要定義

基於屬性的觀點摘要:對於實體ee的基於屬性的觀點摘要結果具有如下形式:

  • general:
    • 對實體ee持正面觀點的人數
    • 對實體ee持負面觀點的人數
  • 屬性1:
    • 對實體ee的屬性1持正面觀點的人數
    • 對實體ee的屬性1持負面觀點的人數

其中,general表示實體本身。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章