真粉絲還是假槓精?愛奇藝在文本輿情挖掘上的技術探索和實踐

用戶的文字表達是輿情信息的重要組成部分之一。自然語言處理技術(Natural Language Processing, 即NLP)可以幫助我們提取文本中的有效信息,理解和挖掘用戶的觀點、情感和需求。這裏我們通過影視劇集的評論分析,介紹愛奇藝在文本輿情挖掘方面的技術探索和實踐。

背景

作爲以科技創新爲驅動的娛樂公司,愛奇藝努力爲用戶提供豐富、高品質和智能化的專業服務。輿情分析是理解用戶的一個重要方面。用戶在觀看視頻或使用產品後,通過各種方式表達着自己的情感和觀點。如對電視綜藝節目內容本身的熱議、對演員角色的喜愛和吐槽、對產品的意見都是輿情的內容。針對這些輿情的挖掘和分析可以更直觀更清晰的顯示用戶的關注點和主觀感受。

整個輿情分析的內容可以包括文本、圖片、音頻等多種形式,數據的來源也多種多樣。要想從多維度全面深入的分析,就要結合技術和經驗的許多知識是個系統性工程。我們只關注文本評論,討論一些利用NLP技術進行輿情分析的探索和實踐。

主要內容會集中在利用詞法和句法分析技術、提取用戶觀點(包括用戶評論對象和相關評價詞)、情感、聚焦點等反映用戶關注焦點和主觀感受的特徵。如,電視劇《你和我的傾城時光》中部分用戶評論會作爲示例,並展示具體分析過程。

功能

image

圖1 單句文本中觀點和情感的識別

愛奇藝有着大量的影視劇、綜藝和動漫資源。我們觀看的同時也會產生大量彈幕、劇集和泡泡圈評論等語料。每一條用戶的評論都可以看做文本輿情分析的基本單位。雖然文本評論屬於非結構化數據, 用戶的表達也比較隨意,但是我們通過NLP 技術可以轉化爲結構化有效信息,提取出用戶對某個評價對象的觀點意見和情感表達。

以用戶的單句評論爲示例,我們的輿情分析可以提取和歸納出下面多種信息:如圖1中 電視劇《你和我的傾城時光》中一條示例評論, “穎寶的演技一直都有進步!期待你和我的傾城時光”。 我們可以得到的結構化信息包括:

  1. 這條評論的整句情感傾向“正向”;
  2. 用戶評論的評價對象,“穎寶的演技” 和《你和我的傾城時光》;
  3. 針對評價對象的評價詞,“有進步”評價穎寶的演技和“期待”評價《你和我的傾城時光》;
  4. 用戶對評價對象的情感傾向, 在正向評價穎寶的演技和《你和我們的傾城時光》;
  5. 劃分用戶評價的觀點到預先設定的類別,”穎寶的演技“屬於演員類和《你和我的傾城時光》屬於整體評價類。

image

圖2 整體文本信息的分類觀點 (本示例爲“你和我的傾城時光”中演員,劇情,視覺音效三個維度的分類觀點)

image

圖3 《你和我的傾城時光》每日的情感分佈

上述只是單句級別的觀點分析和情感識別,表達了單個用戶的態度和感受。影視劇集的輿情分析中還需要用戶羣體整體感受的歸納。尤其是用戶羣體對特定方面的感受聚合。比如用戶喜歡哪個演員、喜歡演員的哪個方面、劇集本身的情節如何等等。

我們的輿情分析在單句分析的基礎上, 也包括了觀點和情感歸納的功能。 如圖3中,展示了利用大量評論語料,從《你和我的傾城時光》中演員、劇情、視覺音效三個特定維度的觀點總結。分析的語料中,大多數的用戶表達了對演員和劇集的喜愛。

如圖4,是另外一種用戶整體情感態度的歸納,是《你和我的傾城時光》在某段日期上的情感分佈。這是在單句情感分析的基礎上合併統計後的結果,同時也反映了用戶對劇集的喜愛程度。

算法和流程

image

圖4 文本輿情分析中觀點提取和情感分析的流程圖

從圖1到圖3中的分析過程中主要會用到NLP技術中詞語和句子級別的語義理解,具體會涉及到多個基於機器學習和深度學習的NLP模型。 圖1,是我們這裏討論的文本輿情分析的整體框架圖。從每個用戶的評論語料的輸入到分析結果的輸出,是通過管道串聯的方式連接在一起。其中包括詞法分析、觀點識別、關係提取、情感分析、文本分類等多個模塊。輸出的分析結果可以歸結爲用戶單句的觀點和情感 (如上面圖1所示的分析結果)以及用戶整體觀點和情感的分類 (如圖2和圖3所示的分析結果)。

整個文本分析流程中詞法分析是第一步, 也是後續分析中最重要的基礎。愛奇藝的詞法分析服務已經廣泛應用在公司多個億級流量的業務線。它包括基於CRF的分詞服務實體識別、詞權重、實體鏈接等多種服務。我們的這裏重點介紹的觀點提取和情感分析也主要基於這個服務的分詞功能。

詞法分析之外,流程中重要的部分包括:

1) 觀點的提取, 即用戶評價對象、評價詞的提取和評價詞與評價對象之間關係的確定:

image

圖5 評價對象的提取和評價詞評價對象關係的確定

評價對象的提取是尋找用戶想要表達觀點的對象。評價詞的提取是確定用戶具體想表達的觀點內容。如圖5(同圖1的示例)綠色字體的詞語或者短語展示了觀點,提取模型提取出的用戶評價對象和可能對應的評價詞。爲簡化任務,我們可以僅考慮顯式表達的提取。我們採用了NLP中序列標註的方式提取評價詞和評價對象。通過數據集中分別標註評價詞和評價對象,從而訓練模型推斷單個評論中對應觀點和評價詞的位置。 基於雙向LSTM與CRF的模型 [1] 在我們自建的數據集中表現較好。

評價對象和評價詞之間關係的確定是用戶觀點理解的另外一個重要組成部分。 見圖5, 我們會通過關係提取的方式確定綠色關鍵詞或者短語之間的關係,比如在示例中,“有進步”在描述“穎寶的演技”, ”期待”在描述《你和我的傾城時光》,而不是在描述”穎寶的演技“。這樣的方式不光可以處理示例中評價詞和評價對象之間一對一的關係提取,還可以處理評價詞和評價對象之間多對多的情況。

我們關係提取的模型經歷了規則爲主、簡單模型和優化詞語特徵,到引入注意力機制等迭代,目前採用了基於雙向GRU與注意力機制的分類模型。其中注意力機制部分是一種基於詞和句子級別的自注意力機制[2,3]。通過詞和句子級別注意力機制的引入,在我們的數據集上解決了加權重點詞和解決部分標註噪音的問題。

2) 整句和對特定評價對象的情感分析:

用戶情感的解析是輿情分析中比較重要的部分。用戶單句評論往往會表達一個明顯的情感傾向。這個可以參照圖1中的結果1。我們這裏跟大多數場景中一樣,歸納情感爲正中負三種。整句情感體現了用戶整體的情感表達,這是句子或者段落級別的文本情感分析。 但是用戶表達比較複雜,含有多種情感的時候需要對用戶每個觀點對象進行情感分析,即對用戶的每個觀點分別給予正中負三種情感傾向。這個可以參照圖1中的結果4。具體的算法我們在判斷整句情感和對特定評價對象的細粒度情感時,都採用了基於雙向LSTM的模型,並在其中引入注意力或者門的機制[4,5],用於強化特定評價詞對評價對象的作用。

3) 觀點的聚合:

單句級別的觀點分析和情感識別,只是單個用戶的態度和感受。作爲用戶羣體,我們需要某些特定維度上的觀點總結。 參考圖2中的示例, 我們再算法上利用了單句的觀點分析結果,再加上基於CNN的分類模型[6],在事先設定好的維度下聚合所有用戶的觀點。

總結和規劃

通過電視劇評論的分析,介紹了一些利用深度學習模型和NLP技術從文本評論中提取用戶觀點和情感的方法,包括如何確定用戶的評價對象、評價詞和情感類別。結合這些模型和技術可以挖掘用戶對影視內容的主觀感受,作爲基石之一,爲深入的理解用戶、內容運營、影視評估提供智能參考。另外,這裏我們雖然主要討論影視評論上應用,但上述流程作爲一個基本通用流程,還可以應用到對產品、藝人的輿情分析中,理解用戶對這些方面的觀點和情感。

我們還在進行更多的嘗試和迭代。功能方面,雖然用戶的基本觀點和情感可以被提取和聚合, 但還需要更加合理的找出用戶的真正關注點,和接受程度; 數據層面、用戶對影視劇、藝人、產品的關注點是有所不同的,需要在不同場景積累不同的標註文本數據;模型層面,用戶的表達方式還是多種多樣的,口語化,顯示和隱式的表達都會出現,無法通過單一的模型解決所有問題,更多的特定場景模型優化和迭代需要持續進行。

文獻引用

  1. Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition. arXiv preprint arXiv:1603.01360, 2016.
  2. Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2016, 2: 207-212.
  3. Lin Y, Shen S, Liu Z, et al. Neural relation extraction with selective attention over instances. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2016, 1: 2124-2133.
  4. Yang Z, Yang D, Dyer C, He X, Smola AJ, and Hovy EH. Hierarchical attention networks for document classification. In Proceedings of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2016), 2016.
  5. Zhang M, Zhang Y, Vo D-T. Gated neural networks for targeted sentiment analysis. In Proceedings of AAAI Conference on Artificial Intelligence (AAAI 2016), 2016.
  6. Kim Y. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882, 2014.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章