從記者的Twitter關注看他們稿件的黨派傾向?

這篇論文屬於社會計算方向,一般會用到社交媒體數據做研究,分析方法一般會用到文本分析。這篇文章文本數據處理感覺還是挺技術的,可以借鑑一下

  • 構建詞典-使用詞頻比構建黨派傾向(共和or民主)詞典

  • 用戶評價矩陣- 使用記者-國會議員關注矩陣識別記者社交媒體賬號的意識形態傾向

文末有視頻觀看地址


左傾右傾


文獻綜述


論文中沒有使用lda主題模型,而是使用的比較簡單好懂的詞典法做的意識形態的主題劃分。

研究數據


研究方法

使用記者-國會議員關注矩陣識別記者社交媒體賬號的意識形態傾向。這裏我也不懂GAM,但感覺這裏我們可以通過奇異值分解得到每個記者的特徵向量,如果不同GAM,可以通過聚類,簇數爲2,應該可以大致劃分出左傾記者和右傾記者。

  1. 公式中的兩個log相減,實際上是兩個分數的相比。

  2. S(t)得分大於0,意味着左側的分數比右側分數大。

  3. 左側是共和黨,右側是民主黨

  4. 如果S(t)得分大於0,則表示這個詞共和黨用的更多,可以看做共和黨特徵詞。反之,民主黨用詞

  1. s(j)公式與上一個公式一樣,都是做的比值運算。

  2. 如果s(j)大於0,則右傾(共和黨); 反之,則左傾(民主黨黨)

研究結果

討論

總結

往期文章讀完本文你就瞭解什麼是文本分析

綜述:文本分析在市場營銷研究中的應用
Pandas時間序列數據操作
readability: 英文文本數據可讀性庫

Matplotlib可視化教程~

Matplotlib中的plt和ax都是啥?

70G上市公司定期報告數據集
5個小問題帶你理解列表推導式
文本數據清洗之正則表達式
Python網絡爬蟲與文本數據分析
如何批量下載上海證券交易所上市公司年報
Numpy和Pandas性能改善的方法和技巧
漂亮~pandas可以無縫銜接Bokeh
YelpDaset: 酒店管理類數據集10+G

先有收穫,再點在看!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章