這篇論文屬於社會計算方向,一般會用到社交媒體數據做研究,分析方法一般會用到文本分析。這篇文章文本數據處理感覺還是挺技術的,可以借鑑一下
構建詞典-使用詞頻比構建黨派傾向(共和or民主)詞典
用戶評價矩陣- 使用記者-國會議員關注矩陣識別記者社交媒體賬號的意識形態傾向
文末有視頻觀看地址
左傾右傾
文獻綜述
論文中沒有使用lda主題模型,而是使用的比較簡單好懂的詞典法做的意識形態的主題劃分。
研究數據
研究方法
使用記者-國會議員關注矩陣識別記者社交媒體賬號的意識形態傾向。這裏我也不懂GAM,但感覺這裏我們可以通過奇異值分解得到每個記者的特徵向量,如果不同GAM,可以通過聚類,簇數爲2,應該可以大致劃分出左傾記者和右傾記者。
公式中的兩個log相減,實際上是兩個分數的相比。
S(t)得分大於0,意味着左側的分數比右側分數大。
左側是共和黨,右側是民主黨
如果S(t)得分大於0,則表示這個詞共和黨用的更多,可以看做共和黨特徵詞。反之,民主黨用詞
s(j)公式與上一個公式一樣,都是做的比值運算。
如果s(j)大於0,則右傾(共和黨); 反之,則左傾(民主黨黨)
研究結果
討論
總結
往期文章讀完本文你就瞭解什麼是文本分析
綜述:文本分析在市場營銷研究中的應用
Pandas時間序列數據操作
readability: 英文文本數據可讀性庫
Matplotlib可視化教程~
Matplotlib中的plt和ax都是啥?
70G上市公司定期報告數據集
5個小問題帶你理解列表推導式
文本數據清洗之正則表達式
Python網絡爬蟲與文本數據分析
如何批量下載上海證券交易所上市公司年報
Numpy和Pandas性能改善的方法和技巧
漂亮~pandas可以無縫銜接Bokeh
YelpDaset: 酒店管理類數據集10+G
先有收穫,再點在看!