大數據分析:研究武漢新型肺炎的發展歷程

最近武漢發現新型肺炎2019-nCov牽動着大家的新,藥店裏的口罩就和酒精也是搶購一空。本文將通過對百度資訊中,以“肺炎”一詞作爲關鍵詞,檢索出來所有新聞標題和新聞摘要進行分析,瞭解新型肺炎相關新聞在互聯網上的傳播情況。

本文使用的工具:

  • 編程:Python;爬蟲:Scrapy;中文分詞:jieba
  • Excel生成圖表、wordclouds生成詞雲

數據源:百度資訊、百度指數


1 新聞採集


通過百度資訊,搜索“肺炎”一詞,將所有搜索結果收集起來,並且對新聞內容進行去重。去重標準是同一天、同一個新聞媒體、同一個標題、同一個摘要時,將重複內容去除。

 


2 初步統計 


簡單的對12月起,每天肺炎相關新聞的數量用excel進行了簡單的統計。截止到1月23日下午,去重後,共檢索到424條新聞。

近期最早新聞中出現“肺炎”的字眼,是在2019年12月31日,接着逐漸消退,1月3號再次出現一波小熱潮,然後完全消退。

第二波大熱潮是在2020年1月9日左右,但是熱潮很快又退了下去。

直到2020年1月16日,肺炎新聞纔開始爆發性增長,然後經歷1月19日的一個小低谷後,熱度迅速上升。大家的感受也應該是在1月20日左右,就發現各種微信羣消息裏,開始大量的轉發武漢發現新型肺炎相關的消息吧。

通過百度指數搜索全網對“肺炎”這個關鍵詞的搜索熱度,可以看出發展輿論的發展趨勢,基本與新聞的數量一致。

在12月底開始出現肺炎的新聞,過了月20天后,新型肺炎的新聞才“突然間氣勢洶洶”的傳播開來。

 


3 熱詞分析 


通過對19年12月31日、20年1月9日、20年1月16日這三個比較有標誌性的日期,以及20年1月20日往後的每一天,利用NLP (Natural Language Processing,自然語言處理)的工具“jieba”,統計這些日期當天的新聞中,相對於往前日期的新聞內容,出現了哪些新的詞語。

階段1:2019年12月31日,進展:不明原因

可以看出,此時新聞都還集中在武漢,肺炎還是“不明原因”,部分新聞提到了日後出了名的“華南海鮮市場”,“通報、通知、記者”說明,大家對此事還處於一個較爲好奇狀態。

階段2:2020年1月3日,進展:事情發酵

新增了“患者”、“病毒性”、“診斷” 這樣的關鍵詞,說明肺炎已經開始產生了危害。“傳言”、“發酵”、“不要”這些關鍵詞,說明大家開始產生了恐慌,但是媒體也很理性的讓大家不要驚慌,大家不信謠、不傳謠。

階段3:2020年1月9日,進展:發現病因

“初步判斷”、“新型”、“冠狀病毒”,代表着導致新型肺炎的元兇已經被初步找到。此事過後,肺炎相關新聞就開始減少。

階段4:2020年1月16日,進展:國際事件

我們看到了“日本”、“越南”這樣的國外地名的出現,並且有了“隔離”、“傳人”這樣的詞出現。(其實應該是人傳人,不過被分詞系統分成了兩個詞)

說明了此時肺炎已經“衝出國門,走向國際”,並且引起了國際媒體的注意。但是在國內卻依然還未能引起重視。

階段5:2020年1月20日,進展:事件爆發

1月20號是肺炎新聞大規模出現的標誌點,此時我們看到了“北京”、“深圳”等城市的字眼,國內真 · 一線城市開始有確認的病情了!

2020年1月21日至1月23日,進展:持續升級

1月21日:終南山院士迴歸,“口罩”的出現,接着引起了藥店、電商網站的各種口罩搶購。“全國”、“首例”、“疑似病例”,說明病情正朝着全國發展。

1月22日:重點是“防控工作”,同時出現了“春節”,春運大潮來臨。

1月23日:“口罩”一詞重新出現!對應的新聞是很多藥店口罩搶購一空,然後有的良性廠家加班生產,而有的黑心店家卻故意哄擡物價!與此同時,阿里京東的電商平臺通知,禁止商家漲價。“方案”、“工作委”表明,各地已經開始有了對應肺炎傳播的應對措施,是春節前的大好消息!“首例”表明,肺炎在更多地區被髮展,傳播迅猛。

 爲什麼“口罩”、“首例”等關鍵詞重複上榜?

因爲新詞分析的方法是,從當天新聞中抽取出熱詞,然後從過去的所有新聞中,再抽取出熱詞。然後對比兩組熱詞,找出新增的詞。

例如“口罩”,在短暫的幾天內可能是熱點,但是相對比一些關鍵詞,在過去20多天內的影響力,就弱的多了。所以,口罩只上榜了當日的熱詞,沒有上榜過往新聞的熱詞,於是新詞分析就又發現了它。

 


4 地區分析 


利用前文的方法,我們把熱詞的訪問縮小到“地域名詞”,再次查看那些關鍵的時間節點,看看肺炎的地域傳播趨勢。

由於時間倉促,加上用來生成詞雲的網站無法訪問了,無法對程序分析地域名詞輸出的結果做過多的深入研究和數據過濾,結果僅供參考。

階段1:2019年12月31日,地區:小範圍影響

 

此時肺炎的傳播,還侷限在武漢的華南海鮮市場。

 

注意檢索結果有“浙江”,經過分析,是某個媒體在發佈新聞後,一直用同一個鏈接更新最新內容。

階段2:2020年1月3日,地區:小範圍影響

 

此階段並未發現新的地區,說明肺炎還未被發現廣泛傳播。

階段3:2020年1月9日,地區:小範圍影響

此階段出現了兩個新的地名“欽州”、“杭州”,本着認真負責的態度,我去看了一下當時的新聞。

  • 欽州相關:欽州9名新生兒陸續患肺炎,數名寶媽找月子中心討說法
  • 杭州相關:武漢不明原因肺炎判定爲新型冠狀病毒!杭州專家權威解讀

 

欽州月子中心的事件,可能剛好是個巧合。所以我認爲這個階段,從新聞內容來看,肺炎傳播範圍依然以武漢爲主。

階段4:2020年1月16日,地區:亞洲其他國家

越南和日本發現了新型肺炎的疫情。但是此時國內其他地方並未有新型疫情的報道。

階段5:2020年1月20日,地區:國內一線城市

 

一線城市北上深廣的出現,標誌着新型肺炎開始在國內傳播。

2020年1月21日至1月23日,地區:國內大面積蔓延、海外也逐步蔓延

大量的國內外地名出現了新聞內容中,說明新型肺炎蔓延十分的迅速。

 


5 總結


通過對“肺炎”相關的關鍵詞進行新聞檢索、數據整理分析,可以有效還原新型肺炎從發現到發展的流程。

時近年關,正值春運高峯期,人流量大,也希望大家出門儘可能戴口罩,多看新聞關心瞭解新型肺炎的發展態勢,聽從社區、公共場所安排,注意身體健康。給大家拜個年。

發佈了17 篇原創文章 · 獲贊 20 · 訪問量 2萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章