詞雲分析

https://www.jianshu.com/p/4fb27471295f   簡書概述

http://www.pullword.com/   分詞器

https://wordart.com/  詞雲

https://www.zhihu.com/question/29666539/answer/169051709   微博評論

https://www.sogou.com/link?url=DOb0bgH2eKh1ibpaMGjuyyt9UJr1wX9fzGSZdX2FZVSueKW9M67CaVLpMY1k7wxT0pRL1p3oZSlqnyMWoXXiArMUirLRuIs3  系統爬蟲微博

https://www.sogou.com/link?url=DOb0bgH2eKh1ibpaMGjuy7QtV2XfB8vd1KSQ6bbzkpOwZ-FQPCd0sSd593CSjIpZzDfZscl06Io.

https://www.sogou.com/link?url=DOb0bgH2eKh1ibpaMGjuy7QtV2XfB8vd1KSQ6bbzkpOwZ-FQPCd0sSd593CSjIpZzDfZscl06Io.

https://blog.csdn.net/silentacit/article/details/80325490

https://www.sogou.com/link?url=DOb0bgH2eKh1ibpaMGjuy7QtV2XfB8vd1KSQ6bbzkpOwZ-FQPCd0sSd593CSjIpZzDfZscl06Io.

詞雲圖,也叫文字雲,是對文本中出現頻率較高的“關鍵詞”予以視覺化的展現,詞雲圖過濾掉大量的低頻低質的文本信息,使得瀏覽者只要一眼掃過文本就可領略文本的主旨。

一、先看看幾個詞雲圖

簡書籤約作者標籤詞雲

從簡書籤約作者的自我介紹中提取關鍵詞,統計後製作的詞雲圖。看看這些關鍵詞,你能想到是哪位簽約作者?

簡書熱門文章類型詞雲

從簡書首頁、7日熱門文章進行文章分類統計後,生成的詞雲圖。想上首頁熱門,應該選擇上面幾個類型來寫。

關於在簡書上寫什麼,V先生有一個高度的概括總結:
三教 × 九流:「生活、工作、學習」三教,「學術思辨、故事、詩歌、時評、隨筆、科技工具、書影音、新技能 get、吐槽」九流。

2016簡書-閱讀 詞雲

抓取2016年簡書·讀書專題文章中的書名,生成的詞雲圖,今年你讀過哪幾本書?

彭小六文章標題詞雲圖

簡書頭牌-六神的詞雲圖,抓取他的120篇文章標題,進行分詞統計後生成。

51JOB C++嵌入式崗位JD 詞雲圖

抓取51Job C++嵌入式崗位,職位描述分詞後,得到的詞雲圖,上圖是硬技能的要求,下圖是軟實力的要求。

二、開始製作詞雲圖

  • 工具: 我使用的是TAGUL, https://tagul.com/ 一款在線詞雲製作工具,非常簡單。

TAGUL

  • 步驟:
    1)導入文本
    Import words , 可以直接粘貼導入文本數據,或者以web url的方式導入。文本數據包括關鍵詞和size。
    Add,是添加一個關鍵詞和size

     

2)選擇形狀 -- 自定義形狀圖片
TAGUL提供了一些模板圖形,左邊是分類主題。

一般圖形選取的原則,看關鍵詞的內容來定,如公司LOGO,人物頭像,需要上傳你的圖形圖片,點 ADD IMAGE。自定義形狀圖片,有一個技巧,圖片的清晰度不要求很高,輪廓清楚就好。

調整形狀參數

還一個有小技巧,如果圖形有背景,或邊緣需要修理一下的話,我沒有采用PS這一類的重型武器,直接用PPT中的圖像就可以搞定,快捷方便。比如小六之前的頭像,原圖下巴處有一圈光影,不處理的話,形成的詞雲圖是左邊的,用PPT修好後的是右圖,看上去是不是清秀多了。

修圖後的前後對比

3)修改字體
注意TAGUL默認的都是英文字體,關鍵詞如果是中文或有中文是無法顯示出來的。

點Add Font添加就行,添加你電腦上 C:/WINDOWS/font 文件夾下的你喜歡的一種字體就行。

注意,如果你使用的是Mac,需把Windows下的字體拷一個過來進行添加就OK。

4)選擇文字排列方向
選擇文字方向即可。

5)生成詞雲 -- 下載
點擊 "Visualize" 就可以生成。在Download and Share中下載標清(SQ)圖片,就是你想要的詞雲圖。

TAGUL付費版可以下載高清的圖片,也可以生成嵌入的網頁代碼,詞雲有動態效果。

怎麼樣,以上操過很簡單吧。其實這些不是關鍵,關鍵是如何獲得詞源和詞的頻度(size)。


進階篇

三、詞源獲取:爬蟲和分詞技術

我用以獲取關鍵詞的方法都是使用Python爬蟲,如爬取簡書用戶信息,爬取簡書首頁、熱門文章標題,爬取51JOB招聘職位信息 ......

注意,這時候你拿到的還不是關鍵詞,是句子或段落,怎麼得到關鍵詞?就是把句子切成多個詞語。看過老羅錘子M1發佈會的一定對Big Bang有深刻的印象,對的,Big Bang就是分詞的應用。

BigBang

我常用的兩款分詞工具,一個是在線分詞工具 基於深度學習的中文在線抽詞-PullWord,另一個是結巴分詞(jieba)。再把這些關鍵詞進行分類彙總得到詞頻數據,選擇那些高頻詞,按上面的方式製作詞雲圖。

比如你看到的上面軟技能的關鍵詞,實際上是從所有職位描述進行分詞得到的 372,739 個詞,再進行分類彙總後得出的高頻詞。分類彙總用的是SQL聚合函數,也可以用Excel。

爬蟲和分詞都需要編程實現。如果你沒有編程方面的基礎,這一步也可以簡化來做,就是主觀選取一些關鍵詞,隨機或手動指定詞頻(size)。

所以一個完整的詞雲圖的製作過程應該是:網絡抓數據(Python或R語言)— 分詞 — 分類彙總(SQL)— 使用詞雲工具生成雲圖。

四、其他詞雲工具

有比較多的在線詞雲工具,javascript也可以開發動態詞雲工具。
另外推薦:Tagxedo,使用方法跟TAGUL差不多。
ECharts有專門的詞雲,不過展現力還是比較單薄點。

詞雲圖從大了講就是數據可視化,從小了講只是個雕蟲小技,“形式大於內容”,醬紫。

全文完。另外詞雲圖看多了也比較暈,這篇文章裏就放得太多。

 

 

 

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章