Python3進行詞頻統計

原創

蔡艺君小朋友

2018-08-21 11:29

一、統計序列中元素的頻率
1.以序列中統計元素個數爲例

from random import randint
# 先用隨機庫生成有重複元素的序列
list = [randint(0,10) for _ in range(1,20)]
print(list)

[10,7,10,6,10,5,2,6,1,0,9,0,3,5,2,5,5,3,10]

方法①：新建空字典，循環遍歷做判斷

d={}
for i in list:
    if i not in d:
        d[i]=1
    else:
        d[i]+=1

d
{0:2,1:1,2:2,3:2,5:4,6:2,7:1,9:1,10:4}# 0:2表示0出現2次

方法②：新建一個以序列元素爲鍵，值爲0的字典

# 生成以序列list爲key，value全爲0的字典
c=dict.fromkeys(list,0)

c
{0:0,1:0,2:0,3:0,5:0,6:0,7:0,9:0,10:0}

for i in list:
    c[i]+=1 

c
{0:2,1:1,2:2,3:2,5:4,6:2,7:1,9:1,10:4} 

sorted(c.items(),key=lambda x:x[1],reverse=True)
[(10,4),(5,4),(6,2),(2,2)(0,2),(3,2),(7,1)(9,1)(1,1)]

方法③：使用Collections下的Counter對象

from collections import Counter
c1=Counter(list)

c1
Counter({0:2,1:1,2:2,3:2,5:4,6:2,7:1,9:1,10:4})

c1.most_common(5)
[(10,4),(5,4),(6,2),(2,2)(0,2)]

二、統計一段文本中單詞出現的頻率
1.先用正則表達把文本分割成單詞列表

import re
s='The Zen of Python,by Tim Peters
   Beautiful is better than ugly
   Simple is better than complex
   Sparse is better than dense'
data=re.split(r"\W+",s)
data
['The',
'Zen',
'of',
...
'than',
'dense']

2.實例化Counter對象

c2=Counter（data）
c2
Counter({'Beatuiful':1,
         'Complex':1,
         ...
         'better':3,
         'ugly':1})
c2.most_common(3)
[('better',3)('than',3)('is',3)]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

shell之詞頻統計

2018-11-21 02:30:49

Spark shell 詞頻統計和統計PV心得

2018-09-11 05:40:16

#coding4fun#詞頻統計優化思路

阿里中間件

2018-09-11 05:20:32

7. Python字典數據

2018-08-22 14:43:32

Hadoop中文詞頻統計

2018-08-22 09:57:01

使用Scala程序實現WordCount--詞頻統計（代碼）

2018-08-22 06:49:13

亂序拼圖驗證的識別並還原 puzzle-captcha（開源）

一、前言亂序拼圖驗證是一種較少見的驗證碼防禦，市面上更多的是拖動滑塊，被完美攻克的有不少，都在行爲軌跡上下足了功夫，本文不討論軌跡模擬範疇，就只針對拼圖還原進行研究。找一個市面比較普及的頂像亂序拼圖進行驗證，它號稱的防禦能力4星，

2021-12-01 00:53:28

【轉載】Python處理csv文件

Python處理csv文件 CSV(Comma-Separated Values)即逗號分隔值，可以用Excel打開查看。由於是純文本，任何編輯器也都可打開。與Excel文件不同，CSV文件中：值沒有類型，所有值都是字符串不能指定字

2020-07-18 14:25:30

Error:field larger than field limit(131072)解決方法

從csv文件讀取某一列的數據時，報錯顯示：Error:field larger than field limit(131072) 通過判斷髮現是因爲文件的行數超過csv限制的行數，所以導致結果既無法在控制檯打印，試着轉到df,存成csv文

2020-07-08 12:39:29

啓動Jupyter時, 遇到 sudo: jupyterhub: command not found 問題的解決方案

最近在學習Jupyter, 但是我發現啓動不了多用戶的JupyterHub 官網的教程: sudo jupyterhub 直接輸入就會導致這樣子的結果後面我各種谷歌百度,都好複雜,然後我突然想到,這是沒有Jupyterhub

钢琴线与小刀

2020-07-08 12:39:19

Python小記 —— 文件讀寫操作裏read()方法的深究

** 語法 ** 格式：read(size) 在read()方法裏，size表示要從文件中讀取的數據長度，如果沒有指定size或者指定爲“None”就表示讀取文件裏的全部數據。特別需要注意點： read()的讀取機制因訪問文件

2020-07-08 12:33:27

python使用pip指令安裝並引用第三方模塊及注意事項

python裏有內置模塊、自定義模塊還有第三方模塊。內置模塊就是python自帶的模塊了，我們直接引用就可以了，如：import sys。自定義模塊就是按照我們編程者的需求以方便編寫程序和維護代碼的一些“.py文件”，簡單地說，

2020-07-08 12:33:27

python小記 —— sys.argv

sys.argv到底是什麼? sys.argv是運行在黑屏終端運行python文件獲取的參數。即返回一個包含輸入參數的列表。話不多說了看下面，反手就是一堆代碼： import sys print("list長度：",len(sy

2020-07-08 12:33:16

Django Signals 信號

文章目錄Django Signals 信號入門connect Django Signals 信號入門 # receiver 接收者 def my_callback(sender, **kwargs): print sen

2020-07-08 12:31:35

sorted 在python2和3中的區別

文章目錄sorted 在python2和3中的區別 sorted 在python2和3中的區別 python3中取消了cmp參數 python3中的使用方法如下: from functools import cmp_to_key

2020-07-08 12:31:35

24小時熱門文章

【SQL進階】CASE語句的使用

最新文章

最新評論文章