linux 統計文件中單詞出現次數

原創

2020-02-24 12:09

[請教]統計文件a.txt中“每個單詞”的重複出現次數？若該文件大到幾個G又該如何處理？

方案一：

#!/bin/sh
#定義源文件和臨時文件
srcfile=word.txt
tempfile_words=tempfile_words
tempfile_words_uniq=tempfile_words_uniq

#取出所有單詞，存入臨時文件$tempfile_words，一行一個單詞
#去除$tempfile_words中重複單詞，並把換行符替換爲空格，存入臨時文件$tempfile_words_uniq
tr "[\015]" "[\n]"<$srcfile|sed 's/[^0-9a-zA-Z ]*\([0-9a-zA-Z]*\)[^0-9a-zA-Z]*/\1\n/g'|sed '/^$/d'>$tempfile_words
sort $tempfile_words|uniq|tr "[\n]" "[ ]">$tempfile_words_uniq

#遍歷所有單詞，統計數目
words=$(cat $tempfile_words_uniq)
for word in $words
do
    word_num=$(grep $word $tempfile_words|wc -l)
    echo $word $word_num
done

方案二：

tr -s "\t| " "\n" < filename | sort | uniq -c | sort -n -k 1 -r

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Linux學習第四節文件權限修改

一、Ubuntu/Linux文件權限文件權限是指不同的用戶或用戶組對某個文件擁有的權限，文件的權限分爲三種： r：讀 w：寫 x：可執行。文件描述形式如下： ls -l 可以查看文件的具體信息得到的結果如下所示： -rw

没有价值的生命

2020-07-08 12:18:04

Linux學習第三節 Ubuntu下的系統管理（未完成）

一、Ubuntu磁盤文件 /dev/sd*文件，此類文件是磁盤設備文件，並不能直接訪問磁盤，必須要將磁盤掛載到某一個目錄下才可以訪問。 /dev/sdb和/dev/sdb1是U盤的設備文件。 /dev/sdb表示U盤，/dev/s

没有价值的生命

2020-07-08 12:18:04

Linux學習第二節系統文件結構

/bin 存放二進制可執行文件，這些命令在單用戶模式下也能夠使用。可以被root和一般的賬號使用。 /boot Ubuntu內核和啓動文件，比如vmlinuz-xxx。gurb引導裝載程序。 /dev 設備驅動文件 /e

没有价值的生命

2020-07-08 12:18:03

Linux學習第五節 vim編輯器的使用

一、vim編輯器 Linux系統都會自帶vi編輯器，但是vi編輯器太難用了！所以建議大家安裝vim編輯器，安裝命令： sudo apt-get install vim 二、vim編輯器三種工作模式 vi xxx 使用vi編輯器打

没有价值的生命

2020-07-08 12:18:03

Docker 常用命令更新中。。

docker pull tomcat:8.5 從鏡像倉庫中拉取或者更新指定鏡像 :是指定版本否則下載默認的latest版本 docker image list 查看本地的所有鏡像 docker rmi -f tomcat:8.5 刪除

2020-07-07 08:32:49

Linux_遠程登錄管理工具

橋接：是與真實的網卡進行連接，可以在同網卡下其他虛擬機進行通信 NAT:通過虛擬出來的網卡進行連接。也可以連接局域網其他計算機 Host-only:與主機 Ctrl+ALt+F2 切換到DOS頁面這裏輸入密碼的時候我開始輸入了2遍還輸

2020-07-06 02:59:52

linux 學習筆記 # 1

目錄 Linux 常用命令 1. 幫助命令 2. 文件管理 3. 權限管理 4. 查找文件 5. 查看文件內容 6. 壓縮與解壓文件 VIM 的常用命令 1. 移動光標的方法 2. 查找與替換 3. 刪除、複製與粘貼 4. 移動光標的方法

2020-07-05 20:35:41

gcc 的使用 # 1

gcc 的常用參數 # 編譯時指定所用的頭文件目錄 -I # 編譯和彙編, 得到一個.o文件 (不鏈接) -c # gdb debug 版本 -g # 在編譯時指定一個宏 -D # 指定生成二進制文件名 (包括鏈接) -o # 添

2020-07-05 20:35:41

su root 與 su - root 的區別

su - root 是切換到root賬號使用，使用的是root用戶的環境變量；su root 則是取得root的特權，以root的身份執行程序，但保留原來用戶環境。說明：有些命令即使你使用su root切換到root用戶，仍無法

2020-07-03 02:00:13

【Linux VI】實用總結

刪除行首和行尾的空格 %s/^\+\s//%s/\s\+$//

2020-07-03 00:46:47

Linux系統中swap原理

在linux系統中，啓動一個程序，它佔用的內存假設是1G，但是運行一段時間後，使用top查看進行信息，你會發現它的內存只剩幾十兆了，這是因爲內存不足，它的內存被swap走了。若開啓了swap，則系統會有一個交換空間在硬盤裏，你的內存數據正

大人的涂鸦丶

2020-07-02 23:04:43

pip install 下載特別慢解決

//加上清華大學的鏡像進行下載，速度很快 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tensorflow //安裝特定版本，被坑了好多次，這次長記性了 pip

没有价值的生命

2020-06-30 14:54:21

Linux 截屏

如果只需要獲取一張屏幕截圖，不對其進行編輯的話，那麼鍵盤的默認快捷鍵就可以滿足要求了。而且不僅僅是 Ubuntu ，絕大部分的 Linux 發行版和桌面環境都支持以下這些快捷鍵： PrtSc – 獲取整個屏幕的截圖並保存到 Pi

2020-06-26 02:18:53

Ubuntu上完美運行QQ、微信

QQ 2019年Linux上 QQ最完美解決方案（多Linux發行版通過測試並穩定運行）兼容發行版：Ubuntu 16.04-18.10、LinuxMint 18.*-19、elementaryOS 5.0、ZorinOS 12

2020-06-26 02:18:53

Ubuntu 安裝codeblocks包順序

codeblock的安裝包比較多，而且每個包之間的安裝順序不同，胡來的話就會安裝不上 1,sudo gdebi libcodeblocks 2,sudo gdebi libwxsmithlib0_17.12-1_amd64.deb

2020-06-26 02:18:53

24小時熱門文章

最新文章

最新評論文章