Linux shell 編程之 sort uniq 命令統計單詞詞頻

原創

2020-06-29 11:29

命令

統計詞頻需要uniq和sort配合使用
uniq
- 實現去重操作，但僅僅和臨近行的元素比較，那麼如果元素是打散的不在連續行呢？這就需要sort操作
- uniq -c -c表示將對應頻次顯示出來
sort
- 可實現排序，這裏就能讓元素按照順序排列，讓相同元素臨近
- sort -nr -n表示數值排序，-r表示逆序
然後在此基礎上，進行uniq操作，即可得到每個元素對應頻次
一般爲了美觀，可以再加一個sort操作，讓頻次按照順序排列

實踐

tmp.txt 文本如下，將統計每個字段的頻次

0-297:294
0-399:222
0-297:294
0-140:138
0-367:267
0-399:222
0-65:179
0-81:82
0-100:179
0-586:277
0-367:267
0-423:582
0-367:267
0-81:82
0-410:72
0-100:179
0-240:277
0-583:582
0-586:277
0-81:82
0-423:582
0-586:277
0-367:267
0-410:72
0-100:179
0-367:267
0-410:72
0-100:179
0-240:277
0-586:277
0-81:82
0-410:72
0-100:179
0-240:277
0-81:82
0-100:179
0-586:277
0-140:138
0-81:82
0-100:179
0-586:277
0-81:82
0-586:277
0-410:72
0-140:138

代碼

cat tmp.txt | sort  | uniq -c | sort -nr

結果

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Mac 下使用 Shell 批量安裝 app

版權聲明：本文章原創於 RamboPan ，未經允許，請勿轉載。最近碰到一個情況，就是需要在一個 Android 設備上安裝很多應用，大家開發 Android 的都知道使用 adb install 來執行 Apk 的安裝。

2020-07-07 10:31:04

shell 之 gawk （二）高級篇

一、內置變量 1、字段和記錄分隔符變量 FIELDWIDTHS 以空格分隔的數字列表，用空格定義每個數據字段的精確寬度 FS 輸入字段的分隔符（默認空格） RS 輸入記錄的分隔符（默認換行符） OFS 輸出字段的分隔符

2020-07-08 10:21:58

script錄製與回放終端會話

之前上培訓班，老師總是在課上輸入了很多的命令，上課如果記筆記的話，又記不下來~ 老師也沒有用script錄製什麼的~很不好~ 而且那時候也沒有接觸shell，還根本不知道很多基本命令~ 汗~下次上課之前，跟老師們說說，讓他們錄製一下 $

2020-07-07 20:00:13

40 個實用的 Mac OS X Shell 腳本和終端命令

這裏有一堆的 Mac OS X 下的終端命令，我將這些命令進行了簡單的分類，這裏很多命令在其他系統（Windows、Linux）一樣有效，特別是 Linux/Unix。希望這些命令對你有幫助。系統重啓 Mac OS

2020-07-07 14:51:32

Shell-HelloWorld案例

腳本格式：腳本以#!/bin/bash開頭（指定解析器）第一個Shell腳本hello world # 新建一個文件 touch helloworld.sh # 編輯該腳本文件 vim helloworld.sh # 寫入以下

2020-07-07 04:45:48

Shell-解析器

Shell解析器在linux操作系統中執行以下命令： sudo cat /etc/shells #會看到以下內容 /bin/sh /bin/bash /sbin/nologin /usr/bin/sh /usr/bin/bash

2020-07-07 04:45:48

unzip解壓文件中文亂碼問題的解決方案

linux下解壓縮文件中文亂碼問題的解決原因解決問題：原因在windows上壓縮的文件，是以系統默認編碼中文來壓縮文件。由於zip文件中沒有聲明其編碼，所以linux上的unzip一般以默認編碼解壓，中文文件名會出現亂碼。雖

2020-07-07 03:45:29

解決linux安裝中文字體的方法

解決linux安裝中文字體的方法查看系統字體安裝字體查看系統字體在開始安裝之前，我們先查看系統中已經安裝的字體。要查看系統中已經安裝的字體，我們可以使用fc-list命令進行查看。如果系統中沒有該命令的話，我們需要先安裝相關

2020-07-07 03:45:29

解決Linux下使用unoconv命令將word、xls、pptx轉pdf中文亂碼問題

解決Linux下使用unoconv命令將word、xls、pptx轉pdf中文亂碼問題轉出pdf文檔中文亂碼解決方案轉出pdf文檔中文亂碼在Linux環境下word轉成pdf。在用unoconv做文檔轉換時，發現中文轉換亂碼

2020-07-07 03:45:29

linux下使用命令將doc、docx、ppt文件轉成圖片文件

linux下使用命令將doc、docx、ppt文件轉成pdf格式解決方案分成兩步：安裝unoconv安裝imagemagick將word文檔轉換成pdf格式將pptx文檔轉換成pdf格式將excle表格文檔轉換成pdf格式將pdf

2020-07-07 03:45:29

shell獲取腳本路徑

以下四種： $(pwd) ## 獲取當前運行（主函數）腳本的路徑 $(dirname $0) ## 相對路徑 $( cd " $(dirname $0) " && pwd ) ## 當前運行腳本的絕對路徑 $(

红瓤大柚子

2020-07-06 17:29:18

shell編程 (Jenkins)自動化部署腳本

代替人工部署的步驟：編譯打包通過ftp發送到服務器安裝部署 a、先找到久的進程 b、殺死進程 c、安裝啓動使用shell腳本實現自動化部署： (附shell語法使用詳細備註) #!/bin/bash # 系統打包 PR

2020-07-06 13:16:18

gitbash裏面無法複製

1)在電腦打開git bash命令窗口 2)等待命令加載完畢 3)右鍵頂端邊框，點擊“屬性” 4)選上編輯選項的“快速編輯”

2020-07-06 11:20:32

Shell師徒西天取經----第五天Shell的函數

函數對於每一種編程語言來說都有，只是每一種的形式不一樣。例如以下幾種編程語言的函數定義： java的函數爲方法形式爲：修飾符返回值類型函數名（ [ 參數類型1 參數名1,參數類型2 參數名2....

小白的Python梦

2020-07-06 10:03:45

Shell師徒西天取經----第三天Shell的test命令

#!/bin/bash echo "---------------------Shell test命令---------------" :<<EOF shell命令用於檢查某個條件是否成立，它可以進行數值、字符和文件三個方面的測試

小白的Python梦

2020-07-06 10:03:34

24小時熱門文章

最新文章

最新評論文章