根據文本語料生成詞典、每行行首加唯一id

原創

lucky_ricky

2018-09-03 18:28

將文本語料分詞後，可以得到

$ head -n 6 train.txt

現在方便聽電話嗎
許加說今天晚上開始搶課
白詛咒的旋律
我的遊戲遊戲中心
難道是我發音不標準嗎
除了實體店網上回收禮品店也不在少數

我用到的方法是將空格變成換行符，得到一個有很多重複詞的詞典，然後用sort -u 將重複項去除，如下：

$ cat train.dat dev.dat test.dat > vocab.word.repeat

$ vim vocab.word.repeat

全局替換:%s: :\r:g

保存:wq

$sort -u vocab.word.repeat >vocab.word

然後給每行行首加上一個唯一id

vim內部有內置命令如 line()，可以方便的利用line函數進行一些行號相關的操作，用法可以查看幫助 :h line()
當替換字符串以“\=”開頭時，表示以表達式的計算結果作爲替換值。

:%s:^: :g

:%s/^/\=line(".") - 1/

但這種方法只適用於文本很短時，當文本較長時，在vim中會非常卡。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

shell腳本學習（二）：文件比較等操作

對應《Linux命令行與shell腳本編程大全》 -- 章節12.4.3 test1： -d file :檢查目錄 #!/bin/bash dir="/home//shell/dir" if [ -d $dir ] then

在深圳搬砖

2020-07-08 12:23:43

解決find命令報錯： paths must precede expression 解決find命令報錯： paths must precede expression

解決find命令報錯： paths must precede expression 　　在一天早上，想在服務器 /tmp 目錄清除一些pdf文件，大概一萬多個文件，在執行命令的時候 find /tmp -maxdepth 1

a318013800

2023-06-18 13:35:10

MakeFile精華【四】---使用變量

使用變量 ———— 在Makefile中的定義的變量，就像是C/C++語言中的宏一樣，他代表了一個文本字串，在Makefile中執行的時候其會自動原模原樣地展開在所使用的地方。其與C/C++所不同的是，你可以在Makefile中改變其值。

哈喽沃德_1225

2020-07-08 12:33:49

阿里年薪破百架構師推薦：鳥哥的Linux私房菜，搭配面試題，真香

在Linux實操的過程中，你是否有過這些疑問：如何提取日誌中含有關鍵字的指定行，上一行或上幾行？ ln 做了符號鏈接，對符號鏈接進行權限修改，原文件是否會受到影響？ Shell 腳本里有很多特殊符號，到底該怎麼用？網上流傳的

毛发旺盛的程序员

2020-07-08 12:27:30

shell腳本學習（三）

test1：for循環 #!/bin/bash for var in one two three four do echo "The number is $var" done echo "Now show read v

在深圳搬砖

2020-07-08 12:23:42

shell腳本實踐1：截取字符串

請根據以下要求截取出字符串中的字符：http://www.aaa.com/root/123.htm 1.取出www.aaa.com/root/123.htm 2.取出123.htm 3.取出http://www.aaa.com/root

在深圳搬砖

2020-07-08 12:23:41

shell腳本實踐2：自定義rm命令

linux系統的rm命令太危險，一不小心就會刪除掉系統文件。寫一個shell腳本來替換系統的rm命令，要求當刪除一個文件或者目錄時，都要做一個備份，然後再刪除。 1. 簡單的實現：假設有一個大的分區/data/，每次刪除文件或者目錄之

在深圳搬砖

2020-07-08 12:23:41

正則表達式獲取Maven依賴中的groupId

用於打包時剔除第三方jar包 mvn dependency:tree | grep '[\W\w]*:[a-zA-Z0-9_\.-]*:[a-zA-Z0-9]*:[a-zA-Z0-9\.-]*:[a-zA-Z0-9]*' |

路漫漫走

2020-07-08 11:45:59

在ubuntu 12.04下安裝lamp的簡單方法

sudo tasksel install lamp-server 如果提示tasksel:command not found,則所名tasksel還沒有安裝，需要安裝安裝語句： sudo apt-get install tasksel

wchyumo2009

2020-07-08 12:20:35

gcc 關於math.h編譯鏈接

gcc file.c -o file 在輸入以上命令時不能成功編譯需要做以下修改： gcc file.c -o file -lm

wchyumo2009

2020-07-08 12:20:35

【轉】ubuntu10.04下安裝google拼音輸入法

step 1：設置root帳號密碼輸入命令： sudo passwd root 根據提示輸入root帳號密碼。 step 2：保證以root帳號權限進行後續操作如果不是用root帳號登錄系統輸入命令： su ro

wdbfz

2020-07-08 11:46:47

［轉］ubuntu下解壓縮rar文件亂碼的解決方案

sudo apt-get install p7zip-full sudo apt-get remove rar sudo apt-get install unrar

wdbfz

2020-07-08 11:46:47

Ubuntu FF 的Windows Media Player插件

sudo apt-get install non-free-codecs gxineplugin

wdbfz

2020-07-08 11:46:47

TeamViewer14 ubuntu 終端命令行修改局域網鏈接

在沒有顯示器、鼠標鍵盤的情況下，想要遠程查看工控機界面，需要先安裝Teamviewer軟件，然後通過ssh形式進行修改配置文件，重啓Teamviewer即可。方式如下：打開Teamviewer 配置文件： sudo vi /etc/

ros小生

2020-07-08 11:09:33

JS獲取本地IP&顯示隱藏IP

JS獲取本地IP&顯示隱藏IP前言JS獲取本地IP方法遇到問題解決方案火狐(FireFox)刪除隱藏IP谷歌(Chrome)刪除隱藏IP 前言這段時間一直在搞前端,我一個軟件開發工程師開發前端得多閒.項目需求需要獲取當前機器IP

ros小生

2020-07-08 11:09:33

24小時熱門文章

根據文本語料生成詞典、每行行首加唯一id

HTML頁面關於高分屏的設置

北歐瑞典挪威芬蘭瑞士TikTok海外網紅與YouTube博主的合作模式

druid數據源 xml配置

Kaldi WFST HCLG.fst 構圖學習

VSCode遠程開發調試服務器c/c++代碼

PyCharm遠程調試服務器python代碼

公用linux服務器上同時使用不同版本 python / pytorch / CUDA

HDOJ 1001 Sum Problem

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結