linux下文件的切分與合併

名稱:split
使用權限:所有使用者
使 用方式:split [OPTION] [INPUT [PREFIX]
說明:
將一個檔案分割成數個。而從 INPUT 分割輸出成固定大小的檔案,其檔名依序爲 PREFIXaa, PREFIXab...;PREFIX 預設值爲 `x。若沒有 INPUT 檔或爲 `-,則從標準輸入讀進資料。
匡兜
-b, --bytes=SIZE
SIZE 值爲每一輸出檔案的大小,單位爲 byte。
-C, --line-bytes=SIZE
每一輸出檔中,單行的最大 byte 數。
-l, --lines=NUMBER
NUMBER 值爲每一輸出檔的列數大小。
-NUMBER
與 -l NUMBER 相同。
--verbose
於每個輸出檔被開啓前,列印出偵錯資訊到標準錯誤輸出。
--help
顯示輔助資訊然後離開。
--version
列出版本資訊然後離開。
SIZE 可加入單位: b 代表 512, k 代表 1K, m 代表 1 Meg。
範例:
PostgresSQL 大型資料庫備份與回存:
因 Postgres 允許表格大過你係統檔案的最大容量,所以要將表格 dump 到單一的檔案可能會有問題,使用 split進行檔案分割。

% pg_dump dbname | split -b 1m - filename.dump.
重 新載入

% createdb dbname
% cat filename.dump.* | pgsql dbname




1、文件的切分及結合工具;

  可能我們遇到這種情況,有時文件比較大,想上傳到服務器 上,但由於服務器 管理員爲了安全 考慮,把上傳空間作了限 制,比如只能上傳20M的文件,如果我們文件的體積在100M的,有時就是壓縮也不能滿足服務器上傳的限制。這時我們就要考慮切分文件了,把100M的文 件,切分成若干份,然後傳到服務器上。切分後的每個文件都是原文件的組成部份。如果要獲得整個完整的文件,我們就需要文件的結合工具。

  所以我們引入了文件切分工具split和csplit,文件的結合工具cat;

  
  2、文件的切分工具 split 和csplit;

  split 是把一個文件拆分爲長度或體積相等的若干文件的工具;


  2.1 split 工具;

  split 是把一個文件拆分爲長度或體積相等的若干文件的工具;


  2.11 語法格式;


  split [參數選項] infile [outfile]

  split 把輸入的文件拆分爲若干體積或長度相等的文件,輸入文件保持不變,只是把結果拆分結果寫到outfileaa、outfileab ... ... 等文件中。如果我們不指定outfile,被拆分後的文件會寫到 xaa、xab ... ...。
參數


-l n 把infile拆分爲具有n行的段,默認值爲1000
-b n[bkm] 以體積爲單位的拆分,約定每拆分後每個文件的大小 ,b代表512B,k代表1KB,m代表1MB。
-C bytes[bkm] 把bytes的最大值放入文件,堅持增加完整的行;
- 從標準輸入讀取;
--help 幫助;


  2.12 split實例應用;

  實例一:比如我們想切分一個文件linux doc.txt,切分 後,每兩行存爲一個新文件。


[root@localhost ~]# more linux doc.txt 注:linuxdoc.txt 文件內容查看;
111111111
222222222
333333333
444444444
555555555
666666666
777777777
888888888
999999999
000000000
[root@localhost ~]# split -l 2 linuxdoc.txt linuxdocsp 注:切分linuxdoc.txt文件,被切分後的文件名linuxdocsp開頭
[root@localhost ~]# ls linuxdocspa* 注:查看切分後的所有文件;
linuxdocspaa linuxdocspab linuxdocspac linuxdocspad linuxdocspae
[root@localhost ~]# more linuxdocspa* 注:查看這些文件的內容;是不是每個文件都是兩行呢?
linuxdocspaa
::::::::::::::
111111111
222222222
::::::::::::::
linuxdocspab
::::::::::::::
333333333
444444444
::::::::::::::
linuxdocspac
::::::::::::::
555555555
666666666
::::::::::::::
linuxdocspad
::::::::::::::
777777777
888888888
::::::::::::::
linuxdocspae
::::::::::::::
999999999
000000000

  實例二:以文件體積爲單位的切分;


[root@localhost ~]# ls -lh linuxdoc.txt
-rw-r--r-- 1 root root 100 04-27 15:56 linuxdoc.txt
[root@localhost ~]# more linuxdoc.txt
111111111
222222222
333333333
444444444
555555555
666666666
777777777
888888888
999999999
000000000
[root@localhost ~]# split -b 30 linuxdoc.txt linuxdocwsp 如果指定切分體積大小後面沒有接單位,默認是B;
[root@localhost ~]# ls -lh linuxdocwspa*
-rw-r--r-- 1 root root 30 04-27 16:10 linuxdocwspaa
-rw-r--r-- 1 root root 30 04-27 16:10 linuxdocwspab
-rw-r--r-- 1 root root 30 04-27 16:10 linuxdocwspac
-rw-r--r-- 1 root root 10 04-27 16:10 linuxdocwspad
[root@localhost ~]# more linuxdocwspa*
::::::::::::::
linuxdocwspaa
::::::::::::::
111111111
222222222
333333333
::::::::::::::
linuxdocwspab
::::::::::::::
444444444
555555555
666666666
::::::::::::::
linuxdocwspac
::::::::::::::
777777777
888888888
999999999
::::::::::::::
linuxdocwspad
::::::::::::::
000000000

  對於切分體積的說明:如果沒有指定單位,默認單位是B。還有其它的單位,比如b、k、m。看下面的例子;


[root@localhost ~]# ls -lh moretool.txt
-rw-r--r-- 1 root root 13K 04-27 16:17 moretool.txt 注:文件大小爲13K;
[root@localhost ~]#split -b 3k moretool.txt moretoolwsp 注: 切分後每個文件大小爲3K;

  實例三:從標準輸入讀取的實例;


[root@localhost ~]# ls -lh /etc | split -l 40 - etcfilelist
[root@localhost ~]# ls etcfilelista*
etcfilelistaa etcfilelistab etcfilelistac etcfilelistad etcfilelistae etcfilelistaf etcfilelistag

  注:本指令的意思是用ls以長格式列出/etc目錄的文件(不包括.file格式的文件,也就是隱藏文件),把輸入的內容傳遞給split,讓 split來切分每40行爲存爲一個文件,文件名的開頭以etcfilelist開始。注意40後面的- ,表示從標準輸入讀取,在這裏就表示鍵盤輸入了,也就是讀取ls -lh /etc 指令的內容。然後split切分。


2.2 csplit 工具;

  正在補充之中... ...


  3、文件的連接工具 cat;

  cat 工具如果後面直接文件文件名,就可以查看文件的內容。我們在《文件內容查看工具》中有說過。在《文件內容查看工具》一文中,我們也談過cat 連接文件的功能;現在我們仍得把cat工具連接文件的功能單列出來說一說。


  3.1 把多個文件合併到一個新的文件中;

  命令格式如下:


cat file1 file2 file3 ... ... > filen

  我們可以把file1、file2、file3 等多個文件合併到一個文件中,其中filen是在合併這些文件的同時新建的文件,而不是已存在的文件;


[root@localhost ~]# cat sir01.txt
123456
[root@localhost ~]# cat sir02.txt
56789
[root@localhost ~]# cat sir03.txt
09876
[root@localhost ~]# cat sir01.txt sir02.txt sir03.txt > sir04.txt
[root@localhost ~]# more sir04.txt
123456
56789
09876


  3.2 把多個文件合併追加到一個已存在的文件中;

  命令格式如下:


cat file1 file2 file3 ... ... >> filen

  如果我們想把file1、file2、file3等多個文件內容連接起來,並追加到一個已存在的文件filen中,應該用追加的方法;


[root@localhost ~]# more sir01.txt
123456
[root@localhost ~]# cat sir01.txt
123456
[root@localhost ~]# cat sir02.txt
56789
[root@localhost ~]# cat sir03.txt
09876
[root@localhost ~]# cat sir05.txt
aaaaa
bbbbb
[root@localhost ~]# cat sir01.txt sir02.txt sir03.txt >> sir05.txt
[root@localhost ~]# cat sir05.txt
aaaaa
bbbbb
123456
56789
09876


  4、關於分拆文件和連接文件的安全 性;

  比如我們把一個大的文件分拆爲多個小文件時,肯定會考慮到,我們重新把一個一個小的分拆文件連接起來,會不會能和原文件保持一致 。這樣的疑問其實也是有道理的,因爲這關係到一個文件的完整性,如果真的合併不到一起,關係到文件的完整性和安全性。這時就涉及到文件的校驗工具。一般我 們是通過MD5工具來校驗對比。在Linux也有這樣的工具md5sum。


[root@localhost ~]# ls -lh myfile.img 注:查看myfile.img文件屬性;
-rw-r--r-- 1 root root 7.9M 04-27 20:35 myfile.img
[root@localhost ~]# split -b 4m myfile.img myfileSp 注:分拆爲大小爲4M的文件;
[root@localhost ~]# ls -lh myfileSp* 注:列出分拆文件,我們看到有兩個文件;
-rw-r--r-- 1 root root 4.0M 04-27 20:37 myfileSpaa
-rw-r--r-- 1 root root 3.9M 04-27 20:37 myfileSpab
[root@localhost ~]# cat myfileSp* > newmyfile.img 注:我們嘗試合併文件到一個新文件中;
[root@localhost ~]# ls -lh newmyfile.img
-rw-r--r-- 1 root root 7.9M 04-27 20:38 newmyfile.img
[root@localhost ~]# md5sum newmyfile.img myfile.img 注:我們對比合並後文件和原文件的MD5值,如果M55值相同,就是完整的;
[root@localhost ~]# md5sum newmyfile.img myfile.img
7eb24d865a14fa3227633816800522c1 myfile.img
7eb24d865a14fa3227633816800522c1 newmyfile.img

  上面是一個實例,把myfile.img文件分拆爲4M大小的文件,然後再把兩個文件連接起來,然後校驗是不是合併後的文件和原文件的MD5值 是相同的,如果相同,證明分拆過程是安全的。


  5、關於本文;

  文件的切分工具和結合工具只是介紹性的,用法也相對簡單。我們知道有這兩個工具就行了,用的時候查man和help就OK。沒有必要象我這樣大 動干戈寫文檔,弄的好像寫長篇小說似的。如果我真的能當作家,對我來說可是極大的榮耀~~~


  6、後記;

  關於目錄和文件管理的文檔寫了有一些了,我想爲這些文檔寫個歸類文檔,這樣新手查看就容易一點。另外感覺應該寫一下字符模式下的文本編輯工具的 簡單用法,比如vi或nano之類的。這新手面對黑黑的屏幕就不會不知所措了~~~

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章