linux命令之sed, awk, grep, cut篇

第一篇 cut

常用參數:
-c 根據字符,用法:cut -cnum1-num2 filename 截取num1~num2之間的字符,字符從1開始記。
-f 根據域,默認爲tab分隔
-d 定義域分隔符

範例:

shell> cat example 
test2 
this is test1 
shell> cut -c1-6 example ## print 開頭算起前 6 個字元 
test2 
this i

-c m-n 表示顯示每一行的第m個字元到第n個字元。例如:

---------file----------- 
liubi 23 14000 
---------file----------- 
# cut -c 1-5,10-14 file 
liubi 14000

-f m-n 表示顯示第m欄到第n欄(使用tab分隔)。例如: 
---------file----------- 
liubi 23 14000 
---------file----------- 
# cut -f 1,3 file 
liubi 14000

-c 和 -f 參數可以跟以下子參數:
m 第m個字符或字段
m- 從第m個字符或字段到文件結束
m-n 從第m個到第n個字符或字段
-n 從第1個到第n個字符或字段

我們經常會遇到需要取出分字段的文件的某些特定字段,例如 /etc/password就是通過":"分隔各個字段的。可以通過cut命令來實現。例如,我們希望將系統賬號名保存到

特定的文件,就可以:
cut -d: -f 1 /etc/passwd > /tmp/users
-d用來定義分隔符,默認爲tab鍵,-f表示需要取得哪個字段
如:
使用|分隔 
cut -d'|' -f2 1.test>2.test 
使用:分隔 
cut -d':' -f2 1.test>2.test
這裏使用單引號或雙引號皆可。

對於特殊字符用\來轉義(以“-”爲分隔符切割後,要第一個字段):
BGIOSGA005099-TA
BGIOSGA005310-TA
cut -d\- -f 1 file >out
或者:cut -d"-" -f 1 file >out

cut的死對頭:paste
paste file1 file2 >file3
把文件1與文件2按列合併(有沒有發現跟cut正好相反呢?)
$ less 111
abc ddd eee
$ less 222
123 444 555

$ paste 111 222 >333
$ less 333
abc ddd eee     123 444 555
用-d參數可以自定義分隔符
$ paste -d: 111 222 >444
$ less 444
abc ddd eee:123 444 555

paste命令還有一個很有用的選項"-"。意即對每一個"-",從標準輸入中讀一次數據。-d參數來定義分隔符。以一個3列格式顯示目錄列表。方法如下:
$ ls |paste -d: - - -     #注意,"-"和"-"之間有空格
block_info_down_1000:block_info_down_3000:sv_test
block_info_up1000:block_info_up3000:module_indel_sv
module_test:old:regulation_region_down.pl
sample.Q20.down1000:sample.Q20.down3000:sample.Q20.up1000
sample.Q20.up3000:sample_to_9311.snp.Q20.filter.sort:sample_to_test

第二篇 awk
awk 用法:awk ' pattern {action} '

變量名 含義 
ARGC 命令行變元個數 
ARGV 命令行變元數組 
FILENAME 當前輸入文件名 
FNR 當前文件中的記錄號 
FS 輸入域分隔符,默認爲一個空格 
RS 輸入記錄分隔符 
NF 當前記錄裏域個數 
NR 到目前爲止記錄數 
OFS 輸出域分隔符 
ORS 輸出記錄分隔符

用法介紹:
1,模式匹配
awk '/zqy/' fileA #尋找出fileA中含有zqy的行 等同於awk '$0~/zqy/' fileA
awk '$1~/88/' fileA #找出第一個域裏面包含88的行
awk '$1~/88/{print $2}' fileA #找出第一個域裏面包含88的行後,只打印該行的第二個域

2,對不同的域進行操作
awk '$2 >25 && $2<=55' fileA #找出第二個域裏面滿足條件的行,可以加上{print $n}來打印任意域
############### fileB #################
884     46      1       8       5       944
734     41      0       10      2       787
647     29      1       8       1       686
536     26      1       9       0       572
############### fileB #################
$ less fileB
884     46      1       8       5       944
734     41      0       10      2       787
647     29      1       8       1       686
536     26      1       9       0       572
$awk '{print NR,NF,$NF}' fileB # NR:文件當前記錄號(在這裏可以理解爲行數); NF:總的域的個數(可以理解爲列數); $NF:想一想是什麼東西吧?再不知道就撞牆去吧。
1 6 944
2 6 787
3 6 686
4 6 572

3,通過-F參數來改變域分隔符,FS設置輸入分隔符,OFS設置輸出分隔符,awk所有操作都支持管道。如:
df | awk '$4>1000000 '          通過管道符獲得輸入,如:顯示第4個域滿足條件的行。 
awk -F "|" '{print $1}' file 按照新的分隔符“|”進行操作。
awk 'BEGIN { FS="[: \t|]"}{print $1,$2,$3}' file 通過設置輸入分隔符(FS="[: \t|]")修改輸入分隔符。BEGIN 表示在處理任意行之前進行的操作。
awk 'BEGIN { OFS="%"} {print $1,$2,$3}' file 通過設置輸出分隔符(OFS="%")修改輸出格式。 
Sep="|" 
awk -F $Sep '{print $1}' file 按照環境變量Sep的值做爲分隔符。    
awk -F '[ :\t|]' '{print $1}' file 按照正則表達式的值做爲分隔符,這裏代表空格、:、TAB、|同時做爲分隔符。 
awk -F '[][]' '{print $1}' file 按照正則表達式的值做爲分隔符,這裏代表[、]

4、
awk -f awkfile file 通過文件awkfile的內容依次進行控制。 
cat awkfile 
/101/{print "\047 Hello! \047"} --遇到匹配行以後打印 ' Hello! '.\047代表單引號。 
{print $1,$2}                    --因爲沒有模式控制,打印每一行的前兩個域。

5、
awk 'BEGIN { max=100 ;print "max=" max} {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一個域的最大值。 
awk '{print ($1>4 ? "high "$1: "low "$1)}' file

6、
awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行後先將第3個域替換後再顯示該行(記錄)。 
awk '{$7 %= 3; print $7}' file 將第7域被3除,並將餘數賦給第7域再打印。

7、
awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行後爲變量wage賦值並打印該變量。

8、
awk '/tom/ {count++;} END {print "tom was found "count" times"}' file #END表示在所有輸入行處理完後進行處理。

9、awk 'gsub(/\$/,"");gsub(/,/,""); cost+=$4;END {print "The total is $" cost>"filename"}' file   gsub函數用空串替換$和,再將結果輸出到filename中。 
     1 2 3 $1,200.00 
     1 2 3 $2,300.00 
     1 2 3 $4,000.00

     awk '{gsub(/\$/,"");gsub(/,/,""); 
     if ($4>1000&&$4<2000) c1+=$4; 
     else if ($4>2000&&$4<3000) c2+=$4; 
     else if ($4>3000&&$4<4000) c3+=$4; 
     else c4+=$4; } 
     END {printf   "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file 
     通過if和else if完成條件語句

     awk '{gsub(/\$/,"");gsub(/,/,""); 
     if ($4>3000&&$4<4000) exit; 
     else c4+=$4; } 
     END {printf   "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file 
     通過exit在某條件時退出,但是仍執行END操作。 
     awk '{gsub(/\$/,"");gsub(/,/,""); 
     if ($4>3000) next; 
     else c4+=$4; } 
     END {printf   "c4=[%d]\n",c4}"' file 
     通過next在某條件時跳過該行,對下一行執行操作。


10、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall 把file1、file2、file3的文件內容全部寫到fileall中,並前置文件名。

11、awk ' $1!=previous { close(previous); previous=$1 } {print substr($0,index($0," ") +1)>$1}' fileall 把合併後的文件重新分拆爲3個文件。並與原文件一致。

12、awk 'BEGIN {"date"|getline d; print d}'          通過管道把date的執行結果送給getline,並賦給變量d,然後打印。

13、awk 'BEGIN {system("echo \"Input your name:\\c\""); getline d;print "\nYour name is",d,"\b!\n"}' 
     通過getline命令交互輸入name,並顯示出來。 
     awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}' 
     打印/etc/passwd文件中用戶名包含050x_的用戶名。

14、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通過while語句實現循環。 
     awk '{ for(i=1;i<NF;i++) {print NF,$i}}'    file 通過for語句實現循環。     
     type file|awk -F "/" ' 
     { for(i=1;i<NF;i++) 
     { if(i==NF-1) { printf "%s",$i } 
     else { printf "%s/",$i } }}'                顯示一個文件的全路徑。 
     用for和if顯示日期 
     awk   'BEGIN { 
for(j=1;j<=12;j++) 
{ flag=0; 
   printf "\n%d月份\n",j; 
         for(i=1;i<=31;i++) 
         { 
         if (j==2&&i>28) flag=1; 
         if ((j==4||j==6||j==9||j==11)&&i>30) flag=1; 
         if (flag==0) {printf "%02d%02d ",j,i} 
         } 

}'

15、在awk中調用系統變量必須用單引號,如果是雙引號,則表示字符串 
Flag=abcd 
awk '{print '$Flag'}'    結果爲abcd 
awk '{print   "$Flag"}'    結果爲$Flag


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章