第一篇 cut
常用參數:
-c 根據字符,用法:cut -cnum1-num2 filename 截取num1~num2之間的字符,字符從1開始記。
-f 根據域,默認爲tab分隔
-d 定義域分隔符
範例:
shell> cat example
test2
this is test1
shell> cut -c1-6 example ## print 開頭算起前 6 個字元
test2
this i
-c m-n 表示顯示每一行的第m個字元到第n個字元。例如:
---------file-----------
liubi 23 14000
---------file-----------
# cut -c 1-5,10-14 file
liubi 14000
-f m-n 表示顯示第m欄到第n欄(使用tab分隔)。例如:
---------file-----------
liubi 23 14000
---------file-----------
# cut -f 1,3 file
liubi 14000
-c 和 -f 參數可以跟以下子參數:
m 第m個字符或字段
m- 從第m個字符或字段到文件結束
m-n 從第m個到第n個字符或字段
-n 從第1個到第n個字符或字段
我們經常會遇到需要取出分字段的文件的某些特定字段,例如 /etc/password就是通過":"分隔各個字段的。可以通過cut命令來實現。例如,我們希望將系統賬號名保存到
特定的文件,就可以:
cut -d: -f 1 /etc/passwd > /tmp/users
-d用來定義分隔符,默認爲tab鍵,-f表示需要取得哪個字段
如:
使用|分隔
cut -d'|' -f2 1.test>2.test
使用:分隔
cut -d':' -f2 1.test>2.test
這裏使用單引號或雙引號皆可。
對於特殊字符用\來轉義(以“-”爲分隔符切割後,要第一個字段):
BGIOSGA005099-TA
BGIOSGA005310-TA
cut -d\- -f 1 file >out
或者:cut -d"-" -f 1 file >out
cut的死對頭:paste
paste file1 file2 >file3
把文件1與文件2按列合併(有沒有發現跟cut正好相反呢?)
$ less 111
abc ddd eee
$ less 222
123 444 555
$ paste 111 222 >333
$ less 333
abc ddd eee 123 444 555
用-d參數可以自定義分隔符
$ paste -d: 111 222 >444
$ less 444
abc ddd eee:123 444 555
paste命令還有一個很有用的選項"-"。意即對每一個"-",從標準輸入中讀一次數據。-d參數來定義分隔符。以一個3列格式顯示目錄列表。方法如下:
$ ls |paste -d: - - - #注意,"-"和"-"之間有空格
block_info_down_1000:block_info_down_3000:sv_test
block_info_up1000:block_info_up3000:module_indel_sv
module_test:old:regulation_region_down.pl
sample.Q20.down1000:sample.Q20.down3000:sample.Q20.up1000
sample.Q20.up3000:sample_to_9311.snp.Q20.filter.sort:sample_to_test
第二篇 awk
awk 用法:awk ' pattern {action} '
變量名 含義
ARGC 命令行變元個數
ARGV 命令行變元數組
FILENAME 當前輸入文件名
FNR 當前文件中的記錄號
FS 輸入域分隔符,默認爲一個空格
RS 輸入記錄分隔符
NF 當前記錄裏域個數
NR 到目前爲止記錄數
OFS 輸出域分隔符
ORS 輸出記錄分隔符
用法介紹:
1,模式匹配
awk '/zqy/' fileA #尋找出fileA中含有zqy的行 等同於awk '$0~/zqy/' fileA
awk '$1~/88/' fileA #找出第一個域裏面包含88的行
awk '$1~/88/{print $2}' fileA #找出第一個域裏面包含88的行後,只打印該行的第二個域
2,對不同的域進行操作
awk '$2 >25 && $2<=55' fileA #找出第二個域裏面滿足條件的行,可以加上{print $n}來打印任意域
############### fileB #################
884 46 1 8 5 944
734 41 0 10 2 787
647 29 1 8 1 686
536 26 1 9 0 572
############### fileB #################
$ less fileB
884 46 1 8 5 944
734 41 0 10 2 787
647 29 1 8 1 686
536 26 1 9 0 572
$awk '{print NR,NF,$NF}' fileB # NR:文件當前記錄號(在這裏可以理解爲行數); NF:總的域的個數(可以理解爲列數); $NF:想一想是什麼東西吧?再不知道就撞牆去吧。
1 6 944
2 6 787
3 6 686
4 6 572
3,通過-F參數來改變域分隔符,FS設置輸入分隔符,OFS設置輸出分隔符,awk所有操作都支持管道。如:
df | awk '$4>1000000 ' 通過管道符獲得輸入,如:顯示第4個域滿足條件的行。
awk -F "|" '{print $1}' file 按照新的分隔符“|”進行操作。
awk 'BEGIN { FS="[: \t|]"}{print $1,$2,$3}' file 通過設置輸入分隔符(FS="[: \t|]")修改輸入分隔符。BEGIN 表示在處理任意行之前進行的操作。
awk 'BEGIN { OFS="%"} {print $1,$2,$3}' file 通過設置輸出分隔符(OFS="%")修改輸出格式。
Sep="|"
awk -F $Sep '{print $1}' file 按照環境變量Sep的值做爲分隔符。
awk -F '[ :\t|]' '{print $1}' file 按照正則表達式的值做爲分隔符,這裏代表空格、:、TAB、|同時做爲分隔符。
awk -F '[][]' '{print $1}' file 按照正則表達式的值做爲分隔符,這裏代表[、]
4、
awk -f awkfile file 通過文件awkfile的內容依次進行控制。
cat awkfile
/101/{print "\047 Hello! \047"} --遇到匹配行以後打印 ' Hello! '.\047代表單引號。
{print $1,$2} --因爲沒有模式控制,打印每一行的前兩個域。
5、
awk 'BEGIN { max=100 ;print "max=" max} {max=($1 >max ?$1:max); print $1,"Now max is "max}' file 取得文件第一個域的最大值。
awk '{print ($1>4 ? "high "$1: "low "$1)}' file
6、
awk '{$1 == 'Chi' {$3 = 'China'; print}' file 找到匹配行後先將第3個域替換後再顯示該行(記錄)。
awk '{$7 %= 3; print $7}' file 將第7域被3除,並將餘數賦給第7域再打印。
7、
awk '/tom/ {wage=$2+$3; printf wage}' file 找到匹配行後爲變量wage賦值並打印該變量。
8、
awk '/tom/ {count++;} END {print "tom was found "count" times"}' file #END表示在所有輸入行處理完後進行處理。
9、awk 'gsub(/\$/,"");gsub(/,/,""); cost+=$4;END {print "The total is $" cost>"filename"}' file gsub函數用空串替換$和,再將結果輸出到filename中。
1 2 3 $1,200.00
1 2 3 $2,300.00
1 2 3 $4,000.00
awk '{gsub(/\$/,"");gsub(/,/,"");
if ($4>1000&&$4<2000) c1+=$4;
else if ($4>2000&&$4<3000) c2+=$4;
else if ($4>3000&&$4<4000) c3+=$4;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file
通過if和else if完成條件語句
awk '{gsub(/\$/,"");gsub(/,/,"");
if ($4>3000&&$4<4000) exit;
else c4+=$4; }
END {printf "c1=[%d];c2=[%d];c3=[%d];c4=[%d]\n",c1,c2,c3,c4}"' file
通過exit在某條件時退出,但是仍執行END操作。
awk '{gsub(/\$/,"");gsub(/,/,"");
if ($4>3000) next;
else c4+=$4; }
END {printf "c4=[%d]\n",c4}"' file
通過next在某條件時跳過該行,對下一行執行操作。
10、awk '{ print FILENAME,$0 }' file1 file2 file3>fileall 把file1、file2、file3的文件內容全部寫到fileall中,並前置文件名。
11、awk ' $1!=previous { close(previous); previous=$1 } {print substr($0,index($0," ") +1)>$1}' fileall 把合併後的文件重新分拆爲3個文件。並與原文件一致。
12、awk 'BEGIN {"date"|getline d; print d}' 通過管道把date的執行結果送給getline,並賦給變量d,然後打印。
13、awk 'BEGIN {system("echo \"Input your name:\\c\""); getline d;print "\nYour name is",d,"\b!\n"}'
通過getline命令交互輸入name,並顯示出來。
awk 'BEGIN {FS=":"; while(getline< "/etc/passwd" >0) { if($1~"050[0-9]_") print $1}}'
打印/etc/passwd文件中用戶名包含050x_的用戶名。
14、awk '{ i=1;while(i<NF) {print NF,$i;i++}}' file 通過while語句實現循環。
awk '{ for(i=1;i<NF;i++) {print NF,$i}}' file 通過for語句實現循環。
type file|awk -F "/" '
{ for(i=1;i<NF;i++)
{ if(i==NF-1) { printf "%s",$i }
else { printf "%s/",$i } }}' 顯示一個文件的全路徑。
用for和if顯示日期
awk 'BEGIN {
for(j=1;j<=12;j++)
{ flag=0;
printf "\n%d月份\n",j;
for(i=1;i<=31;i++)
{
if (j==2&&i>28) flag=1;
if ((j==4||j==6||j==9||j==11)&&i>30) flag=1;
if (flag==0) {printf "%02d%02d ",j,i}
}
}
}'
15、在awk中調用系統變量必須用單引號,如果是雙引號,則表示字符串
Flag=abcd
awk '{print '$Flag'}' 結果爲abcd
awk '{print "$Flag"}' 結果爲$Flag