awk 用法（使用入門）

1. awk簡介

awk是一種編程語言，用於在linux/unix下對文本和數據進行處理。數據可以來自標準輸入、一個或多個文件，或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等先進功能，是linux/unix下的一個強大編程工具。它在命令行中使用，但更多是作爲腳本來使用。
awk的處理文本和數據的方式是這樣的，它逐行掃描文件，從第一行到最後一行，尋找匹配的特定模式的行，並在這些行上進行你想要的操作。如果沒有指定處理動作，則把匹配的行顯示到標準輸出(屏幕)，如果沒有指定模式，則所有被操作所指定的行都被處理

2. awk命令格式和選項

2.1. awk的語法有兩種形式

awk [options] 'script' var=value file(s)
awk [options] -f scriptfile var=value file(s)

2.2. 命令選項

-F fs or --field-separator fs
指定輸入文件折分隔符，fs是一個字符串或者是一個正則表達式，如-F:。

-v var=value or --asign var=value
賦值一個用戶定義變量。

-f scripfile or --file scriptfile
從腳本文件中讀取awk命令。

-mf nnn and -mr nnn
對nnn值設置內在限制，-mf選項限制分配給nnn的最大塊數目；-mr選項限制記錄的最大數目。
這兩個功能是Bell實驗室版awk的擴展功能，在標準awk中不適用。

-W compact or --compat, -W traditional or --traditional
在兼容模式下運行awk。所以gawk的行爲和標準的awk完全一樣，所有的awk擴展都被忽略。

-W copyleft or --copyleft, -W copyright or --copyright
打印簡短的版權信息。

-W help or --help, -W usage or --usage
打印全部awk選項和每個選項的簡短說明。

-W lint or --lint
打印不能向傳統unix平臺移植的結構的警告。

-W lint-old or --lint-old
打印關於不能向傳統unix平臺移植的結構的警告。

-W posix
打開兼容模式。但有以下限制，不識別：\x、函數關鍵字、func、換碼序列以及當fs是一個空格時，將新行作爲一個域分隔符；操作符**和**=不能代替^和^=；fflush無效。

-W re-interval or --re-inerval
允許間隔正則表達式的使用，參考(grep中的Posix字符類)，如括號表達式[[:alpha:]]。

-W source program-text or --source program-text
使用program-text作爲源代碼，可與-f命令混用。

-W version or --version
打印bug報告信息的版本。

3. 模式和操作

awk腳本是由模式和操作組成的：
```
pattern {action}
```

兩者是可選的，如果沒有模式，則action應用到全部記錄，如果沒有action，則輸出匹配全部記錄。默認情況下，每一個輸入行都是一條記錄，但用戶可通過RS變量指定不同的分隔符進行分隔。

3.1. 模式

模式可以是以下任意一個：

/正則表達式/：使用通配符的擴展集。
關係表達式：可以用下面運算符表中的關係運算符進行操作，可以是字符串或數字的比較，如$2>%1選擇第二個字段比第一個字段長的行。
模式匹配表達式：用運算符~(匹配)和~!(不匹配)。
模式，模式：指定一個行的範圍。該語法不能包括BEGIN和END模式。
BEGIN：讓用戶指定在第一條輸入記錄被處理之前所發生的動作，通常可在這裏設置全局變量。
END：讓用戶在最後一條輸入記錄被讀取之後發生的動作。

3.2. 操作

操作由一人或多個命令、函數、表達式組成，之間由換行符或分號隔開，並位於大括號內。主要有四部份：

變量或數組賦值
輸出命令
內置函數
控制流命令

4. awk的環境變量

Table 1. awk的環境變量

變量	描述
$n	當前記錄的第n個字段，字段間由FS分隔。
$0	完整的輸入記錄。
ARGC	命令行參數的數目。
ARGIND	命令行中當前文件的位置(從0開始算)。
ARGV	包含命令行參數的數組。
CONVFMT	數字轉換格式(默認值爲%.6g)
ENVIRON	環境變量關聯數組。
ERRNO	最後一個系統錯誤的描述。
FIELDWIDTHS	字段寬度列表(用空格鍵分隔)。
FILENAME	當前文件名。
FNR	同NR，但相對於當前文件。
FS	字段分隔符(默認是任何空格)。
IGNORECASE	如果爲真，則進行忽略大小寫的匹配。
NF	當前記錄中的字段數。
NR	當前記錄數。
OFMT	數字的輸出格式(默認值是%.6g)。
OFS	輸出字段分隔符(默認值是一個空格)。
ORS	輸出記錄分隔符(默認值是一個換行符)。
RLENGTH	由match函數所匹配的字符串的長度。
RS	記錄分隔符(默認是一個換行符)。
RSTART	由match函數所匹配的字符串的第一個位置。
SUBSEP	數組下標分隔符(默認值是\034)。

5. awk運算符

Table 2. 運算符

運算符	描述
= += -= = /= %= ^= *=	賦值
?:	C條件表達式
\|\|	邏輯或
&&	邏輯與
~ ~!	匹配正則表達式和不匹配正則表達式
< <= > >= != ==	關係運算符
空格	連接
+ -	加，減
* / &	乘，除與求餘
+ - !	一元加，減和邏輯非
^ ***	求冪
++ --	增加或減少，作爲前綴或後綴
$	字段引用
in	數組成員

6. 記錄和域

6.1. 記錄

awk把每一個以換行符結束的行稱爲一個記錄。

記錄分隔符：默認的輸入和輸出的分隔符都是回車，保存在內建變量ORS和RS中。

$0變量：它指的是整條記錄。例如： $ awk '{print $0}' test #將輸出test文件中的所有記錄。

變量NR：一個計數器，每處理完一條記錄，NR的值就增加1。如$ awk '{print NR,$0}' test將輸出test文件中所有記錄，並在記錄前顯示記錄號。

6.2. 域

記錄中每個單詞稱做“域”，默認情況下以空格或tab分隔。awk可跟蹤域的個數，並在內建變量NF中保存該值。例如：

$ awk '{print $1,$3}' test    #將打印test文件中第一和第三個以空格分開的列(域)。

6.3. 域分隔符

內建變量FS保存輸入域分隔符的值，默認是空格或tab。我們可以通過-F命令行選項修改FS的值。如$ awk -F: '{print $1,$5}' test將打印以冒號爲分隔符的第一，第五列的內容。

可以同時使用多個域分隔符，這時應該把分隔符寫成放到方括號中，例如：

$awk -F'[:\t]' '{print $1,$3}' test     #表示以空格、冒號和tab作爲分隔符。

輸出域的分隔符默認是一個空格，保存在OFS中。例如：

$ awk -F: '{print $1,$5}' test    #$1和$5間的逗號就是OFS的值。

7. gawk專用正則表達式元字符

以下幾個是gawk專用的，不適合unix版本的awk。

\Y
匹配一個單詞開頭或者末尾的空字符串。
\B
匹配單詞內的空字符串。
\<
匹配一個單詞的開頭的空字符串，錨定開始。
\>
匹配一個單詞的末尾的空字符串，錨定末尾。
\w
匹配一個字母數字組成的單詞。
\W
匹配一個非字母數字組成的單詞。
\‘
匹配字符串開頭的一個空字符串。
\'
匹配字符串末尾的一個空字符串

8. POSIX字符集

9. 匹配操作符(~)

用來在記錄或者域內匹配正則表達式。

$ awk '$1 ~/^root/' test    #將顯示test文件第一列中以root開頭的行。

10. 比較表達式

conditional expression1 ? expression2: expression3

例如：

$ awk '$1 > $3 ? max=$1: max=$3 {print max}' test #如果第一個域大於第三個域，$1就賦值給max，否則$3就賦值給max。
$ awk '$1 + $2 > 100' test  #如果第一和第二個域相加大於100，則打印這些行。
$ awk '$1 > 5 && $2 < 10' test  #如果第一個域大於5，並且第二個域小於10，則打印這些行。

11. 範圍模板

範圍模板匹配從第一個模板的第一次出現到第二個模板的第一次出現之間所有行。如果有一個模板沒出現，則匹配到開頭或末尾。

$ awk '/root/,/mysql/' test   #將顯示root第一次出現到mysql第一次出現之間的所有行。

12. 一個驗證passwd文件有效性的例子

$ cat /etc/passwd | awk -F: '\
NF != 7{\
printf("line %d,does not have 7 fields:%s\n",NR,$0)}\
$1 !~ /[A-Za-z0-9]/{printf("line %d,non alpha and numeric user id:%d: %s\n,NR,$0)}\$2 == "*" {printf("line %d, no password: %s\n",NR,$0)}'

	cat把結果輸出給awk，awk把域之間的分隔符設爲冒號。
	如果域的數量(NF)不等於7，就執行下面的程序。
	printf打印字符串"line ?? does not have 7 fields"，並顯示該條記錄。
	如果第一個域沒有包含任何字母和數字，printf打印“no alpha and numeric user id" ，並顯示記錄數和記錄。
	如果第二個域是一個星號，就打印字符串“no passwd”，緊跟着顯示記錄數和記錄本身。

13. 幾個實例

$ awk '/^(no|so)/' test    #打印所有以no或so開頭的行。

$ awk '/^[ns]/{print $1}' test    #如果記錄以n或s開頭，就打印這個記錄。

$ awk '$1 ~/[0-9][0-9]$/{print $1}' test   #如果第一個域以兩個數字結束就打印這個記錄。

$ awk '$1 == 100 || $2 < 50' test    #如果第一個域等於100或第二個域小於50，則打印該行。

$ awk '$1 != 10' test    #如果第一個域不等於10就打印該行。

$ awk '/test/{print $1 + 10}' test    #如果記錄包含test，則第一個域加10並打印出來。

$ awk '{print ($1 > 5 ? "ok "$1: "error"$1)}' test  #如果第一個域大於5則打印冒號前面表達式值，否則打印冒號後面的表達式值。

$ awk '/^root/,/^mysql/' test    #打印以root開頭的記錄到以mysql開頭的記錄範圍內的所有記錄。如果找到一個新的正則表達式root開頭的記錄，則繼續打印直到下一個以正則表達式mysql開頭的記錄爲止，或到文件末尾。

14. awk編程

14.1. 變量

在awk中，變量不需要定義就可以直接使用，變量類型可以是數字或字符串。
賦值格式：Variable = expression，例如：

$ awk '$1 ~/test/{count = $2 + $3; print count}' test  # 如果第一個域匹配test，就把第二和第三個域的值相加，並把結果賦值給變量count，最後打印出來。

awk可以在命令行中給變量賦值，然後將這個變量傳輸給awk腳本。例如：

$ awk -F: -f awkscript month=4 year=2004 test  #爲自定義變量month和year分別賦值爲4和2004。這些變量在awkscript腳本中使用起來就象是在腳本中建立的一樣。注意，如果參數前面出現test，那麼在BEGIN語句中的變量就不能被使用。

域變量也可被賦值和修改，例如：

$ awk '{$2 = 100 + $1; print }' test  #如果第二個域不存在，awk將計算表達式100加$1的值，並將其賦值給$2，如果第二個域存在，則用表達式的值覆蓋$2原來的值。
$ awk '$1 == "root"{$1 ="test";print}' test  #如果第一個域的值是“root”，則把它賦值爲“test”，注意，字符串一定要用雙引號。

內建變量的使用。變量列表在前面已列出，現在舉個例子說明一下：

$ awk -F: '{IGNORECASE=1; $1 == "MARY"{print NR,$1,$2,$NF}'test  #把IGNORECASE設爲1代表忽略大小寫，打印第一個域是mary的記錄數、第一個域、第二個域和最後一個域。

14.2. BEGIN模塊

BEGIN模塊後緊跟着動作塊，這個動作塊在awk處理任何輸入文件之前執行。所以它可以在沒有任何輸入的情況下進行測試。它通常用來改變內建變量的值，如OFS,RS和FS等，以及打印標題。例如：

$ awk 'BEGIN{FS=":"; OFS="\t"; ORS="\n\n"}{print $1,$2,$3} test   #在處理輸入文件以前，域分隔符(FS)被設爲冒號，輸出文件分隔符(OFS)被設置爲製表符，輸出記錄分隔符(ORS)被設置爲兩個換行符。
$ awk 'BEGIN{print "TITLE TEST"}'   #只打印標題。

14.3. END模塊

END不匹配任何的輸入文件，但是執行動作塊中的所有動作，它在整個輸入文件處理完成後被執行。例如：

$ awk 'END{print "The number of records is" NR}' test   #打印所有被處理的記錄數（總行數）。

14.4. 重定向和管道

awk可使用shell的重定向符進行重定向輸出，例如：

$ awk '$1 = 100 {print $1 > "output_file" }' test    #如果第一個域的值等於100，則把它輸出到output_file中。也可以用>>做追加操作。

輸出重定向需用到getline函數。getline從標準輸入、管道或者當前正在處理的文件之外的其他輸入文件獲得輸入。它負責從輸入獲得下一行的內容，並給NF,NR和FNR等內建變量賦值。如果得到一條記錄，getline函數返回1，如果到達文件的末尾就返回0，如果出現錯誤，例如打開文件失敗，就返回-1。例如：

#執行linux的date命令，並通過管道輸出給getline，然後再把輸出賦值給自定義變量d，並打印它。
$ awk 'BEGIN{ "date" | getline d; print d}' test 
 
#執行shell的date命令，並通過管道輸出給getline，然後getline從管道中讀取並將輸入賦值給d，split函數把變量d轉化成數組mon，然後打印數組mon的第二個元素。  
$ awk 'BEGIN{"date" | getline d; split(d,mon); print mon[2]}' test 
   
#命令ls的輸出傳遞給geline作爲輸入，循環使getline從ls的輸出中讀取一行，並把它打印到屏幕。這裏沒有輸入文件，因爲BEGIN塊在打開輸入文件前執行，所以可以忽略輸入文件。
$ awk 'BEGIN{while( "ls" | getline) print}'   

#在屏幕上打印”What is your name?",並等待用戶應答。當一行輸入完畢後，getline函數從終端接收該行輸入，並把它儲存在自定義變量name中。如果第一個域匹配變量name的值，print函數就被執行，END塊打印See you和name的值。
$ awk 'BEGIN{printf "What is your name?" ; getline name < "/dev/tty"} $1 ~name {print "Found " name " on line " NR "."} END{print "See you," name "."}' test

#awk將逐行讀取文件/etc/passwd的內容，在到達文件末尾前，計數器lc一直增加，當到末尾時，打印lc的值。
#注意，如果文件不存在，getline返回-1，如果到達文件的末尾就返回0，如果讀到一行，就返回1，所以命令 while (getline < "/etc/passwd")在文件不存在的情況下將陷入無限循環，因爲返回-1表示邏輯真。
$ awk 'BEGIN{while (getline < "/etc/passwd" > 0) lc++; print lc}'

可以在awk中打開一個管道，且同一時刻只能有一個管道存在。通過close()可關閉管道。例如：

$ awk '{print $1, $2 | "sort" } END {close("sort")}' test  #awd把print語句的輸出通過管道作爲linux命令sort的輸入,END塊執行關閉管道操作。

system函數可以在awk中執行linux的命令。例如：

$ awk 'BEGIN{system("clear")}'

fflush函數用以刷新輸出緩衝區，如果沒有參數，就刷新標準輸出的緩衝區，如果以空字符串爲參數，如fflush(""),則刷新所有文件和管道的輸出緩衝區。

14.5. 條件語句

awk中的條件語句是從C語言中借鑑過來的，可控制程序的流程。

14.5.1. if 語句

格式：
        {if (expression){
                   statement; statement; ...
                     }
        }

$ awk '{if ($1 <$2) print $2 " too high"}' test   #如果第一個域小於第二個域則打印。
$ awk '{if ($1 < $2) {count++; print count" ok"}} END{print count" is ok!"}' test   #如果第一個域小於第二個域，則count加一，並打印ok並統計總數

14.5.2. if/else語句，用於雙重判斷

格式：
        {if (expression){
                   statement; statement; ...
                       }
        else{
                   statement; statement; ...
                       }
        }

$ awk '{if ($1 > 100) print $1 " is too big" ; else print "ok"}' test   #如果$1大於100則打印$1 bad,否則打印ok。
$ awk '{if ($1 > 100){ count++; print $1} else {count--; print $2}}' test   #如果$1大於100，則count加一，並打印$1，否則count減一，並打印$2。

14.5.3. if/else else if語句，用於多重判斷。

格式：
        {if (expression){
                    statement; statement; ...
                   }
        else if (expression){
                    statement; statement; ...
                   }
        else if (expression){
                    statement; statement; ...
                   }
        else {
                   statement; statement; ...
             }
        }

14.6. 循環

awk有三種循環: while循環；for循環；special for循環。

#變量i初始值爲1，若i小於或等於NF(記錄域總數),文件第一列自相加，並執行打印語句。
$ awk '{ i = 1; while ( i <= NF ) { print NF,$i; i++}}' test
$ awk '{for (i = 1; i<NF; i++) print NF,$i}' test   #作用同上。

bread continue 語句。break用於在滿足條件的情況下跳出循環；continue用於在滿足條件的情況下忽略後面的語句，直接返回循環的頂端。如：

awk '{for ( x=3; x<=NF; x++) if ($x<0){print NR" line Bottomed out!"; break} else if ($x>=0){print NR" line Get next item"; continue}}' test

next 語句從輸入文件中讀取一行，然後從頭開始執行awk腳本。如：

awk '{if ($1 ~/test/){next} else {print}}' test

exit 語句用於結束awk程序，但不會略過END塊。退出狀態爲0代表成功，非零值表示出錯。

14.7. 數組

awk中的數組的下標可以是數字和字母，稱爲關聯數組。

14.7.1. 下標與關聯數組

用變量作爲數組下標。例如：

$ awk {name[x++]=$2};END{for(i=0;i<NR;i++) print i,name[i]}' test   
#數組name中的下標是一個自定義變量x（初始化值爲0），讀取一行內容後增加1，並將每行第二個域的值賦給name數組的各個元素。\
#在END模塊中，for循環被用於循環整個數組，從下標爲0的元素開始，打印那些存儲在數組中的值。因爲下標是關健字，所以它不一定從0開始，可以從任何值開始。

special for 循環用於讀取關聯數組中的元素。格式如下：

{for (item in arrayname){
         print arrayname[item]
         }
}

$ awk '/^tom/{name[NR]=$1}; END{for(i in name){print name[i]}}' test    
#打印有值的數組元素。打印的順序是隨機的。

用字符串作爲下標。如：count["test"]
用域值作爲數組的下標。一種新的for循環方式，for (index_value in array) statement。例如:

$ awk '{count[$1]++} END{for(name in count) print name,count[name]}' test
#該語句將打印$1中字符串出現的次數。它首先以第一個域作數組count的下標，第一個域變化，索引就變化。

delete 函數用於刪除數組元素。例如：

$ awk '{line[x++]=$1} END{for(x in line) delete line[x]}' test
#分配給數組line的是第一個域的值，所有記錄處理完成後，special for循環將刪除每一個元素。

14.8. awk的內建函數

14.8.1. 字符串函數

sub 函數匹配記錄中最大、最靠左邊的子字符串的正則表達式，並用替換字符串替換這些字符串。如果沒有指定目標字符串就默認使用整個記錄。替換隻發生在第一次匹配的時候。格式如下：

sub (regular expression, substitution string):
sub (regular expression, substitution string, target string)

實例：

$ awk '{ sub(/test/, "mytest"); print }' test
#在整個記錄中匹配，只替換每行第一次匹配到字段。如要替換每行匹配到的所有字段需要用到gsub

$ awk '{ sub(/test/, "mytest",$2); print }' test
#在整個記錄的第二個域中進行匹配，只替換每行第一次匹配到字段。

gsub 函數作用如sub，但它在整個文檔中進行匹配。格式如下：

實例：

$ awk '{ gsub(/test/, "mytest"); print }' testfile   #文檔中匹配test，匹配的都被替換成mytest。
$ awk '{ gsub(/test/, "mytest" , $2) }; print }' testfile   #文檔的第二個域中匹配，所有匹配的都被替換成mytest。

index 函數返回子字符串第一次被匹配的位置，偏移量從位置1開始。格式如下：

index(string, substring)

實例：

$ awk '{ print index("mytest", "test") }' test
#實例返回test在mytest的位置，結果應該是3。

length 函數返回記錄的字符數。格式如下：

length( string )
length

實例：

$ awk '{ print length( "test" ) }'   #返回test字符串的長度
$ awk '{ print length }' test          #返回test文件中第條記錄的字符數

split 函數可按給定的分隔符把字符串分割爲一個數組。如果分隔符沒提供，則按當前FS值進行分割。格式如下：

split( string, array, field separator )
split( string, array )

實例：

$ awk '{ split( "20:18:00", time, ":" ); print time[2] }'
#上例把時間按冒號分割到time數組內，並顯示第二個數組元素18。

substr 函數返回從位置1開始的子字符串，如果指定長度超過實際長度，就返回整個字符串。格式如下：

substr( string, starting position )
substr( string, starting position, length of string )

實例：

$ awk '{ print substr( "hello world", 7,11 ) }'     #截取了world子字符串。

match 函數返回在字符串中正則表達式位置的索引，如果找不到指定的正則表達式則返回0。match函數會設置內建變量RSTART爲字符串中子字符串的開始位置，RLENGTH爲到子字符串末尾的字符個數。substr可利於這些變量來截取字符串。函數格式如下：

match( string, regular expression )

實例：

$ awk '{start=match("this is a test",/[a-z]+$/); print start}'
#打印以連續小寫字符結尾的開始位置，這裏是11。

$ awk '{start=match("this is a test",/[a-z]+$/); print start, RSTART, RLENGTH }'
#打印RSTART和RLENGTH變量，這裏是11(start)，11(RSTART)，4(RLENGTH)。

toupper 和tolower 函數可用於字符串大小間的轉換，該功能只在gawk中有效。格式如下：

toupper( string )
tolower( string )

實例：

$ awk '{ print toupper("test"), tolower("TEST") }'

14.8.2. 時間函數

systime函數返回從1970年1月1日開始到當前時間(不計閏年)的整秒數。格式如下：

systime()

實例：

$ awk '{ now = systime(); print now }'

strftime函數使用C庫中的strftime函數格式化時間。格式如下：

systime( [format specification][,timestamp] )

Table 3. 日期和時間格式說明符

格式	描述
%a	星期幾的縮寫(Sun)
%A	星期幾的完整寫法(Sunday)
%b	月名的縮寫(Oct)
%B	月名的完整寫法(October)
%c	本地日期和時間
%d	十進制日期
%D	日期 08/20/99
%e	日期，如果只有一位會補上一個空格
%H	用十進制表示24小時格式的小時
%I	用十進制表示12小時格式的小時
%j	從1月1日起一年中的第幾天
%m	十進制表示的月份
%M	十進制表示的分鐘
%p	12小時表示法(AM/PM)
%S	十進制表示的秒
%U	十進制表示的一年中的第幾個星期(星期天作爲一個星期的開始)
%w	十進制表示的星期幾(星期天是0)
%W	十進制表示的一年中的第幾個星期(星期一作爲一個星期的開始)
%x	重新設置本地日期(08/20/99)
%X	重新設置本地時間(12：00：00)
%y	兩位數字表示的年(99)
%Y	當前月份
%Z	時區(PDT)
%%	百分號(%)

實例：

$ awk '{ now=strftime( "%D", systime() ); print now }'
            $ awk '{ now=strftime("%m/%d/%y"); print now }'

14.8.3. 內建數學函數

Table 4.

函數名稱	返回值
atan2(x,y)	y,x範圍內的餘切
cos(x)	餘弦函數
exp(x)	求冪
int(x)	取整
log(x)	自然對數
rand()	隨機數
sin(x)	正弦
sqrt(x)	平方根
srand(x)	x是rand()函數的種子
int(x)	取整，過程沒有舍入
rand()	產生一個大於等於0而小於1的隨機數

14.8.4. 自定義函數

在awk中還可自定義函數，格式如下：

function name ( parameter, parameter, parameter, ... ) {
                statements
                return expression                  # the return statement and expression are optional
}

15. How-to

如何把一行豎排的數據轉換成橫排？

awk '{printf("%s,",$1)}' filename

awk中使用NR和FNR的一些例子

http://blog.sina.com.cn/s/blog_5a3640220100b7c8.html

http://www.linuxidc.com/Linux/2012-05/61174.htm

一般在awk裏面輸入文件是多個時，NR==FNR纔有意義，如果這個值爲true，表示還在處理第一個文件。

NR==FNR 這個一般用於讀取兩個或者兩個以上的文件中，用於判斷是在讀取第一個文件。。

test.txt 10行內容

test2.txt 4行內容

awk '{print NR,FNR}' test.txt test2.txt
1 1
2 2
3 3
4 4
5 5
6 6
7 7
8 8
9 9
10 10
11 1
12 2
13 3
14 4

現在有兩個文件格式如下：

#cat account
張三|000001
李四|000002

#cat cdr
000001|10
000001|20
000002|30
000002|15
-----------------------------------------------------------
想要得到的結果是將用戶名，帳號和金額在同一行打印出來,如下:
張三|000001|10
張三|000001|20
李四|000002|30
李四|000002|15

執行如下代碼

awk -F \| 'NR==FNR{a[$2]=$0;next}{print a[$1]"|"$2}' account cdr

註釋:

由NR=FNR爲真時,判斷當前讀入的是第一個文件account,然後使用{a[$2]=$0;next}循環將account文件的每行記錄都存入數組a,並使用$2第2個字段作爲下標引用.

由NR=FNR爲假時,判斷當前讀入了第二個文件cdr,然後跳過{a[$2]=$0;next},對第二個文件cdr的每一行都無條件執行 {print a[$1]"|"$2},此時變量$1爲第二個文件的第一個字段,與讀入第一個文件時,採用第一個文件第二個字段$2爲數組下標相同.因此可以在此使用 a[$1]引用數組。

awk '{gsub(/\$/,"");gsub(/,/,"");
if ($1>=0.1 && $1<0.2) c1+=1;
else if ($1>=0.2 && $1<0.3) c2+=1;
else if ($1>=0.3 && $1<0.4) c3+=1;
else if ($1>=0.4 && $1<0.5) c4+=1;
else if ($1>=0.5 && $1<0.6) c5+=1;
else if ($1>=0.6 && $1<0.7) c6+=1;
else if ($1>=0.7 && $1<0.8) c7+=1;
else if ($1>=0.8 && $1<0.9) c8+=1;
else if ($1>=0.9 ) c9+=1;
else c10+=1; }
END {printf  "%d\t%d\t%d\t%d\t%d\t%d\t%d\t%d\t%d\t%d\t",c1,c2,c3,c4,c5,c6,c7,c8,c9,c10} ' /NEW

示例/例子：

awk '{if($0~/^>.*$/) {tmp=$0; getline; if( length($0)>=200) {print  tmp"\n"$0; } }}'  filename

awk '{if($0~/^>.*$/) {IGNORECASE=1; if($0~/PREDICTED/) {getline;} else {print $0; getline;  print $0; } }}' filename

awk '{if($0~/^>.*$/) {IGNORECASE=1; if($0~/mRNA/) {print $0; getline;  print $0; } else {getline;} }}'  filename

awk '{ temp=$0; getline; if($0~/unavailable/) {;} else {print temp"\n"$0;} }' filename

substr($4,20) ---> 表示是從第4個字段裏的第20個字符開始，一直到設定的分隔符","結束.

substr($3,12,8) ---> 表示是從第3個字段裏的第12個字符開始，截取8個字符結束.

一、awk字符串轉數字

$ awk 'BEGIN{a="100";b="10test10";print (a+b+0);}' 
110 

#只需要將變量通過”+”連接運算。自動強制將字符串轉爲整型。非數字變成0，發現第一個非數字字符，後面自動忽略。

二、awk數字轉爲字符串

$ awk 'BEGIN{a=100;b=100;c=(a""b);print c}'      
100100 

#只需要將變量與””符號連接起來運算即可。

三、awk字符串連接操作(字符串連接；鏈接；串聯)

$ awk 'BEGIN{a="a";b="b";c=(a""b);print c}'      
ab 

$ awk 'BEGIN{a="a";b="b";c=(a+b);print c}'  
0

把文件中的各行串聯起來：

awk 'BEGIN{xxxx="";}{xxxx=(xxxx""$0);}END{print xxxx}' temp.txt
awk 'BEGIN{xxxx="";}{xxxx=(xxxx"\",\""$0);}END{print xxxx}' temp.txt

提取滿足條件的子字符串：

 cat > temp
74938 A>G 347589B>C43795743

awk '{x=$0;while (match(x, "[A-Z]>[A-Z]") > 0) {  print substr(x, RSTART, RLENGTH);  x = substr(x, RSTART+RLENGTH);} }' temp

四、awk計算百分比和平均值

//計算百分比

#計算百分比
success_count=89
interface_count_total=100
awk 'BEGIN{printf "%.8f%\n",'${success_count}'/'${interface_count_total}'*100}'

//計算平均值

cat file
1
2
3
4
#計算平均值
awk '{sum+=$1}END{print sum/NR}' file

#求各行數佔總數的百分比：
awk '{a[NR]=$1;sum+=$1}END{for(i=1;i<=NR;i++)printf "%.2f%\n", a[i]*100/sum}' file
10.00%
20.00%
30.00%
40.00%

五、awk統計文件中某關鍵詞出現次數

1、累加第二列的數值

awk '{a=a+$2}END{print a}'  file

2、若第三列的內容相同，則累加對應記錄的第二列數值

awk '{a[$3]+=$2}END{for(i in a) printf "%s\t %d\n",i,a[i]}' file

3、對其他列的內容進行限制篩選以後累加第二列的數值

awk '$4=="abc" && $5>=100 && $6<=500{a=a+$2}END{print a}' file

4、若第三列，第四列內容相同，則累加第二列的數值，並將結果升序輸出

awk '{a[$3,"\t",$4]+=$2}END{for(i in a)printf "%s\t %d\n",i,a[i]}' file|sort

5、統計文件test.txt中第2列不同值出現的次數

awk '{sum[$2]+=1}END{for(i in sum)print i"\t"sum[i]}'  test.txt
如文件test.txt第2列的值爲"00""01"或"02"，執行結果如下：
[root@localhost cc]# cat test.txt
a 00
b 01
c 00
d 02
[root@localhost cc]# awk '{sum[$2]+=1}END{for(i in sum)print i"\t"sum[i]}' test.txt
00 2
01 1
02 1
[root@localhost cc]#

6、如只統計文件test.txt中第2列"00"或"01"出現的次數，命令可寫爲

[root@localhost cc]# awk '{if($2=="00") ++sum1;if($2=="01") ++sum2}END{print "00""\t"sum1"\n""01""\t"sum2}' test.txt
00 2
01 1

awk字符串函數，包含使用示例：

https://www.tutorialspoint.com/awk/awk_string_functions.htm

https://www.gnu.org/software/gawk/manual/html_node/String-Functions.html