linux使用grep條件搜索大文件的行數等操作

一、前言

      最近需要查詢大日誌文件的時候,每次打開vim,cat之類的都會卡死,但是需要查看符合條件的共有多少行數據,這顆愁死我了,下面列出一些常用的匹配查詢命令。

二、常用的搜索命令

1、grep搜索

			grep 參數 文件名 | head     //從頭查找
			grep 參數 文件名 | wc- l    //查看符合條件的有多少行
			cat 文件名 |grep 參數$	//輸出以該參數結尾的行內容

2、實例

(1)根據具體的參數來搜索行數

cat /data/weblogs/xxx.access.log  |grep "GET /pixel.jpg?"|wc -l 
			4102386

(2)部分正則查詢

		cat /data/weblogs/em.evony.com.access.log |grep "25/Nov/2019:15:[00-59]" |wc -l 
		120

查詢25/Nov/2019:15 時的所有數據,那麼15時後面的分鐘數就是00-59

(3)多個條件之間可以使用管道連接,查詢同時符合兩個條件的行數

		cat /data/weblogs/xxx.log |grep "25/Nov/2019:15:[00-59]" |grep "GET /pixel.jpg?"|wc -l 

		120

(4)查詢符合條件1或者符合條件2 的行數

		cat /data/weblogs/xxx.log |grep -E "25/Nov/2019:15:[00-59] |GET /pixel.jpg?"|wc -l 
			4098135

簡寫: grep -E "exp1|exp2|exp3" | wc -l
參考:https://blog.csdn.net/lijing742180/article/details/84959963

3、grep是模糊查詢

在使用grep搜索端口號的時候,查出來的結果不盡人意,什麼牛鬼蛇神都查出來了,例子如下:

netstat -anp |grep -i '80'
(Not all processes could be identified, non-owned process info
 will not be shown, you would have to be root to see it all.)
tcp        0      0 127.0.0.1:80                0.0.0.0:*                   LISTEN      -                   
tcp        0      0 10.17.2.50:80               0.0.0.0:*                   LISTEN      -                   
tcp        0      0 216.66.17.189:80            0.0.0.0:*                   LISTEN      -                   
tcp        0      0 10.17.2.50:10050            10.17.13.2:33801            TIME_WAIT   -              

推薦個更好用的,具體查詢80端口的使用情況,使用命令:

 netstat -apn | awk '{split($4,arr,":"); if(arr[2] == "80") print $0}'

一步到位,查出來的都是80端口的進程,十分好用。

============ 2019/12/5===================

三、搜索文件中的ip地址

1、匹配ip

grep -Eo '([^0-9]|\b)((1[0-9]{2}|2[0-4][0-9]|25[0-5]|[1-9][0-9]|[0-9])\.){3}(1[0-9][0-9]|2[0-4][0-9]|25[0-5]|[1-9][0-9]|[0-9])([^0-9]|\b)' xxx.log | sed -nr 's/([^0-9]|\b)(([0-9]{1,3}\.){3}[0-9]{1,3})([^0-9]|\b)/\2/p'|wc -l

31116275

2、查詢每個ip出現的次數

grep -E -o "(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)"  xxx.log |sort|uniq -c

      2 99.203.87.103
      2 99.203.87.142
      4 99.203.87.145
      8 99.203.87.153

前面是出現次數,後面是ip

3、更精準的匹配ip

grep -E -o "(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.(25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)"  xxx.log|wc -l

32929372

4、模糊匹配ip

grep -E -o "([0-9]{1,3}[\.]){3}[0-9]{1,3}" xxx.log|wc -l

32930309

5、多個條件查詢ip,先根據限定條件獲取指定的行數,然後再搜索ip的個數

cat xxx.log |grep "25/Nov/2019:15:[00-59]" |grep "GET /pixel.jpg?"|grep -E -o "([0-9]{1,3}[\.]){3}[0-9]{1,3}"|wc -l 
1110

      感覺這些查ip的方法都差不錯,因爲日誌文件一直在增大,所以查出來的結果也不一樣,查的速度也比較慢,可能是文件太大了,在此記錄一下,總有用得着的時候。

end

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章