【爬蟲工具方法】根據屬性得到一條HTML標籤的一個屬性值

原創

学学学学学学学习

2018-09-04 05:32

工具方法：

public static String getValueByKeyInHtml(String src, String key) {
        Pattern pattern = Pattern.compile("(?:" + key + "\\s*=\\s*)" + "['\"](.*?)['\"]");
        Matcher matcher = pattern.matcher(src);
        if (matcher.find()) {
            return matcher.group().replaceAll(key + "\\s*=\\s*", "").replaceAll("\"", "");
        }
        return null;
    }

示例：

NiceUtil.getValueByKeyInHtml("<a href="https://www.baidu.com/">","href");
//會返回 https://www.baidu.com/

正則講解：

重點是　　　．＊？　　的用法。其他都很簡單。
關於　　　．＊？　　的意思，
．　：　任意字符（不包括回車）
＊：　零個或任意個
？　：　非貪婪模式

所以連起來就是：取儘量少的任意字符。
但它一般不會這麼單獨寫，大多會這麼用：
.*?a
意思就是取前面任意長度的字符，到“第一個a” 出現。

以前一直覺得是？加在第二個　［＇＼＂］後面，這是不對的，應該是匹配儘量少的字符，直到　［＇＼＂］出現。

額。不理解的話，就跟我一樣就把 .*? 的用法背過吧。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Java爬蟲實戰第四篇：手機安裝證書

以iPhone8PLUS爲例 1、在第二篇的基礎上，我麼手機瀏覽器訪問：192.168.0.23:8888;跳轉到 Fiddler Echo Service 證書下載頁。 2、點擊FiddlerRoot certificate下載並安裝

小达哥的垃圾桶

2020-07-08 04:58:39

ASP正則表達式收集

hutchin 發表於 2006/10/31, 4:34 PM. 學習用正則表達式突出顯示字符串中查詢到的單詞的函數<%'''''Function hs(aa,bb) ''建立函數hs，兩值：aa爲內容，bb爲需要查詢的字符Dim re

2020-07-08 10:27:05

【Python】正則表達式快速入門（re模塊的使用）【轉載】

原文鏈接：https://morvanzhou.github.io/tutorials/python-basic/basic/13-10-regular-expression/ 一、簡單的匹配正則表達式無非就是在做這麼一回事

2020-07-08 09:13:34

Java爬蟲實戰第三篇：HttpClient之post發送Request Payload請求解決方案

1、將參數複製成JSON格式的字符串例如： String a = "{\"filter\":{\"filtertype\":{\"type\":\"group\",\"group\":{\"groupvalue\":\"/\",\"e

小达哥的垃圾桶

2020-07-08 04:58:39

知道這 20 個正則表達式，能讓你少寫 1,000 行代碼

http://www.runoob.com/regexp/regexp-syntax.html 正則表達式，一個十分古老而又強大的文本處理工具，僅僅用一段非常簡短的表達式語句，便能夠快速實現一個非常複雜的業務邏輯。熟練地掌握正則表

哈哈金馆长

2020-07-08 11:36:23

re.S、re.I、re.M

re.S (使 . 匹配包括換行在內的所有字符) re.I(不區分大小寫) re.M(多行匹配) ^只匹配字符串的開頭，$只匹配字符串結尾，.不匹配換行符. re.S做的事情是: 讓.也匹配換行符 re.M做的事情是: 讓^匹配每行

2020-07-08 11:16:26

【Python】正則表達式中的貪婪匹配與非貪婪匹配

前言 . :匹配除 “\n” 之外的任何單個字符 *：匹配0個或多個字符 .*：匹配任意長度的任意字符貪婪匹配 import re regex = ".*(b+).*" string = "abbbba" res = r

2020-07-08 09:13:31

oracle 模糊查詢不區分大小寫 regexp_like

regexp_like(source_string ,pattern ) regexp_like(source_string ,pattern ,match_parameter ) source_string is a chara

2020-07-08 05:10:03

learning perl(四) 正則表達式

perl 的核心，也是最重要的一點就是正則表達式了，也叫做模式，是一個匹配字符串的模板。有了它，可以更好地處理文本。 1）簡易模式。的使用簡單正則表達式，其實就是對字符串進行匹配。比如這樣： while (<>) { chomp; i

冬瓜排骨汤

2020-07-08 03:33:23

正則表達式貪婪與非貪婪的回溯

先推一個不錯的js正則表達式在線資源：http://www.jb51.net/tools/zhengze.html。概念不提，看例子：貪婪： var re=/<script>.+<\/script>/g; jsstr = "<

2020-07-08 01:54:09

距離弄懂正則的環視，你只差這一篇文章

上一篇文章《正則表達式匹配素數的原理講解》寫完之後，一些同學給我留言說對於正則表達式的環視不是很理解；希望我能夠講解一下關於環視部分的內容。那麼這篇文章的目的就是幫助大家理解什麼是環視，環視有什麼作用，以及在實際的開發中的一些例

梧桐雨柳絮风

2020-07-07 23:54:23

網頁編程相關

事件源對象 event.srcElement.tagName event.srcElement.type 捕獲釋放 event.srcElement.setCapture(); event.srcElement.releaseCaptu

2020-07-07 22:04:37

正則表達式控制QLineEdit輸入

1.使用正則表達式檢驗QLineEdit的輸入範圍(代碼如下): #include <qvalidator.h> #include <qlineedit.h> QLineEdit *lineEdit = new QLineEdit(t

2020-07-07 20:58:30

新io與舊io文件複製

package file; import java.io.BufferedReader; import java.io.BufferedWriter; import java.io.File; import java.io.FileIn

2020-07-07 19:52:52

AS3中的正則表達式

AS3 中的正則表達式一、定義方式，可以有兩種 var pattern1:RegExp = new RegExp( " test-\\d " , " i " ); var pattern2:RegExp =

2020-07-07 17:30:57

24小時熱門文章

最新文章

最新評論文章