python實在強大,用來製作爬蟲是非常好的選擇,能讓你快速地開發一個爬蟲工具。
python封裝好的正則表達式函數,十分方便
#返回pattern對象
re.compile(string[,flag])
#以下爲匹配所用函數
re.match(pattern, string[, flags]) //從開頭開始匹配,遇到不匹配就結束
re.search(pattern, string[, flags]) //整段都進行匹配,到找到爲止
re.split(pattern, string[, maxsplit]) //將指定的字符去掉,然後進行分割
re.findall(pattern, string[, flags]) //符合匹配條件的全部能找到
re.finditer(pattern, string[, flags])搜索string,返回一個順序訪問每一個匹配結果(Match對象)的迭代器
re.sub(pattern, repl, string[, count])使用repl替換string中每一個匹配的子串後返回替換後的字符串。
當repl是一個字符串時,可以使用\id或\g、\g引用分組,但不能使用編號0。
當repl是一個方法時,這個方法應當只接受一個參數(Match對象),並返回一個字符串用於替換(返回的字符串中不能再引用分組)。
re.subn(pattern, repl, string[, count])返回 (sub(repl, string[, count]), 替換次數)。