python之正則表達式的學習

原創

wujiajia2017scnu

2018-09-04 14:18

接觸了python後，爬蟲是必不可少的。正則表達式是我們處理爬蟲數據，解析HTML數據的重要工具。由於正則表達式十分複雜，這讓初學者常常感到頭痛。我在查找了大量資料後，發現畢來生總結的正則表達式的學習十分適合像我這樣的初學者。因此，在本文我重現了regex（正則表達式）的常用方法。如下：

包括的內容：
1 re.match()
2 group()
3 .*? 通用匹配符，貪婪與非貪婪匹配
4 re.search()
5 re.findall()
6 re.sub()
7 re.compile()
8 匹配結果保存到txt，csv。（利用pandas庫在代碼 167 行）

此外我還有個問題：pandas在控制檯輸出的信息列是不對齊的，請問怎麼使用format()方法對齊。

如圖所示：

歡迎在https://blog.csdn.net/qq_36090423 交流。

以上所有源碼在createRegex.py，已上傳至 https://download.csdn.net/download/qq_36090423/10544386

另外附錄正則表達的語法規範。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Python學習二：列表、循環、元組、字典

《毫無障礙學Python》鄧文淵著學習筆記 1.列表結構（List） (又稱清單，即爲其他語言的數組Array) 列表的使用：列表名 = [元素1,元素2,…] 中括號隔開，元素數據類型可同可不同，獲取元素值方法：下標訪問（下

lit-ice

2020-07-08 11:00:43

Python學習一：變量與數據類型、表達式、條件語句

《毫無障礙學Python》鄧文淵著學習筆記變量與數據類型、表達式、條件語句變量 score = 80 #Python變量不聲明就可使用，Python會根據變量值設定數據類型，該score爲int型 fruit = "香蕉"

lit-ice

2020-07-08 11:00:42

Python學習六：web數據抓取與分析

《毫無障礙學Python》鄧文淵著學習筆記 web數據抓取與分析 1.網址解析 . 　　通過Python的 urlparse組件中的 urlparse函數，可對網址進行解析，其返回值爲元組類型的ResultParse對象，通過其

lit-ice

2020-07-08 11:00:42

Python學習五：sqlite數據庫

《毫無障礙學Python》鄧文淵著學習筆記 sqlite數據庫注：需要有數據庫基礎（會用SQL語句創建表，對錶內容進行增刪改查操作即可） sqlite安裝教程參考：https://www.runoob.com/sqlite/

lit-ice

2020-07-08 11:00:42

Python學習四：文件操作

《毫無障礙學Python》鄧文淵著學習筆記文件操作 1. open() 函數 open() 函數打開文件　　python內建函數可打開指定文件用於對文件讀取、修改、添加內容　　open(filename[,mode]

lit-ice

2020-07-08 11:00:42

Python學習三：函數、導包、目錄（文件夾）管理

《毫無障礙學Python》鄧文淵著學習筆記 1.函數 1.1 函數基本（1）語法： . 　　def 函數名(參數1，參數2，參數3,…): 　　#參數可無　　　　程序塊　　return 返回值1,返回值2,返回值3…

lit-ice

2020-07-08 11:00:42

Python：計算類別分佈CalculateClassDistribution

import numpy as np import pandas as pd from sklearn import datasets from sklearn.ensemble import RandomForestClassifie

DeniuHe

2020-07-08 07:35:14

Python調用matlab 函數

在python中啓動matlab： engine = matlab.engine.start_matlab() 如果輸入的變量X是表格式的數據（n*d），即 ndarray格式，需要進行轉換後再輸入： data_list= matla

DeniuHe

2020-07-08 07:35:11

Python：將sklearn自帶數據轉存爲CSV文件

import numpy as np import pandas as pd from sklearn import datasets X,y = datasets.load_breast_cancer(return_X_y=True

DeniuHe

2020-07-08 07:35:10

Python:一排三個子圖

import matplotlib.pyplot as plt import numpy as np import pandas as pd path1 = r"D:\ExperimentalData\Jain\jain.csv" pa

DeniuHe

2020-07-08 07:35:10

Python : 一排三個子圖（二）

import matplotlib.pyplot as plt import numpy as np import pandas as pd path11 = r"D:\ExperimentalData\Jain\multiCenter

DeniuHe

2020-07-08 07:35:08

Python：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI

參考文獻：New Balanced Active Learning Model and Optimization Algorithm--2018IJCAI 原文代碼找了好久沒有找到，至少Github上沒有找到（2020-06-10之前）

DeniuHe

2020-07-08 07:35:07

Python：在python中調用Weka的方法

讓您你們失望了，我啥都沒寫。提供鏈接 https://blog.csdn.net/weixin_30832351/article/details/94889557

DeniuHe

2020-07-08 07:35:07

Python：兩個ndarray數據進行矩陣乘法

import numpy as np a = np.array([[1,2,3],[1,2,3],[1,2,3]]) # print(a) # print(a ** 2) c = np.array([1,2,3]) b = np.arr

DeniuHe

2020-07-08 07:35:07

Python: numpy.random的使用

import numpy as np print(np.random.random()) 0.7714546557122427 輸出單個0-1之間的隨機數 import numpy as np print(np.random.r

DeniuHe

2020-07-08 07:35:07

24小時熱門文章

python之正則表達式的學習

工作中用到的腳本合集

24-5-18 X

完美解決window10下 python版本的切換一

爬蟲系列之新浪微博

爬蟲系列之知乎

找工作吐槽篇

爬蟲系列之大衆點評

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結