Datawhale第十二期組隊學習--Python爬蟲編程實踐 Task02:bs4、xpath和正則表達式re

一. Beautiful Soup

缺點:

  • 基於HTML DOM 的,會載入整個文檔,解析整個DOM樹,因此時間和內存開銷都會大很多,所以性能要低於lxml。
  • 匹配效率還是遠遠不如正則以及xpath的,一般不推薦使用,推薦正則的使用。
    beautiful soup解析器

代碼:

# 2.1.4 實戰:中國大學排名定向爬取

import requests
from bs4 import BeautifulSoup
import bs4

url = 'http://www.zuihaodaxue.cn/zuihaodaxuepaiming2019.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}

res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.content.decode(), 'html.parser')
# print(soup.prettify())
tbody = soup('tbody')
# print(tbody)
# print(tbody[0].children)
# 學校排名信息
result = []
if tbody:
    for tr in tbody[0].children:
        # if tr != '\n' and type(tr) != "<class 'bs4.element.Comment'>":
        # print(type(tr))
        if tr != '\n' and not isinstance(tr, bs4.element.Comment):
            school_info = []
            # AttributeError: 'Comment' object has no attribute 'children'
            for index, td in enumerate(tr.contents[:4]):
                # print('td=', td)
                if index == 0:
                    school_info.append(td.string)
                elif index == 1:
                    school_info.append(td.string)
                elif index == 3:
                    school_info.append(td.string)
            result.append(school_info)
# print(result)
# 格式不好看
# "{0:^4}\t{1:^6}\t{2:^10}"
print("%-10s %20s %s" % ('排名', '學校', '總分'))
for i in result:
    print("%-10s %20s %s" % (i[0], i[1], i[2]))

二. XPath

在XPath中,有七種類型的節點:元素、屬性、文本、命名空間、處理指令、註釋以及文檔(根)節點。
XML文檔是被作爲節點樹來對待的。

下面列出了最常用的路徑表達式:

  • nodename 選取此節點的所有子節點。
  • / 從根節點選取。
  • // 從匹配選擇的當前節點選擇文檔中的節點,而不考慮它們的位置。
  • . 選取當前節點。
  • … 選取當前節點的父節點。
  • @ 選取屬性。
  • /text() 提取標籤下面的文本內容
    如:
    • /標籤名 逐層提取
    • /標籤名 提取所有名爲<>的標籤
    • //標籤名[@屬性=“屬性值”] 提取包含屬性爲屬性值的標籤
    • @屬性名 代表取某個屬性名的屬性值

代碼:

# coding:utf-8
#
import requests
from lxml import etree


url = 'http://www.dxy.cn/bbs/thread/626626#626626'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36'}

res = requests.get(url, headers=headers)
# print(res.text)
tree = etree.HTML(res.text)
# print(tree)
auth = tree.xpath('//div[@class="auth"]/a')
content = tree.xpath('//td[@class="postbody"]')
# print(len(auth))
# print(len(content))
for index, i in enumerate(content):
    print('author=', auth[index].xpath('text()')[0],  i.xpath('string(.)').strip())
    print('*'*100)

三. re

正則表達式語法由字符和操作符構成。

常用操作符

  • . 表示任何單個字符
  • [ ] 字符集,對單個字符給出取值範圍 ,如[abc]表示a、b、c,[a‐z]表示a到z單個字符
  • [^ ] 非字符集,對單個字符給出排除範圍 ,如[^abc]表示非a或b或c的單個字符
  • * 前一個字符0次或無限次擴展,如abc* 表示 ab、abc、abcc、abccc等
  • + 前一個字符1次或無限次擴展 ,如abc+ 表示 abc、abcc、abccc等
  • ? 前一個字符0次或1次擴展 ,如abc? 表示 ab、abc
  • | 左右表達式任意一個 ,如abc|def 表示 abc、def
  • {m} 擴展前一個字符m次 ,如ab{2}c表示abbc
  • {m,n} 擴展前一個字符m至n次(含n) ,如ab{1,2}c表示abc、abbc
  • ^ 匹配字符串開頭 ,如^abc表示abc且在一個字符串的開頭
  • $ 匹配字符串結尾 ,如abc$表示abc且在一個字符串的結尾
  • ( ) 分組標記,內部只能使用 | 操作符 ,如(abc)表示abc,(abc|def)表示abc、def
  • \d 數字,等價於[0‐9]
  • \w 單詞字符,等價於[A‐Za‐z0‐9_]

re庫的主要功能函數:

  • re.search() 在一個字符串中搜索匹配正則表達式的第一個位置,返回match對象
  • re.search(pattern,
    string, flags=0) re.match() 從一個字符串的開始位置起匹配正則表達式,返回match對象
  • re.match(pattern, string, flags=0) re.findall() 搜索字符串,以列表類型返回全部能匹配的子串
  • re.findall(pattern, string, flags=0) re.split()
    將一個字符串按照正則表達式匹配結果進行分割,返回列表類型 - re.split(pattern, string, maxsplit=0,
    flags=0)
  • re.finditer() 搜索字符串,返回一個匹配結果的迭代類型,每個迭代元素是match對象
  • re.finditer(pattern, string, flags=0) re.sub()
    在一個字符串中替換所有匹配正則表達式的子串,返回替換後的字符
  • re.sub(pattern, repl, string, count=0, flags=0)

flags : 正則表達式使用時的控制標記:

  • re.I --> re.IGNORECASE : 忽略正則表達式的大小寫,[A‐Z]能夠匹配小寫字符
  • re.M --> re.MULTILINE : 正則表達式中的^操作符能夠將給定字符串的每行當作匹配開始
  • re.S --> re.DOTALL : 正則表達式中的.操作符能夠匹配所有字符,默認匹配除換行外的所有字符

代碼:

# coding:utf-8

# 2.3.4 實戰:淘寶商品比價定向爬蟲
import re
import requests


# 獲取頁面html
def get_html_text(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
        'cookie': 'miid=1535482570367186800; cookie2=6e87dd11b48dc75f227cf036d0f6bbe4; v=0; _tb_token_=f30be8ee41773; cna=uVskEQsl1BUCAat42oaQHKSA; tk_trace=oTRxOWSBNwn9dPyorMJE%2FoPdY8zZPEr%2FCrvCMS%2BG3sTRRWrQ%2BVVTl09ME1KrXdbYQyWDzjYhOx%2BUhHxroKQnemVLj0tU1xd75TGkzn3M%2BOx%2BRxMZtWd9pBWDUD8hgWXixe51H1qGhS3lPHKNV5oHwqAoM4jWOpy3fFSzsKRMIK7SLYeVxYSkdRYiH0LpoDWhDU399Yy5RCyBbezDJsMU%2BDy5JkyvlE58OeXQk2CHXicUxVDORUhrJsHE7AIWHzsDJty%2FWAT43VBG8dqxzgHmQZtX1CAck0aRxzrEBNwgMmcBBYK4HfOPALv2qkU%2BV%2FsHWuRS1JTvQXDbJonfcv4Q; hng=CN%7Czh-CN%7CCNY%7C156; thw=cn; t=7d095be8dae051b617612fc7f71d2f73; _samesite_flag_=true; dnk=%5Cu5F20719923505; tracknick=%5Cu5F20719923505; tg=0; sgcookie=EBXkkWPDmBc28Ae7TLO1q; uc3=lg2=VT5L2FSpMGV7TQ%3D%3D&id2=UoH5Z3NI%2FVRAOA%3D%3D&vt3=F8dBxdGMQvj9crMoa0s%3D&nk2=ttSzTPETU5LGukk%3D; csg=b64efe69; lgc=%5Cu5F20719923505; skt=5f1d40fba83c080d; existShop=MTU4NjQzODEzMg%3D%3D; uc4=nk4=0%40tAIH2w1hONUpvO6BX3cAYkdYxnENJQ%3D%3D&id4=0%40UOnmPLs9OcRO0eJtal2%2BZ2sfX2x9; _cc_=URm48syIZQ%3D%3D; tfstk=cfMCBA44RwbIxDb8C2taTpqF3We5ZzX_jO4ZAfdMKBUPymoCixW4lpnLAN6TMl1..; enc=9BidDucCCWfSGNd7u1LfxaL%2BbxWtMcDLAWI2KvRlpnlRlLuJwIm%2FYWgJUmGrRZXl7bgb85k9ZWyrPW%2BxhGtHng%3D%3D; mt=ci=-1_0; uc1=cookie16=URm48syIJ1yk0MX2J7mAAEhTuw%3D%3D&cookie21=VFC%2FuZ9aiKCaj7AzMHh1&cookie15=UIHiLt3xD8xYTw%3D%3D&existShop=false&pas=0&cookie14=UoTUPcqYgnhT0Q%3D%3D&tag=8&lng=zh_CN; l=eBjd8dAmq3WMRSGkBO5whurza77OrQdfh1PzaNbMiIHca1uR1iDNVNQccDRvRdtjgt5veFtykJ0GkRE9SyULRKgKqelyRs5mpi9wRe1..; isg=BD09zAcBP_1k85iHhgNU689STJk32nEs9qHNn_-BuRRlNltowymW_JHk4GpwsYnk; JSESSIONID=E554CC8A495277CB6B6EB9F72C62F530'
    }
    try:
        r = requests.get(url, headers=headers)
        # print(res.text)
        # pattern = '<script>(.*?)g_page_config = (.*?)</script>'
        # r = re.compile(pattern, re.S).findall(res.text)
        # print(type(res[0]))
        # print(res[0])
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''


# 解析頁面數據
def parse_html(glist, html):
    try:
        # 使用正則表達式提取信息
        # 商品價格
        # price_list = re.findall(r'<div class="price g_price g_price-highlight">(.*?)<span>¥</span>(.*?)<strong>(\d?)</strong></div>', html)
        # # 商品名稱
        # name_list = re.findall(r'<div class="row row-2 title"><a>(.*?)</a></div>', html)
        price_list = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)
        name_list = re.findall(r'\"raw_title\"\:\".*?\"', html)
        print('name=', name_list)
        for i in range(len(price_list)):
            price = eval(price_list[i].split(":")[1])  # eval()在此可以去掉""
            name = eval(name_list[i].split(":")[1])
            glist.append([price, name])
        return glist
    except:
        print("解析失敗")
        return []


def print_goods_list(glist):
    tplt = "{0:^4}\t{1:^6}\t{2:^15}"
    print(tplt.format("序號", "商品價格", "商品名稱"))
    count = 0
    for g in glist:
        count = count + 1
        print(tplt.format(count, g[0], g[1]))


q = '書包'
start_url = "https://s.taobao.com/search?q=" + q
info_list = []
page = 3

count = 0
for i in range(page):
    count += 1
    try:
        url = start_url + "&s=" + str(44 * i)
        html = get_html_text(url)  # 爬取url
        parse_html(info_list, html)  # 解析HTML和爬取內容
        print("\r爬取頁面當前進度: {:.2f}%".format(count * 100 / page), end="")  # 顯示進度條
    except:
        continue
print()
print_goods_list(info_list)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章