基於python的-網頁解析方式(xpath)

# -*- coding:utf-8 -*-

"""
    1.網頁的解析方式
        1) xpath(簡單)
        2) 正則(最難)
        3) css(需要懂網頁的css)
        4) bs4(xpath難一點點)

    2.xpath的基本用法
        1) 環境準備:火狐瀏覽器(版本不能太新)
        附件:firebug
            firexpath
        2) 基本操作
        //元素標籤名 :
        例如://div,查找網頁內的所有div

        //元素標籤名[@屬性名='具體內容']

        例如: //div[@class='box'],查找classboxdiv
        //元素標籤名[第幾個]
        例如: //div[@class='box'][2],查找符合條件的第2div

        //元素1/元素2/元素3...
        例如: //ul/li/div/a/img,查找ul下的li下的div下的a下的img標籤

        //元素1/@屬性名
        例如: //ul/li/div/a/img/@src,查找ul下的li下的div下的a下的img標籤的src屬性

        //元素/text()
        例如: //a/text(),獲取a標籤之間的文本(一級文本)

        //元素//text()
        例如: //div[@class='box']//text(),獲取classdiv下的所有文本

        //元素[contains(@屬性名,'相關屬性值')]
        例如: //div[contains(@class,'zhangsan')],查找class中包含zhangsandiv

        //*[@屬性='']
        例如: //*[@name='lisi'],查找所有namelisi的元素

"""
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章