處理HTML
- HTMLParser模塊的HTMLParser類
在Python中可以使用HTMLParser模塊處理HTML,獲取頁面感興趣的內容。HTMLParser模塊提供了對HTML標記處理的方法。在使用HTMLParser模塊處理HTML時,首先應繼承HTMLParser模塊中的HTMLParser類,然後重載相關的處理方法。
- feed(data)
其中data爲傳遞的數據
當向HTMLParser對象傳遞數據後,其就開始對數據進行處理
- colse()
強制處理feed方法存在在緩衝區中的數據
- reset()
重新設置對象實例
- getpos()
獲得當前處理的行號和偏移位置
- handle_starttag(tag,attrs)
其中tag:HTMLParser遇到的標記
attrs:標記的屬性
遇到某些標記或者數據時調用
- handle_startendtag(tag,attrs)
其中tag:HTMLParser遇到的標記
arrts:標記的屬性
當HTMLParser遇到類似於<br/>的標記時調用
- handle_endtag(tag)
其中tag:HTMLParser遇到的結束標記
當HTMLParser遇到結束標記時調用
- handle_data(data)
其中:data爲標記間的數據
處理標記間的數據
- hand_comment(data)
其中:data爲註釋內容
遇到HTML中的註釋
htmllib模塊的HTMLParser類
- anchor_bgn(href,name,type)
- anchor_end()
處理超鏈接
- handle_image(source,alt,ismap.align,width,height)
處理圖片