python處理HTML和XML

處理HTML

  • HTMLParser模塊的HTMLParser類

       在Python中可以使用HTMLParser模塊處理HTML,獲取頁面感興趣的內容。HTMLParser模塊提供了對HTML標記處理的方法。在使用HTMLParser模塊處理HTML時,首先應繼承HTMLParser模塊中的HTMLParser類,然後重載相關的處理方法。

    • feed(data)

其中data爲傳遞的數據

當向HTMLParser對象傳遞數據後,其就開始對數據進行處理

    • colse()

強制處理feed方法存在在緩衝區中的數據

    • reset()

重新設置對象實例

    • getpos()

獲得當前處理的行號和偏移位置

    • handle_starttag(tag,attrs)

其中tag:HTMLParser遇到的標記

attrs:標記的屬性

遇到某些標記或者數據時調用

    • handle_startendtag(tag,attrs)

其中tag:HTMLParser遇到的標記

arrts:標記的屬性

當HTMLParser遇到類似於<br/>的標記時調用

    • handle_endtag(tag)

其中tag:HTMLParser遇到的結束標記

當HTMLParser遇到結束標記時調用

    • handle_data(data)

其中:data爲標記間的數據

處理標記間的數據

    • hand_comment(data)

其中:data爲註釋內容

遇到HTML中的註釋

htmllib模塊的HTMLParser類

  • anchor_bgn(href,name,type)
  • anchor_end()

處理超鏈接

  • handle_image(source,alt,ismap.align,width,height)

處理圖片




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章