Python網絡爬蟲和信息提取(一)

這是我在mooc中聽課的一部分截圖,主要是方便以後自己學習!其中主要從以上幾個方面來講解python網絡爬蟲和信息提取。


requests庫的七個常用方法,其中get方法經常使用到。截圖很清晰明瞭了。


其中r=resquests.get("http://www.baidu.com")中的r是一個response對象,這句話用於鏈接對應的url,還有就是那個返回值200表示正確鏈接了。否則就是錯誤的。




這些異常都是在做爬蟲工作中的一些常見異常,如果出現對應的錯誤,再找對應的解決辦法。(後續補充)


以上的代碼主要是爲了獲取html的一個文本信息。



我們可以理解爲我們客戶向雲端通過URL鏈接,然後向通過get和head方法來獲取一些信息。





r,text得到具體的文本數據。




這就是之前說的那七個常見方法。


 把一些鍵值對增加到對應的url中,並且可以再增加一些參數,進一步獲取鏈接 ,比如一些網站的進一步鏈接。。。



http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001 這就是之前的聽課的一部分內容。。。yhk

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章