這是我在mooc中聽課的一部分截圖,主要是方便以後自己學習!其中主要從以上幾個方面來講解python網絡爬蟲和信息提取。
requests庫的七個常用方法,其中get方法經常使用到。截圖很清晰明瞭了。
其中r=resquests.get("http://www.baidu.com")中的r是一個response對象,這句話用於鏈接對應的url,還有就是那個返回值200表示正確鏈接了。否則就是錯誤的。
這些異常都是在做爬蟲工作中的一些常見異常,如果出現對應的錯誤,再找對應的解決辦法。(後續補充)
以上的代碼主要是爲了獲取html的一個文本信息。
我們可以理解爲我們客戶向雲端通過URL鏈接,然後向通過get和head方法來獲取一些信息。
r,text得到具體的文本數據。
這就是之前說的那七個常見方法。
http://www.icourse163.org/learn/BIT-1001870001?tid=1001962001 這就是之前的聽課的一部分內容。。。yhk