典型的爬蟲案例彙總

一、xpath:下圖中,頁面內容存儲在頁面元素中,可以使用xpath方法進行數據提取,具體事例參考下面幾個鏈接的文字

1、https://www.cnblogs.com/becks/p/11335493.html

2、https://www.cnblogs.com/becks/p/11440333.html

3、https://www.cnblogs.com/becks/p/12249920.html

4、https://www.cnblogs.com/becks/p/14289094.html

5、https://www.cnblogs.com/becks/p/15194300.html

6、https://www.cnblogs.com/becks/p/16628335.html

 

 

二、正則:上圖內的頁面結構,也可以通過正則方式取值,參考下面的鏈接

1、https://www.cnblogs.com/becks/p/12250310.html   (這篇教程混合了xpath和正則取值)

2、https://www.cnblogs.com/becks/p/14500495.html

 

 

三、BeautifulSoup:如下圖,內容存儲在列表中,那麼就可以使用BeautifulSoup方法標識一個相同的元素進行數據提取,具體參考:

1、https://www.cnblogs.com/becks/p/14540355.html

 

四、pandas:頁面數據存儲在tables中,可以使用pandas方法提取數據

1、https://www.cnblogs.com/becks/p/17125843.html

2、https://www.cnblogs.com/becks/p/14738496.html

3、https://www.cnblogs.com/becks/p/14743080.html

 

 

 

 

 

五、json:如果頁面返回數據是json格式,那麼可以直接提取json數據

1、https://www.cnblogs.com/becks/p/16349389.html

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章