【Python】zr_price爬蟲

這幾天網上熱議租房價格飆升,然後想查看北京租房價格的變化趨勢,奈何沒找到。

又開始找爬蟲,但是也只是以前的,而且現在頁面已經發生變化,於是在別人已有代碼上進行改進。

2018-8-26

  1. 僅可以在單頁爬取地址、描述、標籤、圖片等信息
  2. 價格信息是由CSS的background-position來設定的,而這一部分牽涉到JS(?)的知識。通過審查元素已經發現映射關係,後面需要提取出offset隊列,進行映射即可取到數字

2018-8-27

昨晚寫代碼,發現<span style="background-position:-180px" class="num"></span> 這裏面的數據是用正則匹配不到的,查找出來是空的,應該是動態網頁的原因,單獨又訪問了一個頁面得到的。

而之前所想的用script中的offset_unit值來映射price是沒有辦法直接實現的。

 

2018-8-28

看了一下,網頁是調用一組無序0-9的圖片,再根據像素位置截取圖片,將價格拼在一起的。研究了一下圖片的命名,沒有發現規律,不能從文本上得到price信息。

頭大。

考慮ORCing

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章