DHT 爬蟲

1.DHT爬蟲基礎

  1. 瞭解DHT協議:https://blog.csdn.net/xxxxxx91116/article/details/7970815
  2. 瞭解DHT爬蟲原理:https://www.cnblogs.com/xiejc/p/3727229.html
  3. 在simDHT基礎上改造:https://github.com/wuzhenda/simDHT

2.simDHT爬蟲源代碼修改

在實際過程中發現獲取到的hashinfo,數量非常少。通過閱讀源碼發現,simDHT僅僅獲取了announce_peer的hashinfo。忽略了get_peer的,所以我們需要把這部分hashinfo增加上去。
在這裏插入圖片描述

3.DHT爬蟲運行基本環境

在內網運行過,發現收不到任何的節點數據請求:find_node,announce_peer,get_peer。據說和防火牆NAT有關係。所以需要一個具有外網ip的機器(阿里雲服務器可以額)。

4.通過hashinfo下載torrent文件,解析文件。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章