1.DHT爬蟲基礎
- 瞭解DHT協議:https://blog.csdn.net/xxxxxx91116/article/details/7970815
- 瞭解DHT爬蟲原理:https://www.cnblogs.com/xiejc/p/3727229.html
- 在simDHT基礎上改造:https://github.com/wuzhenda/simDHT
2.simDHT爬蟲源代碼修改
在實際過程中發現獲取到的hashinfo,數量非常少。通過閱讀源碼發現,simDHT僅僅獲取了announce_peer的hashinfo。忽略了get_peer的,所以我們需要把這部分hashinfo增加上去。
3.DHT爬蟲運行基本環境
在內網運行過,發現收不到任何的節點數據請求:find_node,announce_peer,get_peer。據說和防火牆和NAT有關係。所以需要一個具有外網ip的機器(阿里雲服務器可以額)。