手把手教你寫電商爬蟲-第五課京東商品評論爬蟲一起來對付反爬蟲

系列教程：

四節課過去了，咱們在爬蟲界也都算見過世面的人，現在再來一些什麼ajax加載之類的小魚小蝦應該不在話下了，即使是淘寶這種大量的ajax，我們祭上我們的核武器，也輕鬆應對了，這一課主要是來看看除了技術上的頁面處理外，我們還會遇上更棘手的問題，就是反爬蟲，當然現在有各種各樣的反爬蟲，今天就先介紹最簡單的一種：限制IP。

今天咱們的對手依然是業界大佬，馬雲最忌憚的男人，宅男心中愛恨交錯的對象 - JD.COM

也不用我安利，特別是程序員，有幾個沒給京東送過錢的。廢話不多說，先上工具：

1、神箭手雲爬蟲，2、Chrome瀏覽器 3、Chrome的插件XpathHelper 不知道是幹嘛的同學請移步第一課

打開網站瞅一眼：

好了，相信我，截這張圖絕對不是在虐你們這些單身狗。我們就是科學的研究一下這個頁面，沒啥特別的：大廠風，硬仗準備。

先來挑一個分類吧，這次挑一個大家都熟悉的互聯網書類：

http://search.jd.com/Search?keyword=Python&enc=utf-8&book=y&wq=Python&pvid=33xo9lni.p4a1qb

你們的最愛，python從入門到放棄的全部資料。

和前面幾節課類似的分析這節課就不做了，對於分頁，ajax請求什麼的，大家可以直接參考前面的四節課，這一刻主要特別的是，我們在採集商品的同時，會將京東的商品評價採集下來。同時呢，我們也探討下該如何應對京東對IP的限制，OK，先直接上代碼：

var configs = {  
    domains: ["search.jd.com","item.jd.com","club.jd.com"],  
    scanUrls: ["http://search.jd.com/Search?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=1&s=1&click=0"],  
    contentUrlRegexes: ["http://item\\.jd\\.com/\\d+.html"],  
    helperUrlRegexes: ["http://search\\.jd\\.com/Search\\?keyword=Python&enc=utf-8&qrst=1&rt=1&stop=1&book=y&vt=2&page=\\d+&s=1&click=0"],//可留空  
    fields: [  
        {  
            // 第一個抽取項  
            name: "title",  
            selector: "//div[@id='name']/h1",//默認使用XPath  
            required: true //是否不能爲空  
        },  
        {  
            // 第一個抽取項  
            name: "productid",  
            selector: "//div[contains(@class,'fl')]/span[2]",//默認使用XPath  
            required: true //是否不能爲空  
        },  
        {  
            name: "comments",  
            sourceType: SourceType.AttachedUrl,  
            attachedUrl: "http://club.jd.com/productpage/p-{productid}-s-0-t-3-p-0.html",  
            selectorType: SelectorType.JsonPath,  
            selector: "$.comments",  
            repeated: true,  
            children:[  
                {  
                    name: "com_content",  
                    selectorType: SelectorType.JsonPath,  
                    selector: "$.content"  
                },  
                {  
                    name: "com_nickname",  
                    selectorType: SelectorType.JsonPath,  
                    selector: "$.nickname"  
                },  
            ]  
        }  
    ]  
};  
configs.onProcessHelperUrl = function(url, content, site){  
    if(!content.indexOf("抱歉，沒有找到")){  
        var currentPage = parseInt(url.substring(url.indexOf("&page=") + 6));  
        if(currentPage == 0){  
            currentPage = 1;  
        }  
        var page = currentPage + 2;  
        var nextUrl = url.replace("&page=" + currentPage, "&page=" + page);  
        site.addUrl(nextUrl);  
    }  
    return true;  
};  
var crawler = new Crawler(configs);  
crawler.start();

這裏主要給大家講一下這個評論的配置，由於評論是多項，且評論還有子項，在框架中，是通過children關鍵字來配置的。具體參照代碼既可，我們可以在子項中在定義不同的字段，像這裏的comments抽取項會有content和nickname兩個子抽取項，分別對應的是評論的內容和暱稱。

這裏是一個簡化的版本，由於京東頁面相對很複雜，我們在抽取評論的時候，只抽取前一部分評論，當然我們還可以拿到更多的信息，包括評論數，評論人的等級等等，這裏大家就自行探索吧。

最後，由於京東會對IP進行封鎖，雖然說神箭手會自動分佈式開啓爬蟲，不過依然扛不住京東大叔的封鎖，因此這裏需要通過接入代理IP解決這樣的問題，類似開啓js渲染，爬取速度會大大下降，需要大家耐心等待結果嘍，代碼如下：

configs.enableProxy = true;

大功告成，開啓爬蟲，喝杯咖啡，京東商品的評論就可以看到啦：

評論因爲是數字，因此會存儲的時候，會直接存儲成json格式：

對爬蟲感興趣的童鞋可以加qq羣討論：342953471。

手把手教你寫電商爬蟲-第五課京東商品評論爬蟲一起來對付反爬蟲

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

京東秒送售後系統退款業務重構心得| 京東零售技術團隊

互聯網金融爬蟲怎麼寫－第四課雪球網股票爬蟲（單頁面多數據）

互聯網金融爬蟲怎麼寫－第一課 p2p網貸爬蟲（XPath入門）

互聯網金融爬蟲怎麼寫－第三課雪球網股票爬蟲（ajax分析）

手把手教你寫電商爬蟲-第三課實戰尚妝網AJAX請求處理和內容提取

手把手教你寫電商爬蟲-第四課淘寶網商品爬蟲自動JS渲染

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

手把手教你寫電商爬蟲-第五課 京東商品評論爬蟲 一起來對付反爬蟲

手把手教你寫電商爬蟲-第五課京東商品評論爬蟲一起來對付反爬蟲