原创 Scrapy項目搭建的完整步驟

Scrapy是一個爲了爬取網站數據,提取結構性數據而編寫的應用框架。可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中。其最初是爲了頁面抓取 (更確切來說, 網絡抓取 )所設計的, 也可以應用在獲取API所返回的數據(

原创 12306網站登錄驗證碼破解(手動版)

一、獲取驗證碼圖片 首先想要破解驗證碼,必須先拿到登錄的驗證碼 經過網頁開發者工具分析,可以通過兩種方式獲取驗證碼圖片: 第一種方式: 通過解密方式,對url進行base64解密,然後在進行二進制數據保存爲圖片 代碼實現: im

原创 XML介紹及xpath文檔

我們在抓取網頁數據的時候,正則表達式可以說是一個萬能的工具。但是正則表達式的難度係數比較高。不能說每個人都能精通熟練使用它,這樣我們可以使用xpath。 (1)先將 HTML 文件 轉換成 XML 文檔; (2)然後用 XPath

原创 爬取全國郵編號碼

目標網站:138郵政編碼大全 我們需要爬取全國34個省份裏面所有城市的郵編號碼: 第一步: 我們需要先爬取首頁中的34個省份的url鏈接 第二步: 通過省份的url鏈接去請求,獲取HTML頁面,根據HTML頁面信息使用xpath

原创 Flask項目之Centos uwsgi+nginx部署

Flask項目Nginx部署 首先我們需要準備服務器環境,這裏暫時沒有云主機,我們使用虛擬機進行部署,服務器系統採用Centos7。開始flask項目部署 一、項目環境部署並進行flask方式啓動測試 1、Centos7安裝pyt

原创 基於大衆點評字體庫的字體反爬案例

目標網址:http://shaoq.com/font 該頁面文章不是固定的,爲動態生成,並且字體做了反爬措施。 該頁面結果簡單,爬取提取數據基本上一行代碼就可以解決。但是爬取下來的爲字體加密後的字符。 所以我現在要做的就是,

原创 scrapy分佈式爬蟲案例

關於 Redis Redis 是目前公認的速度最快的基於內存的鍵值對數據庫 Redis 作爲臨時數據的緩存區,可以充分利用內存的高速讀寫能力大大提高爬蟲爬取效率。 關於 scrapy-redis scrapy-redis 是爲了

原创 爬取英雄聯盟所有英雄皮膚

我們通過分析英雄聯盟官網頁面,進入到資料庫頁面,分析英雄所在的頁面 這裏有兩種類型的同樣的圖片,一種是大圖片的,一種是類似頭像的小圖片。我們這裏抓取大圖片 拿到幾種圖片鏈接分析https://game.gtimg.cn/ima

原创 攜程酒店爬取並保存到MongoDB數據庫

由於本人十一國慶想去成都旅遊,所以這裏就以成都這個城市的所有攜程酒店爲抓取的目標城市。想要抓取其他城市或者多個城市的博友們,可以更改url爲其他城市拼音+城市id。或者直接將城市接口數據(js)爬取下來去遍歷城市列表在循環頁面。有

原创 12306網站車票爬取

這裏還是基於之前針對於12306網站的車票餘票信息進行爬取。經過之前對12306驗證碼及整個網站結構數據的分析。 可以分析出網站他其實也是有自己的車票信息的接口,只不過抓取數據的時候比較複雜一點。通過開發者工具分析其頁面資源可以發

原创 貓眼電影誅仙評論爬取並進行數據分析

近期【誅仙】電影評論如潮,有褒有貶。我們現在針對此電影進行用戶評論信息的爬取,並進行數據的分析。 由於貓眼電影評論數據是動態加載的,所以我們我們不可能通過requests直接請求電影頁面進行獲取,現在必須找到相應的接口,從接口

原创 多線程爬蟲:嗅事百科

import json import time import requests import threading from lxml import etree from queue import Queue class Thr

原创 Elasticsearch 7.x - IK分詞器插件(ik_smart,ik_max_word)

一、安裝IK分詞器 Elasticsearch也需要安裝IK分析器以實現對中文更好的分詞支持。 去Github下載最新版elasticsearch-ik https://github.com/medcl/elasticsearch-an

原创 Elasticsearch 術語介紹和CRUD實際操作入門

  一、Elastic Stack 核心Elasticsearch Elasticsearch 是一個分佈式、RESTful 風格的搜索和數據分析引擎。Elasticsearch 是面向文檔的,這就意味着它可以像MongoDB一樣存儲

原创 爬取QQ音樂指定歌曲

一、QQ音樂網站分析 1、歌曲信息接口分析 通過QQ音樂搜索指定歌手或歌曲,對頁面數據資源進行分析 按下f12開發者工具,點擊network,找尋頁面數據接口 將該接口地址複製到postman工具下進行請求,查看獲取到的數據