原创 [python爬蟲之路day21]:scrapy shell命令

scrapy shell 1.可以方便我們做一些數據提取的代碼。 2.如果執行scrapy命令。先進去scrapy所在的環境 3.如果讀取某項目的配置信息,應該先進入項目,在執行scrapy shell命令 終端操作如下: 今

原创 c++學習筆記(持續更新)

在大一下學期學習了c語言,最近又想學一下c++,想提高一下編程功底,在此記錄一下在有c基礎(及其拙劣)的情況下,自己的編程進階之路。 sizeof() 返回字節的大小 short a=10; cout << sizeof(shor

原创 [python爬蟲之路day20]:CrawSpider爬取微信小程序社區技術帖

###CrawSpider: 創建CrawlSpider爬蟲: 之前創建爬蟲的方式是通過scrapy genspider [爬蟲名字] [域名]的方式創建的。如果想要創建CrawlSpider爬蟲,那麼應該通過以下命令創建: sc

原创 [python爬蟲之路day19:] scrapy框架初入門day1——爬取百思不得姐段子

好久沒學習爬蟲了,今天再來記錄一篇我的初入門scrapy。 首先scrapy是針對大型數據的爬取,簡單便捷,但是需要操作多個文件以下介紹: 寫一個爬蟲,需要做很多的事情。比如: 發送網絡請求, 數據解析, 數據存儲, 反反爬蟲機制

原创 [python爬蟲之路day18]:selenium之12306搶票

1.12306搶票 1.進入頁面,手動登錄, 2.切換至購票界面,選定城市等相關信息 3.查找我們想要的車次,看是否有餘票,如果沒有,就一直循環這個查詢工作。 4.一旦檢測到有票,執行預定的按鈕點擊,來到預定界面後,找到對應乘客,

原创 「python爬蟲之路day15」:多線程爬取低俗段子(來看看你的fzl時代!)

今天學習了爬百思不得姐姐的段子,其實有點懵,也覺得自己技術之路的遙遙,所以記錄一下,然後準備打王者榮耀。 來看代碼: import requests from lxml import etree import csv import

原创 [python爬蟲之路day13]:多線程——加速爬取數據

今天我們來介紹多線程。 進程裏有很多目標,多線程的目的簡言之就是加快進程,提高效率,多個操作同時進行。 下面來看代碼: 一.初識 import time import threading ###############單線程##

原创 [python爬蟲之路day12]:基於爬蟲的mongodb數據庫的基本操作

今天學習了mongodb數據庫的基本操作。 初步瞭解數據庫的爬蟲方面的簡單操作,記錄如下: mongodb和mysql比較 三元素: 數據庫,集合,文檔 1.db (當前數據庫) 2.show dbs 3.use zhih

原创 「python爬蟲之路day11」:pymysql操作數據庫mysql

今天我們來學習一下下數據庫的使用。 #一.連接數據庫 import pymysql 一.連接數據庫 conn=pymysql.connect(host="localhost", user="root", password="123

原创 [python爬蟲之路y10]:爬蟲之數據存儲json,csv,excel

今天我們來學習對爬取到的數據進行存儲。 三種方式:1.json,2.csv,3.excel文件存儲 一.json 1.支持數據格式 a.對象(字典) 使用 {} b.數組(列表)使用 [] c.整形,浮點型,null,布爾類型 d

原创 [python爬蟲之路day4]:xpath基本知識&&lxml結合xpath進行數據分析&&爬取豆瓣電影

一.**********XPath:******XPath是一門在xml和html語言中查找信息的一門語言,可以對xml和html文檔的元素和屬性進行遍歷。 chrome中的插件: XPath helper Firefox插件:T

原创 [python爬蟲之路day1] 爬蟲初入門之源碼爬取

最近在入門爬蟲,索性將每次所學記錄於此,及時複習並分享小白的學習之路。(本人所寫博客僅供本人及時複習以及方便同行者查閱,在此特別鳴謝B站up主“神奇的老黃”所提供的學習視頻,本文末尾附上視頻鏈接) from urllib impo

原创 [python爬蟲之路day7]:實戰之中國天氣網全國城市天氣情況爬取

通過今天的學習,我們將中國天氣網的所有城市天氣信息按照最低溫度的排序爬取出來,並將排名前10的城市可視化。 通過本次學習又溫習了以下: 1.sort函數,可以排序,但是數據必須是整型數據, 2.pyecharts的Bar庫,可以進

原创 [python爬蟲之路day5]:實戰之電影天堂2019精選電影爬取

**前言:**通過本次學習新掌握以下函數用法。 map(lambda x:x+3,5) .startswith("ads ") .strip() 除去前後空格 a.format(1)用其中的字符填充a中的{} 代碼如下: fro

原创 [python爬蟲之路dya3]: requests庫的基本使用

前面我們學習了urllib庫進行源代碼的爬取,今天來介紹更加人性化的requests庫的使用。 import requests '''response=requests.get("https://baidu.com/") pri