原创 基於python的-提升爬蟲效率的方式

# -*- coding:utf-8 -*- """ 顯著提升爬蟲效率的方式: 1. 換個性能更好的機器 2. 網絡使用光纖 3. 多線程 4. 多進程 5. 分佈式 6. 提升數據的寫入

原创 基於python(xpath)的-爬取51job網信息(跳過User-Agent)

# -*- coding:utf-8 -*- import requests from fake_useragent import UserAgent from lxml import etree agent = UserAgent(

原创 基於python的-scrapy框架使用步驟

# -*- coding:utf-8 -*- # scrapy的基本用法 # 1. 通過命令創建項目 # scrapy startproject 項目名稱 # 2. 用pycharm打開項目 # 3. 通過命令創建爬蟲 # scra

原创 基於python的-json解析爬取電影接口(存入html中)

# -*- coding:utf-8 -*- import requests import os city = input("請輸入城市:") url = "http://api.map.baidu.com/telematics/v3

原创 基於python的-PIL定位截圖

# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait # 安裝PIL包

原创 基於python的-mysql基本用法

# -*- coding:utf-8 -*- import pymysql # 1. 鏈接數據庫 db = pymysql.connect( # 鏈接的數據庫的host主機地址:默認本地數據庫使用localhost或者127.

原创 基於Python的-scrapyd部署爬蟲流程

1. 打開命令窗口,新建一個虛擬環境:Mkvirtualenv --python=D:\python36\python.exe 虛擬環境名2. 安裝scrapy項目中所需要的包:例如pip install scrapy如果缺少win32

原创 Scrapy--設置代理ip

本次使用的代理Ip是蘑菇代理,數據庫是redis1.settings配置"""REDIS 配置鏈接""" REDIS_URL = "redis://127.0.0.1:6379" RETRY_TIMES = 22.寫入工具類import

原创 數據庫--概論

我所學的數據庫中有關係型數據庫sqlite,SQLServer和MySQL,NoSql數據庫Redis和MongoDB關係型數據庫  關係型數據庫是建立在關係模型基礎上的數據庫,藉助於集合袋鼠等數據概念和方法來處理數據庫中的數據。 特

原创 Redis

REmote DIctionaryServer(Redis) 是一個由Salvatore Sanfilippo寫的key-value存儲系統。通常被稱爲數據結構服務器,因爲值(value)可以是字符串(String), 哈希(Map),

原创 基於python的-bs4的基本用法

# -*- coding:utf-8 -*- # 需要下載bs4包 pip install bs4 from bs4 import BeautifulSoup import codecs # beautifulSoup 是python支

原创 基於python的-異步寫入mysql步驟

# -*- coding:utf-8 -*- ''' 使用異步存儲的原因: 同步:寫入數據速度比較慢,而爬蟲速度比較快,可能導致數據最後寫入不到數據庫中 異步:是將爬蟲的數據先放入一個連接池中,再同時將連接池的數據寫入

原创 Ubuntu下安裝Python虛擬環境

1.安裝 virtualenvwrapper:pip install virtualenvwrapper默認 virtualenvwrapper 安裝在 /usr/local/bin 下面2. 接着創建一個文件夾來存放虛擬環境,如:mkd

原创 基於python的-scrapy數據流

# -*- coding:utf-8 -*- """ Scrapy中的數據流由執行引擎控制,其過程如下: 1. 引擎打開一個網站(open a domain),找到處理該網站的Spider並向該spider請求第一個要爬取的U

原创 基於python的-爬取糗事百科(工具類)

# -*- coding:utf-8 -*- import re import sqlite3 class Tools(object): @classmethod def strip_char(cls, string):