原创 基於python的-提升爬蟲效率的方式
# -*- coding:utf-8 -*- """ 顯著提升爬蟲效率的方式: 1. 換個性能更好的機器 2. 網絡使用光纖 3. 多線程 4. 多進程 5. 分佈式 6. 提升數據的寫入
原创 基於python(xpath)的-爬取51job網信息(跳過User-Agent)
# -*- coding:utf-8 -*- import requests from fake_useragent import UserAgent from lxml import etree agent = UserAgent(
原创 基於python的-scrapy框架使用步驟
# -*- coding:utf-8 -*- # scrapy的基本用法 # 1. 通過命令創建項目 # scrapy startproject 項目名稱 # 2. 用pycharm打開項目 # 3. 通過命令創建爬蟲 # scra
原创 基於python的-json解析爬取電影接口(存入html中)
# -*- coding:utf-8 -*- import requests import os city = input("請輸入城市:") url = "http://api.map.baidu.com/telematics/v3
原创 基於python的-PIL定位截圖
# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait # 安裝PIL包
原创 基於python的-mysql基本用法
# -*- coding:utf-8 -*- import pymysql # 1. 鏈接數據庫 db = pymysql.connect( # 鏈接的數據庫的host主機地址:默認本地數據庫使用localhost或者127.
原创 基於Python的-scrapyd部署爬蟲流程
1. 打開命令窗口,新建一個虛擬環境:Mkvirtualenv --python=D:\python36\python.exe 虛擬環境名2. 安裝scrapy項目中所需要的包:例如pip install scrapy如果缺少win32
原创 Scrapy--設置代理ip
本次使用的代理Ip是蘑菇代理,數據庫是redis1.settings配置"""REDIS 配置鏈接""" REDIS_URL = "redis://127.0.0.1:6379" RETRY_TIMES = 22.寫入工具類import
原创 數據庫--概論
我所學的數據庫中有關係型數據庫sqlite,SQLServer和MySQL,NoSql數據庫Redis和MongoDB關係型數據庫 關係型數據庫是建立在關係模型基礎上的數據庫,藉助於集合袋鼠等數據概念和方法來處理數據庫中的數據。 特
原创 Redis
REmote DIctionaryServer(Redis) 是一個由Salvatore Sanfilippo寫的key-value存儲系統。通常被稱爲數據結構服務器,因爲值(value)可以是字符串(String), 哈希(Map),
原创 基於python的-bs4的基本用法
# -*- coding:utf-8 -*- # 需要下載bs4包 pip install bs4 from bs4 import BeautifulSoup import codecs # beautifulSoup 是python支
原创 基於python的-異步寫入mysql步驟
# -*- coding:utf-8 -*- ''' 使用異步存儲的原因: 同步:寫入數據速度比較慢,而爬蟲速度比較快,可能導致數據最後寫入不到數據庫中 異步:是將爬蟲的數據先放入一個連接池中,再同時將連接池的數據寫入
原创 Ubuntu下安裝Python虛擬環境
1.安裝 virtualenvwrapper:pip install virtualenvwrapper默認 virtualenvwrapper 安裝在 /usr/local/bin 下面2. 接着創建一個文件夾來存放虛擬環境,如:mkd
原创 基於python的-scrapy數據流
# -*- coding:utf-8 -*- """ Scrapy中的數據流由執行引擎控制,其過程如下: 1. 引擎打開一個網站(open a domain),找到處理該網站的Spider並向該spider請求第一個要爬取的U
原创 基於python的-爬取糗事百科(工具類)
# -*- coding:utf-8 -*- import re import sqlite3 class Tools(object): @classmethod def strip_char(cls, string):