原创 數據分析學習之matplotlib繪製其他圖表

繪製散點圖 練習1 from matplotlib import pyplot as plt from matplotlib import font_manager #溫度數據 y_3 = [11,17,16,11,12,11

原创 十五、學習分佈式爬蟲之下載器中間件

下載器中間件的介紹 方法 隨機更換請求頭 中間件代碼 爬蟲代碼 設置隨機代理IP 代碼實現 無限制爬取獵聘網實例 爬蟲liepin.py # -*- coding: utf-8 -*- import scrapy

原创 十一、學習分佈式爬蟲之selenium

selenium實戰12306購票 from selenium import webdriver from selenium.webdriver.support.ui import WebDriverWait from selen

原创 九、學習分佈式爬蟲之多線程

實例:多線程實現爬取王者榮耀高清壁紙 import requests from urllib import parse from urllib import request import os import threading f

原创 十二、學習分佈式爬蟲之驗證碼識別

驗證碼識別 學習使用雲打碼識別圖形驗證碼。 學會把驗證碼識別技術應用到爬蟲中。 使用雲打碼平臺 from yundama import YDMHttp ydm = YDMHttp(username='wuyuli',pass

原创 七、學習分佈式爬蟲之數據存儲

數據存儲 JSON文件格式處理:網絡交互 CSV文件格式處理:數據分析 Excel文件處理:數據分析和運營 MySQL數據庫處理:數據分析和網站 JSON文件格式處理 JSON字符串介紹 JSON(JavaScript Ob

原创 三、學習分佈式爬蟲之requests庫

requests庫基本使用(第三方庫) 雖然python的標準庫中的urllib模塊已經包含了平常我們使用的大多數功能,但是它的API使用起來讓人感覺不太好,而Requests宣傳“HTTP for Humans”,說明使用更簡便

原创 四、學習分佈式爬蟲之Xpath

數據解析: Xpath語法和lxml庫 BeautifulSoup4庫 正則表達式和re模塊 Xpath語法和lxml庫 什麼是Xpath xpath(XML Path HTML)是一門在XML和HTML文檔中查找信息的語言,

原创 十、學習分佈式爬蟲之多線程

多線程的GIL鎖 python自帶的解釋器是CPython,CPython解釋器的多線程實際上是一個假的多線程(在多核CPU中,只能利用一核,不能利用多核)。同一個時刻只有一個線程在執行,爲了保證同一時刻只有一個線程在執行,在CP

原创 day1(Python爬蟲:天氣

import requests from bs4 import BeautifulSoup #抓取天氣 def getHTMLText(url): try: r=requests.get(url)