原创 scrapy利用下載器中間件給request對象修改User-Agent

middlewares.py編寫 from p5.settings import UserAgent_list import random class RandomUserAgentMiddleware(object): #

原创 scrapy利用登陸後的cookie請求人人網個人主頁

獲取cookie 首先在本地瀏覽器手動打開人人網登陸頁面,鍵入帳號密碼登陸到個人主頁,點擊大鵬董成鵬頁面,在瀏覽器上獲取到當前頁面的cookie字符串信息如下: anonymid=k6li2urqmmt9jn; r01=1; ta

原创 scrapy利用FormRequest.from_response模擬登陸

spider.py文件編寫 import scrapy import re class LoginGithubSpider(scrapy.Spider): name = 'login_reren' allowed

原创 scrapy框架爬取起點小說分類

spider代碼 class QidianSpider(scrapy.Spider): name = 'qidian' allowed_domains = ['qidian.com'] start_urls

原创 pandas讀取分析保險數據

import pandas as pd import matplotlib.pyplot as plt from sklearn.preprocessing import PolynomialFeatures from sklea

原创 有趣段子 + 圖片爬蟲

import requests import re import json import os class NeiHanSpider(): def __init__(self): self.start_

原创 polynomial regression

polynomial regression 即多項式線性迴歸,是處理面對非線性數據但又想對其使用線性算法時的一種數據轉換方式,會增加數據的維度,譬如樣本數據爲x1,x2,那麼轉換後的樣本特徵即爲x1, x2, x1*x2, x1^

原创 邏輯迴歸對經典鳶尾花數據集進行三分類預測

import numpy as np from sklearn import datasets from sklearn.linear_model import LogisticRegression import matplotl

原创 np.linspace()用法

np.linspace(a,b,c)用於創建一個等差序列的向量,向量值是[a,b]之間均勻分佈的c個實數 import numpy as np arithmetic_sequence = np.linspace(0,10,9).

原创 貼吧帖子標題 + 回覆內容 + 回覆圖片爬蟲

import requests from lxml import etree import re import json import os import time class TieBaSpider(): def _

原创 通過session保存即時cookies請求拉勾網職位信息

import requests start_url = "https://www.lagou.com/" next_url = "https://www.lagou.com/jobs/positionAjax.json?nee

原创 python與redis交互方法

1. 通過python向redis數據庫中插入string類型的鍵 from redis import StrictRedis #創建redis連接對象 sr = StrictRedis(host="localhost", po

原创 redis數據庫常用命令

1.字符串命令 設置或更新鍵值 (存在該鍵則設置否則更新) 設置鍵名爲name,鍵值爲zhaoji set name zhaoji 獲取鍵值 獲取鍵名爲name的鍵值 get name 設置鍵值及過期時間 設置

原创 ubuntu安裝redis數據庫

下載壓縮包 wget http://download.redis.io/releases/redis-3.2.8.tar.gz 解壓壓縮包 tar -zxvf redis-3.2.8.tar.gz 將解壓後的包移動到/usr/

原创 redis啓動和終止命令

啓動redis服務器端並指定其配置文件路徑 sudo redis-server /etc/redis/redis.conf 終止redis服務器 sudo kill -9 pid(redis-server的進程號) 啓動red