原创 網絡爬蟲-阿里淘寶-店鋪基本信息-本地文件

1.採用Chrome無頭瀏覽模式,後臺自動運行 2.函數結構化,易於擴展改變 3.異常重啓,防止崩潰已經封裝完畢   import re from selenium import webdriver from selenium.webd

原创 網絡爬蟲-微信公衆號-近期文章-MySQL數據庫

搜狗微信客戶端爬取的網址都是臨時接口,爲了網址接口長久性,我採用了微信鏈接轉永久接口 import re import json import time import pymysql import requests from bs4

原创 終極項目-測試-多線程、多進程、多協程代碼、Redis數據庫分佈式

學習Scrapy框架前要先了解這些各個提高代碼運行方式的內在關係邏輯 三種方式同時利用5個(線,進,協)來測試請求50個網頁,比較速度 首先上多線程: 採用的是隊列+多線程,這也是分佈式爬蟲底架常見的使用方法 本此多線程採用的是threa

原创 網絡爬蟲-大衆點評-獲取美食商鋪評論標籤與推薦美食-本地Excel表格

1.由於大衆點評的反爬蟲措施(如Cookie就是必須放入請求頭Header中)太過嚴禁,博主本人在爬取測試過程中IP被封,更換了IP才得以繼續測試,並且後來博主在爬取過程中設置了小型防崩潰措施。 2.爬取速度不宜太快,爬取次數同一個IP下

原创 網絡爬蟲-知乎Live-Live評論與觀衆-MongoDB數據庫

1.解析了AjAx動態加載地址 2.鍵值型MongoDB數據庫 代碼如下: 首先先獲取zhihu-live中的各個Live鏈接地址 import json, time import random import requests from

原创 網絡爬蟲-百度地圖-全國地址信息-MySQL數據庫

本文僅供學習參考 1.採用轉文件轉MySQL數據庫形式存儲內容 2.爬取速度不宜過快,太快容易失敗 代碼如下: 先爬取並將其全部存儲至文件中 import json, time import random import requests

原创 網絡爬蟲-QQ空間-數據前奏曲-自動登錄

網上有許多代碼,但很多效果都很差,我自己學着學着摸索了一個,特別要提醒的是,登錄經常會失敗,這是因爲QQ空間反爬蟲功能。 根據一個大牛解答,Chrome63.0版本發佈了重大更新,所以想要批量登陸最好選取Chrome63.0版本的。 i

原创 終極項目-算法-人工智能五子棋

項目:Al五子棋 項目負責人:鄭雨軒 項目製作時間:6天 項目完成時間:18.7.12 項目採用語言:Python 項目採用主要算法:博弈算法, 最大值最小值算法, 剪枝(Alpha - Beta)算法, 隨機算法, 限制搜索邊框算法等

原创 終極項目-遊戲-小黃人大作戰

通過python基礎教程(版本三)學習得到了提升 鼠標控制,全屏遊戲,關卡遊戲,不同的關卡會有不同的小黃人出現,難度也會隨之不同 有背景音樂,有不同的小黃人圖片 首先,先把需要的變量定義在config.py中 # 遊戲squish的配置

原创 機器學習-決策樹模型-西瓜書代碼(C4.5)-預剪枝修正

以下代碼是本人在學習西瓜書時花費兩個禮拜根據原理進行原創,若需轉載請諮詢本人,謝謝! 自我研究模擬代碼 附上離散類別運行截圖 c45_config.py """  Filename: kdd_config  Author: kdd_z