原创 網絡爬蟲-阿里淘寶-店鋪基本信息-本地文件
1.採用Chrome無頭瀏覽模式,後臺自動運行 2.函數結構化,易於擴展改變 3.異常重啓,防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webd
原创 網絡爬蟲-微信公衆號-近期文章-MySQL數據庫
搜狗微信客戶端爬取的網址都是臨時接口,爲了網址接口長久性,我採用了微信鏈接轉永久接口 import re import json import time import pymysql import requests from bs4
原创 終極項目-測試-多線程、多進程、多協程代碼、Redis數據庫分佈式
學習Scrapy框架前要先了解這些各個提高代碼運行方式的內在關係邏輯 三種方式同時利用5個(線,進,協)來測試請求50個網頁,比較速度 首先上多線程: 採用的是隊列+多線程,這也是分佈式爬蟲底架常見的使用方法 本此多線程採用的是threa
原创 網絡爬蟲-大衆點評-獲取美食商鋪評論標籤與推薦美食-本地Excel表格
1.由於大衆點評的反爬蟲措施(如Cookie就是必須放入請求頭Header中)太過嚴禁,博主本人在爬取測試過程中IP被封,更換了IP才得以繼續測試,並且後來博主在爬取過程中設置了小型防崩潰措施。 2.爬取速度不宜太快,爬取次數同一個IP下
原创 網絡爬蟲-知乎Live-Live評論與觀衆-MongoDB數據庫
1.解析了AjAx動態加載地址 2.鍵值型MongoDB數據庫 代碼如下: 首先先獲取zhihu-live中的各個Live鏈接地址 import json, time import random import requests from
原创 網絡爬蟲-百度地圖-全國地址信息-MySQL數據庫
本文僅供學習參考 1.採用轉文件轉MySQL數據庫形式存儲內容 2.爬取速度不宜過快,太快容易失敗 代碼如下: 先爬取並將其全部存儲至文件中 import json, time import random import requests
原创 網絡爬蟲-QQ空間-數據前奏曲-自動登錄
網上有許多代碼,但很多效果都很差,我自己學着學着摸索了一個,特別要提醒的是,登錄經常會失敗,這是因爲QQ空間反爬蟲功能。 根據一個大牛解答,Chrome63.0版本發佈了重大更新,所以想要批量登陸最好選取Chrome63.0版本的。 i
原创 終極項目-算法-人工智能五子棋
項目:Al五子棋 項目負責人:鄭雨軒 項目製作時間:6天 項目完成時間:18.7.12 項目採用語言:Python 項目採用主要算法:博弈算法, 最大值最小值算法, 剪枝(Alpha - Beta)算法, 隨機算法, 限制搜索邊框算法等
原创 終極項目-遊戲-小黃人大作戰
通過python基礎教程(版本三)學習得到了提升 鼠標控制,全屏遊戲,關卡遊戲,不同的關卡會有不同的小黃人出現,難度也會隨之不同 有背景音樂,有不同的小黃人圖片 首先,先把需要的變量定義在config.py中 # 遊戲squish的配置
原创 機器學習-決策樹模型-西瓜書代碼(C4.5)-預剪枝修正
以下代碼是本人在學習西瓜書時花費兩個禮拜根據原理進行原創,若需轉載請諮詢本人,謝謝! 自我研究模擬代碼 附上離散類別運行截圖 c45_config.py """ Filename: kdd_config Author: kdd_z