原创 爬蟲ip被封的6個解決方法

在爬蟲工作中,我們不可避免的會遇到網頁的反爬封鎖,所以就有了爬蟲的攻防,在攻和守之間兩股力量不斷的抗衡。接下來就講講使用爬蟲時ip限制問題的六種方法!   方法1.   1、IP必須需要,如果有條件,建議一定要使用代理IP。   2、在有

原创 python爬蟲的urllib2庫的使用

環境: python2 備註:在python2中叫做urllib2,在python3中使用的是urllib.request,和前面urllib2的使用方法一樣的 1----urllib2的最簡單使用 # -*- coding=utf-8

原创 python爬蟲 如何做到反反爬蟲,防止ip被封的一個小技巧

# -*- coding:utf-8 -*- import urllib2 import random url = "http://www.baidu.com/" # 可以是User-Agent列表,也可以是代理列表 user_a

原创 urllib2自定義構建代理handler之開放代理的使用(不需要授權)

1-上一節使用自定義handeler之後,就需要直接使用urllib2.open()方法去發送請求,不能使用urllib2的urlopen方法, 本節會創建一個全局opener,這樣雖然使用的是自定義的handler,但是依然可以使用ur

原创 win10 java jdk的安裝

1,進入java JDK下載官網https://www.oracle.com/technetwork/java/javase/overview/index.html 2,點擊1步驟中的3處DOWNLOAD,跳轉頁面,然後拉到最下面如下圖

原创 urllib2的post方法小案例

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 # 通過抓包的方式獲取的url,並不是瀏覽器上顯示的url url = "http:

原创 urllib2自定義handler

 1-自定義handler和使用urlopen方法得到的結果是一樣的 #!/usr/bin/env python # -*- coding:utf-8 -*- import urllib2 # 構建一個HTTPHandler處理器對

原创 python scrapy爬蟲防止ip被封的實現方案

主要策略: 動態設置user agent 禁用cookies 設置延遲下載 使用google cache 使用IP地址池(Tor Project、VPN和代理IP) 使用Crawlera 1、創建middlewares.py   scra

原创 【scrapy ip代理池】如何解決ip被限制的問題

1、首先寫一個腳本proxies.py 自動獲取代理ip # *-* coding:utf-8 *-* import requests from bs4 import BeautifulSoup import lxml from mult

原创 urllib2的get方法小案例(貼吧)

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 def loadPage(url, filename): """

原创 python爬蟲防止IP被封的一些措施

在編寫爬蟲爬取數據的時候,因爲很多網站都有反爬蟲措施,所以很容易被封IP,就不能繼續爬了。在爬取大數據量的數據時更是瑟瑟發抖,時刻擔心着下一秒IP可能就被封了。 本文就如何解決這個問題總結出一些應對措施,這些措施可以單獨使用,也可以同時使

原创 python 記錄一個通用logger

import logging import time logger = logging.getLogger() logger.setLevel(logging.INFO) rq = time.strftime(u'%Y%m%d%H

原创 python網絡爬蟲學習筆記之網站背景調研

目標網站背景調研 1,檢查robots.txt 大部分網站幾乎都有其robots.txt文件,我們可以通過此文件瞭解到爬去該網站時存在了哪些限制 訪問方式:在瀏覽器中輸入:"http://www.xxx.com/robots.txt" 回

原创 python爬取圖片地址,並將圖片保存到服務器

最近在做一項下載圖片的任務,所有的圖片地址都是使用爬蟲爬取下來並保存在mongodb數據庫裏面的, 由於當時圖片部分不是我自己抓取的,不知道不同的庫之間還會存在相同的圖片地址,所以使用下面代碼導致了部分圖片下載兩遍的情況,但是數據庫只存了

原创 Linux CentOS統計當前文件夾下文件的個數、目錄的個數

1、統計當前文件夾下文件的個數,包含子文件夾 ls -lR|grep "^-"|wc -l   2、統計當前文件夾下目錄的個數,包含子文件夾 ls -lR|grep "^d"|wc -l 3、統計當前文件夾下文件的個數,不包含子文