對於爬蟲而言驗證碼是一定要經過的坎,對於網站開發而言,驗證碼有着大量生成方法,網站開發者爲了應對爬蟲以及方便用戶閱讀,都會有自己的一套方法。
這裏介紹了python PIL生成驗證碼的一種通用方法。
import random
from PIL import Image, ImageDraw, ImageFont, ImageFilter
import numpy as np
_letter_cases = "abcdefghjkmnpqrstuvwxy" # 小寫字母,去除可能干擾的i,l,o,z
_upper_cases = _letter_cases.upper() # 大寫字母
_numbers = ''.join(map(str, range(1, 10))) # 數字
init_chars = ''.join((_letter_cases, _upper_cases, _numbers))
def create_validate_code(size=(160, 60),
chars=init_chars,
img_type="GIF",
mode="RGB",
bg_color=(255, 255, 255),
fg_color=(0, 0, 0),
font_size=26,
font_type="arial.ttf",
length=4,
draw_lines=False,
n_line=(1, 2),
draw_points=True,
point_chance=2):
"""
@todo: 生成驗證碼圖片
@param size: 圖片的大小,格式(寬,高),默認爲(120, 30)
@param chars: 允許的字符集合,格式字符串
@param img_type: 圖片保存的格式,默認爲GIF,可選的爲GIF,JPEG,TIFF,PNG
@param mode: 圖片模式,默認爲RGB
@param bg_color: 背景顏色,默認爲白色
@param fg_color: 前景色,驗證碼字符顏色,默認爲藍色#0000FF
@param font_size: 驗證碼字體大小
@param font_type: 驗證碼字體,默認爲 ae_AlArabiya.ttf
@param length: 驗證碼字符個數
@param draw_lines: 是否劃干擾線
@param n_lines: 干擾線的條數範圍,格式元組,默認爲(1, 2),只有draw_lines爲True時有效
@param draw_points: 是否畫干擾點
@param point_chance: 干擾點出現的概率,大小範圍[0, 100]
@return: [0]: PIL Image實例
@return: [1]: 驗證碼圖片中的字符串
"""
width, height = size # 寬高
# 創建圖形
img = Image.new(mode, size, bg_color)
draw = ImageDraw.Draw(img) # 創建畫筆
def get_chars():
"""生成給定長度的字符串,返回列表格式"""
return random.sample(chars, length)
def create_lines():
"""繪製干擾線"""
line_num = random.randint(*n_line) # 干擾線條數
for i in range(line_num):
# 起始點
begin = (random.randint(0, size[0]), random.randint(0, size[1]))
# 結束點
end = (random.randint(0, size[0]), random.randint(0, size[1]))
draw.line([begin, end], fill=(0, 0, 0))
def create_points():
"""繪製干擾點"""
chance = min(100, max(0, int(point_chance))) # 大小限制在[0, 100]
for w in range(width):
for h in range(height):
tmp = random.randint(0, 100)
if tmp > 100 - chance:
draw.point((w, h), fill=(0, 0, 0))
def create_strs():
"""繪製驗證碼字符"""
c_chars = get_chars()
strs = ' %s ' % ' '.join(c_chars) # 每個字符前後以空格隔開
font = ImageFont.truetype(font_type, font_size)
font_width, font_height = font.getsize(strs)
draw.text(((width - font_width) / 3, (height - font_height) / 3),
strs, font=font, fill=fg_color)
return ''.join(c_chars)
if draw_lines:
create_lines()
if draw_points:
create_points()
strs = create_strs()
# 圖形扭曲參數
params = [1 - float(random.randint(1, 2)) / 100,
0,
0,
0,
1 - float(random.randint(1, 10)) / 100,
float(random.randint(1, 2)) / 500,
0.001,
float(random.randint(1, 2)) / 500
]
img = img.transform(size, Image.PERSPECTIVE, params) # 創建扭曲
img = img.filter(ImageFilter.EDGE_ENHANCE_MORE) # 濾鏡,邊界加強(閾值更大)
#保存爲該驗證碼名字的jpg
img.save('./img/' + strs + '.jpg')
img = np.array(img)
return strs, img
if __name__ == '__main__':
t, im = create_validate_code()
print(t, im.shape) # (35, 120, 3)
當然對於爬蟲而言,更加樂於找各個網站的驗證碼。
from selenium import webdriver
from PIL import Image
url = '登陸或者註冊頁面'
options = webdriver.ChromeOptions()
# 設置爲開發者模式,防止被各大網站識別出來使用了Selenium
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 打開無頭化
options.add_argument('--headless')
browser = webdriver.Chrome(executable_path="chromedriver.exe路徑", options=options)
# 打開網頁
browser.get(url)
element = browser.find_element_by_xpath('//*[@id="checkCode"]') #找到驗證碼圖片
print(element.location) # 打印元素座標
print(element.size) # 打印元素大小
left = element.location['x']
top = element.location['y']
right = element.location['x'] + element.size['width']
bottom = element.location['y'] + element.size['height']
for i in range(10):
browser.save_screenshot('./img/'+ str(i) +'.png')
im = Image.open('./img/'+ str(i) +'.png')
im = im.crop((left, top, right, bottom))
im.save('./img/'+ str(i) +'.png') # 將得到的圖片保存在本地
browser.refresh()
browser.close()
利用selenium可以很方便的獲取驗證碼圖片,如果想要大量的話就利用循環刷新瀏覽器,裏面加上隨機時間sleep