python關於驗證碼

對於爬蟲而言驗證碼是一定要經過的坎,對於網站開發而言,驗證碼有着大量生成方法,網站開發者爲了應對爬蟲以及方便用戶閱讀,都會有自己的一套方法。
這裏介紹了python PIL生成驗證碼的一種通用方法。

import random
from PIL import Image, ImageDraw, ImageFont, ImageFilter
import numpy as np

_letter_cases = "abcdefghjkmnpqrstuvwxy"  # 小寫字母,去除可能干擾的i,l,o,z
_upper_cases = _letter_cases.upper()  # 大寫字母
_numbers = ''.join(map(str, range(1, 10)))  # 數字
init_chars = ''.join((_letter_cases, _upper_cases, _numbers))


def create_validate_code(size=(160, 60),
                         chars=init_chars,
                         img_type="GIF",
                         mode="RGB",
                         bg_color=(255, 255, 255),
                         fg_color=(0, 0, 0),
                         font_size=26,
                         font_type="arial.ttf",
                         length=4,
                         draw_lines=False,
                         n_line=(1, 2),
                         draw_points=True,
                         point_chance=2):
    """
    @todo: 生成驗證碼圖片
    @param size: 圖片的大小,格式(寬,高),默認爲(120, 30)
    @param chars: 允許的字符集合,格式字符串
    @param img_type: 圖片保存的格式,默認爲GIF,可選的爲GIF,JPEG,TIFF,PNG
    @param mode: 圖片模式,默認爲RGB
    @param bg_color: 背景顏色,默認爲白色
    @param fg_color: 前景色,驗證碼字符顏色,默認爲藍色#0000FF
    @param font_size: 驗證碼字體大小
    @param font_type: 驗證碼字體,默認爲 ae_AlArabiya.ttf
    @param length: 驗證碼字符個數
    @param draw_lines: 是否劃干擾線
    @param n_lines: 干擾線的條數範圍,格式元組,默認爲(1, 2),只有draw_lines爲True時有效
    @param draw_points: 是否畫干擾點
    @param point_chance: 干擾點出現的概率,大小範圍[0, 100]
    @return: [0]: PIL Image實例
    @return: [1]: 驗證碼圖片中的字符串
    """

    width, height = size  # 寬高
    # 創建圖形
    img = Image.new(mode, size, bg_color)
    draw = ImageDraw.Draw(img)  # 創建畫筆

    def get_chars():
        """生成給定長度的字符串,返回列表格式"""
        return random.sample(chars, length)

    def create_lines():
        """繪製干擾線"""
        line_num = random.randint(*n_line)  # 干擾線條數

        for i in range(line_num):
            # 起始點
            begin = (random.randint(0, size[0]), random.randint(0, size[1]))
            # 結束點
            end = (random.randint(0, size[0]), random.randint(0, size[1]))
            draw.line([begin, end], fill=(0, 0, 0))

    def create_points():
        """繪製干擾點"""
        chance = min(100, max(0, int(point_chance)))  # 大小限制在[0, 100]

        for w in range(width):
            for h in range(height):
                tmp = random.randint(0, 100)
                if tmp > 100 - chance:
                    draw.point((w, h), fill=(0, 0, 0))

    def create_strs():
        """繪製驗證碼字符"""
        c_chars = get_chars()
        strs = ' %s ' % ' '.join(c_chars)  # 每個字符前後以空格隔開

        font = ImageFont.truetype(font_type, font_size)
        font_width, font_height = font.getsize(strs)

        draw.text(((width - font_width) / 3, (height - font_height) / 3),
                  strs, font=font, fill=fg_color)

        return ''.join(c_chars)

    if draw_lines:
        create_lines()
    if draw_points:
        create_points()
    strs = create_strs()

    # 圖形扭曲參數
    params = [1 - float(random.randint(1, 2)) / 100,
              0,
              0,
              0,
              1 - float(random.randint(1, 10)) / 100,
              float(random.randint(1, 2)) / 500,
              0.001,
              float(random.randint(1, 2)) / 500
              ]
    img = img.transform(size, Image.PERSPECTIVE, params)  # 創建扭曲

    img = img.filter(ImageFilter.EDGE_ENHANCE_MORE)  # 濾鏡,邊界加強(閾值更大)
	#保存爲該驗證碼名字的jpg
    img.save('./img/' + strs + '.jpg')
    img = np.array(img)
    return strs, img

if __name__ == '__main__':
    t, im = create_validate_code()
    print(t, im.shape)      # (35, 120, 3)

當然對於爬蟲而言,更加樂於找各個網站的驗證碼。

from selenium import webdriver
from PIL import Image


url = '登陸或者註冊頁面'
options = webdriver.ChromeOptions()
# 設置爲開發者模式,防止被各大網站識別出來使用了Selenium
options.add_experimental_option('excludeSwitches', ['enable-automation'])
# 打開無頭化
options.add_argument('--headless')
browser = webdriver.Chrome(executable_path="chromedriver.exe路徑", options=options)

# 打開網頁
browser.get(url)

element = browser.find_element_by_xpath('//*[@id="checkCode"]')    #找到驗證碼圖片
print(element.location)                # 打印元素座標
print(element.size)                    # 打印元素大小
left = element.location['x']
top = element.location['y']
right = element.location['x'] + element.size['width']
bottom = element.location['y'] + element.size['height']

for i in range(10):
    browser.save_screenshot('./img/'+ str(i) +'.png')
    im = Image.open('./img/'+ str(i) +'.png')
    im = im.crop((left, top, right, bottom))
    im.save('./img/'+ str(i) +'.png')                          # 將得到的圖片保存在本地
    browser.refresh()

browser.close()

利用selenium可以很方便的獲取驗證碼圖片,如果想要大量的話就利用循環刷新瀏覽器,裏面加上隨機時間sleep

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章