原创 Python爬蟲Requests模塊系列之六

1,概述 Requests: 讓 HTTP 服務人類 雖然Python的標準庫中 urllib2 模塊已經包含了平常我們使用的大多數功能,但是它的 API 使用起來讓人感覺不太好,而 Requests 自稱 “HTTP for H

原创 Django+Jquery+Ajax+驗證碼登錄案例系列之十二

1,創建項目test04 2,創建應用app爲booktest 3,註冊應用booktest 作用讓創建的應用運行起來 4,在項目根目錄下創建模板templates目錄 作用就是存放html文件 在項目的sett

原创 Python爬蟲簡述系列之一

1,簡單分類 根據使用場景,網絡爬蟲可分爲 通用爬蟲 和 聚焦爬蟲 兩種. 2,通用爬蟲 通用網絡爬蟲 是 捜索引擎抓取系統(Baidu、Google、Yahoo等)的重要組成部分。主要目的是將互聯網上的網頁下載到本地,形成一個互

原创 Python爬蟲BeautifulSoup4系列之十

1,概述 和 lxml 一樣,Beautiful Soup 也是一個HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 數據。 lxml 只會局部遍歷,而Beautiful Soup 是基於HTML DOM的

原创 Django反向解析系列之十三

1,定義: 隨着功能的增加會出現更多的視圖,可能之前配置的正則表達式不夠準確,於是就要修改正則表達式,但是正則表達式一旦修改了,之前所有對應的超鏈接都要修改,真是一件麻煩的事情,而且可能還會漏掉一些超鏈接忘記修改,有辦法讓鏈接根

原创 Django中模型查詢系列之十五

1,定義屬性 Django根據屬性的類型確定以下信息: 當前選擇的數據庫支持字段的類型 渲染管理表單時使用的默認html控件 在管理站點最低限度的驗證 django會爲表創建自動增長的主鍵列,每個模型只能有一個主鍵列,如果使用

原创 Django中中間件系列之十四

1,定義 Django中的中間件是一個輕量級、底層的插件系統,可以介入Django的請求和響應處理過程,修改Django的輸入或輸出。中間件的設計爲開發者提供了一種無侵入式的開發方式,增強了Django框架的健壯性,其它的MVC

原创 Python爬蟲Handler處理器 和 自定義Opener系列之四

1,概述 opener是 urllib.request.OpenerDirector 的實例,我們之前一直都在使用的urlopen,它是一個特殊的opener(也就是模塊幫我們構建好的)。 但是基本的urlopen()方法不支持代

原创 Django安裝mysql-python驅動系列之八

1,環境說明如下: Django1.8.2版本 Python3.5版本 MySql 5.7版本 2,錯誤出現如下: 3,解決辦法 python3.XX以後使用小寫的configparser,改爲首字母大寫即可 4,查看當

原创 Python爬蟲請求與響應過程系列之二

1,DNS概述 DNS 是計算機域名系統 (Domain Name System 或Domain Name Service) 的縮寫,由解析器和域名服務器組成的。 域名服務器是指保存有該網絡中所有主機的域名和對應IP地址,並具有將

原创 Django中admin後臺管理常用設置系列之十六

定義 內容發佈的部分由網站的管理員負責查看、添加、修改、刪除數據,開發這些重複的功能是一件單調乏味、缺乏創造力的工作,爲此,Django能夠根據定義的模型類自動地生成管理模塊 在Django項目中默認啓用Admin管理站點

原创 Python爬蟲正則表達式和re模塊系列之七

1,概述 給定一個正則表達式和另一個字符串,我們可以達到如下的目的: 1,給定的字符串是否符合正則表達式的過濾邏輯(“匹配”); 2,通過正則表達式,從文本字符串中獲取我們想要的特定部分(“過濾”)。 2,正則表達式匹配規則

原创 Python爬蟲json和JsonPath系列之十一

1,json中四個重要的方法 Json結構清晰,可讀性高,複雜度低,非常容易匹配。 1. json.loads() 把Json格式字符串解碼轉換成Python對象 從json到python的類型轉化對照如下: 2. json

原创 Django連接mysql出問題系列之九

1,環境說明 Django1.8.2版本 Python3.5版本 MySql 5.7版本 2,mysql配置說明 3,問題 說什麼語法錯誤,這不是坑嘛 4,查看指定的源碼地方 找出原因是cursor爲空,所以報錯了

原创 Python爬蟲爬取內涵吧段子案例系列之八

不多說,直接上代碼 # 爬取內涵吧段子的案例 import re import requests class Duanzi(object): def __init__(self): self.baseUR