爬蟲學習

原創

2020-02-25 19:20

入門：urllib庫學習

#從urllib中導入request
from urllib import request
#如果因爲是https需要ssl證書驗證發生錯誤的，需要導入ssl庫以及下面的代碼
import ssl
ssl._create_default_https_context = ssl._create_default_https_context

url = ‘http://www.baidu.com’
#使用urlopen爬取網頁
headers = {
‘User-Agent’:‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.70 Safari/537.36’
}
resp = request.urlopen(url)
#resp.read()閱讀到的是編碼過的內容，需要decode（）對中文及符號進行解碼才能看懂
print(resp.read().decode())

#urlretrieve直接保存爬取到的url內容
request.urlretrieve(url,‘baidu.html’)

#代理實現
#1、使用proxyhandler傳入代理，構建一個handler
#可以從一些免費的代理網站找代理，例如快代理等
handler = request.ProxyHandler({‘http’:‘106.14.58.95：8083’})
#2、使用handler構建一個opener，其實urlopen底層調用的也是opener的方法
opener = request.build_opener(handler)
#3、使用opener去發送請求，這個相當於就是urlopen的底層
resp = opener.open(url)
print(resp.read().decode())

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

探祕Python爬蟲技術：王者榮耀英雄圖片爬取

項目需求作爲一款風靡全球的MOBA遊戲，《王者榮耀》擁有衆多精美絕倫的英雄角色。玩家們對於自己心愛的英雄角色總是充滿着熱情和好奇。他們渴望收集自己喜歡的英雄的圖片，用於做壁紙、頭像或者分享給朋友。然而，要手動一張一張地下載這些圖片實

2024-04-19 23:26:23

使用urllib和BeautifulSoup解析網頁中的視頻鏈接

一、概述在當今數字化社會中，視頻內容已經成爲互聯網上最受歡迎的形式之一。而抖音作爲全球領先的短視頻平臺，每天都有數以億計的用戶在其中分享各種各樣的視頻內容。對於開發者來說，獲取抖音視頻鏈接並進行進一步的處理和分析是一項有趣且具有挑戰性

2024-04-15 23:27:55

寫給職場新人｜從迷茫到屢獲殊榮的技術人成長之路

在這個時代，技術的每一次飛躍都在重塑我們的工作方式。借Up技術人專欄活動寫了這篇文章，回望一下我和計算機打交道的這幾年，希望能給學生或職場新人們一些幫助。 1.錨定方向：學生生涯的一次探險如果用一個詞語概括我的本科階段，那大概就

2024-04-19 23:17:23

AI從入門到入門之手寫數字識別模型java方式Dense全連接神經網絡實現

前言：授人以魚不如授人以漁.先學會用，在學原理，在學創造，可能一輩子用不到這種能力，但是不能不具備這種能力。這篇文章主要是介紹算法入門Helloword之手寫圖片識別模型java中如何實現以及部分解釋。目前大家對於人工智能-機器學習-神經網

2024-04-19 23:17:21

手動給docusaurus添加一個搜索

新版博客用docusaurus重構已經有些日子了，根據docusaurus的文檔上也申請了Algolia,想一勞永逸的解決博客的搜索問題。但是流水有意，落花無情。 algolia總是不給我回復，我只能對着algolia的申請頁面仰天長嘆。

2024-04-19 21:30:54

百度智能雲千帆AppBuilder重磅升級！工作流編排正式上線！AssistantsAPI開放邀測！

>>【v0.5.3版本】上線時間：2024/4/14 關鍵發版信息：低代碼態：新增工作流，低代碼製作組件自定義組件：支持用戶自定義創建組件，並被Agent自動編排調用工作流框架：組件支持流式編排、調試和發佈工作

2024-04-19 11:29:41

CTF中常見的四種python逆向

說在前面：什麼是pyc文件？ pyc是一種二進制文件，是由py文件經過編譯後，生成的文件，是一種byte code，py文件變成pyc文件後，加載的速度有所提高，pyc 文件是 Python 編譯過的字節碼文件。它是 Python 程

2024-04-19 10:46:19

數據結構筆記淺記（十二）雙向隊列

鏈表或數組作爲底層數據結構雙向鏈表的頭節點和尾節點視爲雙向隊列的隊首和隊尾，同時實現在兩端添加和刪除節點的功能使用環形數組來實現雙向隊列雙向隊列應用雙向隊列兼具棧與隊列的邏輯，因此它可以實現這兩者的所有應用場景，同時提供更高的自由

2024-04-18 23:39:23

數據結構筆記淺記（十一）單向隊列

「隊列 queue」是一種遵循先入先出規則的線性數據結構。顧名思義，隊列模擬了排隊現象，即新來的人不斷加入隊列尾部，而位於隊列頭部的人逐個離開。在 Python 中，我們一般將雙向隊列類 deque 當作隊列使用，雖然 queue.

2024-04-18 23:39:20

在pycharm裏邊怎麼設置代碼背景圖的？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Kim】問了一個Python問題，然後他發出來的代碼如下圖所示：可以看到代碼中有背景圖，是不是看上去蠻高大上的？那麼這個背景圖是怎麼加上去的呢？這裏給大家介紹一

2024-04-18 09:48:48

在Python中實現代理服務器的配置和使用方法

在網絡通信中，代理服務器是一種重要的網絡中間件，它可以作爲客戶端和服務器之間的中轉站，增強網絡安全性、提高訪問速度、隱藏真實IP地址等。Python作爲一種強大的編程語言，提供了豐富的庫和模塊，使得實現和配置代理服務器變得非常簡單。本文將介

2024-04-17 23:25:44

這篇 DolphinScheduler on k8s 雲原生部署實踐，值得所有大數據人看！

在當前快速發展的技術格局中，企業尋求創新解決方案來簡化運營並提高效率成爲一種趨勢。 Apache DolphinScheduler作爲一個強大的工具，允許跨分佈式系統進行復雜的工作流任務調度。本文將深入探討如何將Apache Dolphin

2024-04-17 21:18:15

Python中2種常用數據可視化庫：Bokeh和Altair

本文分享自華爲雲社區《探究數據可視化：Bokeh vs. Altair》，作者：檸檬味擁抱。在數據科學和數據分析領域，數據可視化是一種強大的工具，可以幫助我們更好地理解數據、發現模式和趨勢。Python作爲一種流行的數據科學工具，擁有多種

2024-04-17 10:33:56

五一假期暢遊指南：Python技術構建的熱門景點分析系統解讀

導言五一假期即將到來，作爲一名熱愛旅遊的技術達人，我總是希望能夠通過技術手段更好地規劃我的旅行路線。在這篇文章中，我將向大家介紹一款基於Python技術的熱門景點分析系統，幫助您在五一假期中游玩得更加盡興！ 1. 系統概述熱門景點

2024-04-16 23:25:46

Python中兩種網絡編程方式：Socket和HTTP協議

本文分享自華爲雲社區《Python網絡編程實踐從Socket到HTTP協議的探索與實現》，作者：檸檬味擁抱。在當今互聯網時代，網絡編程是程序員不可或缺的一項技能。Python作爲一種高級編程語言，提供了豐富的網絡編程庫，使得開發者能夠輕鬆

2024-04-16 10:33:01

24小時熱門文章

最新文章

最新評論文章