爬蟲入門三——爬取貼吧

原創

2019-04-28 03:02

需求：輸入吧名，輸入起始頁碼，輸入結束頁碼，然後再當前文件夾中創建一個以吧名爲名字的文件夾，裏面是每一頁的html內容，文件名是吧名_page.html

import urllib.request
import urllib.parse
import os
url = 'http://tieba.baidu.com/f?ie=utf-8'
ba_name = input('請輸入吧名：')
start_page = int(input('請輸入要爬去的起始頁碼'))
end_page = int(input('請輸入要爬去的結束頁碼：'))
#創建文件夾
os.mkdir(ba_name)
if not os.path.exists(ba_name):
    os.mkdir(ba_name)
#一次爬去每一頁數據
for page in range(start_page,end_page  + 1):
    # page就是當前頁
    #拼接url的過程
    data ={
        'kw': ba_name,
        'pn':(page - 1)*50
    }
    data = urllib.parse.urlencode(data)
    #生成指定的url
    url_t = url + data
    #print(url_t)
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.108 Safari/537.36'
    }
    request = urllib.request.Request(url=url_t,headers=headers)
    print('第%s頁開始下載...' % page)
    response = urllib.request.urlopen(request)
    #生成文件名
    filename = ba_name + '_' + str(page) + '.html'
    #拼接文件路徑
    filepath = ba_name + '/' + filename
    #寫內容
    with open(filepath,'wb') as  fp:
        fp.write(response.read())
    print('第%s頁結束下載...' % page)

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

TS + Webpack 整合 Jest

安裝 Jest 和相關依賴首先，安裝 Jest 和 TypeScript 的 Jest 預處理器ts-jest以及類型定義文件。 npm install --save-dev jest ts-jest @types/jest 初

Higurashi-kagome

2024-05-31 14:33:27

安卓手機如何登錄抖音境外版

If you remove the SIM card and use ss to mask your location, you might be able to register and log in to TikTok using yo

2024-05-31 14:31:17

嵌入式汽車電子學習路線

Learning embedded systems efficiently, especially for car manufacturing applications, involves a blend of hardware and s

2024-05-31 14:31:17

Aspire項目發佈到win11本地k8s集羣

前提你必須會創建aspire項目，不會的請先看微服務新體驗之Aspire初體驗 Aspirate (Aspir8) Aspirate 是將aspire項目發佈到k8s集羣的工具安裝aspirate dotnet tool install

2024-05-31 14:30:37

Langchain試用百度千帆

之前聊了向量數據庫，大模型也火了一段時間了，今天特地嘗試一下基於Langchain進行百度千帆大模型的使用。Langchain相當於一個LLM編程框架，開發中無需過多關心各個大模型的接入，只需安裝相關模型，統一通過Langchain去調用相

人不瘋狂枉一生

2024-05-31 14:28:26

分享5款.NET開源免費的Redis客戶端組件庫

前言今天大姚給大家分享5款.NET開源、免費的Redis客戶端組件庫，希望可以幫助到有需要的同學。 StackExchange.Redis StackExchange.Redis是一個基於.NET的高性能Redis客戶端，提供了完整的Re

2024-05-31 14:27:26

golang開發 gorilla websocket的使用

很多APP都需要主動向用戶推送消息，這就需要用到長連接的服務，即我們通常提到的websocket，同樣也是使用socket服務，通信協議是基本類似的，在go中用的最多的、也是最簡單的socket服務就是gorilla/websocket，

2024-05-31 14:27:06

netstat -ano |findstr 6379 查看redis佔用的臨時端口及迴環地址

netstat -ano |findstr 6379

2024-05-31 14:26:56

脣炎的治療

b2, 然後去口腔醫院開藥, 開的一個消毒的水,滴幾滴跟伊曲康唑碾碎了,弄成糊,塗嘴上, 過十分鐘會幹硬, 之後塗上黃黴素眼藥膏. 兩天效果就很好了.

張博的博客

2024-05-31 14:25:26

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

線程池的拒絕策略有哪些？如果當前同時運行的線程數量達到最大線程數量並且隊列也已經被放滿了任務時，ThreadPoolExecutor 定義一些策略: ThreadPoolExecutor.AbortPolicy：拋出 RejectedE

2024-05-31 14:24:36

（一）C#窗體應用程序打包發佈安裝到桌面全過程

一、首先安裝好VS2022(可以參考如下安裝教程），其次在裏面擴展添加Visual Studio Installer Projects 1.VS2022安裝教程參考：VisualStudio2022下載安裝與使用超詳細教程 - 編程寶庫 (

代號六零一

2024-05-31 14:22:46

記一次 .NET某工業設計軟件崩潰分析

一：背景 1. 講故事前些天有位朋友找到我，說他的軟件在客戶那邊不知道什麼原因崩掉了，從windows事件日誌看崩潰在 clr 裏，讓我能否幫忙定位下，dump 也抓到了，既然dump有了，接下來就上 windbg 分析吧。二：WinD

2024-05-31 14:21:16

Mac卸載 Node npm，升級 Node

jimmy@MacBook-Pro ~ % brew -v Homebrew 4.0.15-84-g9d5b017 Homebrew/homebrew-core (git revision c04886e1f63; last commit

2024-05-31 14:20:35

Chrom 如何禁用JS

想複製網頁上的文字，彈出需要登錄等，很煩人。打開開發者工具按F12打開瀏覽器操作打開禁用JS 運行命令按 Ctrl+Shift+P 或者如下圖，鼠標點擊，調出命令運行窗口在運行窗口中輸入 JavaScript 點擊停用

2024-05-31 14:20:35

創建 Vue3 項目

前提條件安裝 Nodejs 下載：https://nodejs.org/en/download/prebuilt-installer 切換 npm 源 npm config set registry https://registry.np

2024-05-31 14:20:35

24小時熱門文章

最新文章

最新評論文章