爬取csdn博主文章

原創

2020-07-01 21:48

#!/usr/bin/env python
import re
import requests
import os
import sys
from lxml import etree
headers = {
    "User-Agent":
    "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.106 Safari/537.36"
}
# 傳遞的非單個博客地址，而是博客列表
url = "https://blog.csdn.net/maqingqing1992"
html = requests.get(url, headers=headers, verify=False).text
nodes = etree.HTML(html)
tag_a = nodes.xpath('//p//a')
#文章摘要
digest_dic = []
url_dic1 = []
url_dic = []
for i in tag_a:
    res = etree.tostring(i, method='text', encoding='utf-8').decode('utf-8')
    digest_dic.append(res)
    url_dic1.append(str(i.attrib))
for i in url_dic1:
    url_dic.append(re.findall(u'https://.*\d', i))
fo = open("a.txt", "w")
for i in url_dic:
    fo.write(i[0] + "\n")
fo.close()

只是爬取了文章的url，沒有進一步利用。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

Apache DolphinScheduler 4月簡報：社區發展與技術革新速遞

各位熱愛 DolphinScheduler 的小夥伴們，4 月份的 DolphinScheduler 社區月報更新啦！這裏將記錄 DolphinScheduler 社區每月的重要更新，歡迎關注！月度 Merge 之星感謝以下小夥伴 4

2024-05-08 21:19:32

華爲雲開發者桌面全新發布CodeArts IDE for Python，極致優雅雲原生開發體驗

本文分享自華爲雲社區《華爲雲發佈CodeArts IDE for Python，極致優雅雲原生開發體驗》，作者：華爲雲頭條。近日，華爲雲正式發佈CodeArts IDE for Python，這是一款內置華爲自主創新的Python語

2024-05-08 10:34:25

Python 爬蟲：Spring Boot 反爬蟲的成功案例

前言在當今數字化時代，網絡數據成爲了信息獲取和分析的重要來源之一。然而，隨着網絡數據的廣泛應用，爬蟲技術也逐漸成爲了互聯網行業的熱門話題。爬蟲技術的應用不僅可以幫助企業獲取有價值的信息，還可以用於數據分析、市場研究等領域。然而，隨着爬

2024-05-07 23:26:04

開發者分享：利用 EMQX Cloud 與 ESP32 微控制器實現智能液冷散熱系統

作者：陶德坤，EMQX Cloud 開發者。作爲一名後端開發人員，我經常需要同時運行多個 Jetbrains IDE （集成開發環境），所以經常面臨筆記本電腦過熱問題。我曾嘗試過各種散熱方法，從傳統的風扇到更先進的半導體冷卻系統，但這些

2024-05-07 21:55:53

我們團隊來了一位新同事，主動要求幫忙敲代碼！歡迎 AI 001號

通義靈碼｜7X24的AI智能編程助手工號：AI001 他叫通義靈碼，一個硅基生命。出生在0101星球，沒有性別，但有人格類型。他是INTJ，建築師型人格，艾薩克·牛頓和甘道夫同款。他會寫一點代碼，但不如我們會得多。我看了下他的簡歷，

2024-05-07 21:12:06

頻繁FullGC線上問題排查

一、問題近期頻繁收到關於FullGC的告警二、基礎知識介紹 2.1 Java內存結構目前系統使用的是ParNewGC、CMS垃圾回收，此時的1.8JDK內存模型如下：注意大對象可以直接放到老年代中，可以通過-XX:Pretenur

2024-05-06 23:55:18

我在下載模塊的時候下不下來出現這種情況是什麼意思？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python庫下載失敗的問題。問題如下：我在下載模塊的時候下不下來出現這種情況是什麼意思？二、實現過程這裏【莫生氣】給了一個指導：執行那

2024-05-06 21:49:13

[oeasy]python0015_鍵盤改造_將esc和capslock對調_hjkl_移動_雙手正位

鍵盤改造 🥋 回憶上次內容上次練習了複製粘貼按鍵作用 <kb

2024-05-06 11:45:36

教你用Perl實現Smgp協議

本文分享自華爲雲社區《華爲雲短信服務教你用Perl實現Smgp協議》，作者：張儉。引言&協議概述中國電信短消息網關協議（SMGP）是中國網通爲實現短信業務而制定的一種通信協議，全稱叫做Short Message Gateway Pro

2024-05-06 10:32:43

有遇到過嗎？同樣的規則 Excel 中比Python 結果大

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【Jethro Shen】問了一個Python處理Excel數據讀取的問題。問題如下：有遇到過嗎？同樣的規則 Excel 中比Python 結果大？二、實

2024-05-01 09:49:01

這種運行結果裏的10.100000001，怎麼能最快改成10.1？

大家好，我是Python進階者。一、前言前幾天在Python白銀交流羣【無敵劈叉小狗】問了一個Python基礎的問題。問題如下：這種運行結果裏的10.100000001，怎麼能最快改成10.1，所有結果都最多一位小數。二、實現過程

2024-04-30 21:49:58

通義靈碼實戰系列：一個新項目如何快速啓動，如何維護遺留系統代碼庫？

作者：別象進入 2024 年，AI 熱度持續上升，翻閱科技區的文章，AI 可謂是軍書十二卷，卷卷有爺名。而麥肯錫最近的研究報告顯示，軟件工程是 AI 影響最大的領域之一，AI 已經成爲了軟件工程的必選項，也有研究稱開發者每天的事務性工作可

2024-04-30 21:12:20

Apache DolphinScheduler支持Flink嗎？

隨着大數據技術的快速發展，很多企業開始將Flink引入到生產環境中，以滿足日益複雜的數據處理需求。而作爲一款企業級的數據調度平臺，Apache DolphinScheduler也跟上了時代步伐，推出了對Flink任務類型的支持。 Flink

2024-04-30 11:49:27

從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南

本文分享自華爲雲社區《從原始邊列表到鄰接矩陣Python實現圖數據處理的完整指南》，作者：檸檬味擁抱。在圖論和網絡分析中，圖是一種非常重要的數據結構，它由節點（或頂點）和連接這些節點的邊組成。在Python中，我們可以使用鄰接矩陣來表示

2024-04-30 10:34:05

Python爬蟲技術與數據可視化：Numpy、pandas、Matplotlib的黃金組合

前言在當今信息爆炸的時代，數據已成爲企業決策和發展的關鍵。而互聯網作爲信息的主要來源，網頁中蘊含着大量的數據等待被挖掘。Python爬蟲技術和數據可視化工具的結合，爲我們提供了一個強大的工具箱，可以幫助我們從網絡中抓取數據，並將其可視

2024-04-29 23:26:28

24小時熱門文章

最新文章

最新評論文章