原创 2020年最新微博相關數據API+一站式獲取個人微博信息+套娃、批量式獲取微博用戶信息

本此爬蟲採取scrapy框架進行編寫。 一站式獲取個人微博信息1. 梳理爬蟲目的和思路1.1 爬蟲的目的1.2 爬蟲的思路2. 分析網頁源碼2.1 分析博主信息網頁2.2 分析關注列表界面2.3 粉絲列表頁面分析2.4 微博博文頁

原创 純粹的資源管理調度框架YARN整體剖析(課本知識複習)

YARN1. MapReduce1.0框架的設計缺陷2. YARN的設計思路3. YARN體系結構3.1 結構組件總覽3.2 三大組件的功能3.2.1 組件功能詳解1. ResourceManager功能2. Applicatio

原创 使用CrawlSpider半通用化、框架式、批量請求“鏈家網”西安100頁租房網頁(兩種方法實現rules的跟進和幾個xpath分享)

csdn上已經有很多的關於CrawlSpider框架的講解,以及其主要的使用方法,其整體的數據流向和Spider框架的數據流向是大體一樣的,因爲CrawlSpider是繼承自Spider的類,Spider框架的介紹我在之前的博文中

原创 簡單!直接!粗暴!分三步!批量爬取學習強國頁面下的學習視頻(.mp4結尾)

幫老同學一個小忙,鞏固練習request,selenium,xpath,批量下載.mp4結尾的視頻鏈接,直接上代碼和思路。 批量爬取學習強國頁面下的學習視頻1. 目標網址url2. 明確爬蟲目的,分析目標網頁,梳理爬蟲思路2.1

原创 Python——requests庫的高級用法

Python——requests庫的高級用法 導入庫,直接介紹方法: import requests 上傳文件 #上傳文件,用到的參數 files url = '' files = {'file':'文件的路徑'} #或

原创 Pyecharts V1全新版本超詳細使用教程——Pie(餅圖的使用)

Pyecharts V1全新版本超詳細使用教程——Pie(餅圖的使用) 之前鼓搗了柱狀圖,現在我來鼓搗餅圖啦! 以下內容均來自Pyecharts官方使用文檔和自己的理解琢磨。(在柱狀圖的博文中已經給出官方文檔的地址) 首先來看官方

原创 富貴和你一起復習Python(第01篇)— python基礎知識

現在的我已經可以熟練的掌握簡單基本的Python爬蟲,包括靜態頁面,動態加載數據,多線程編寫爬蟲等,感興趣的兄弟可以翻閱我以前的博文,希望我的分享可以幫到你。但我總感覺自己的基礎還是很不紮實,這個博文開始我將以我大二下python

原创 富貴和你一起復習Python(第02篇) — 列表(看過不後悔系列)

繼續複習Python,今日複習——列表,中間會有自己的心得體會,要是有什麼錯誤或者補充可直接評論或者私信喲。 列表1. 簡說列表2. 列表對象的常用方法2.1 列表的創建與刪除(含range函數的使用方法)2.2 列表元素的增加2

原创 Selenium如何點擊標籤直接跳轉網頁

這次白嫖一次博客吧,分享一個簡單的 最近在使用Selenium爬取學校官網自己大學三年每年的成績的時候,遇到了一個問題,就是如何點擊 a 標籤直接跳轉網頁,原來自己的解決辦法是,拿到 a 標籤當中的鏈接屬性,構造新的鏈接進行跳轉,

原创 Hadoop的優化與發展+HDFS(2.0)新特性

Hadoop的優化與發展1. Hadoop(1.0)的侷限與不足2. 針對其1.0版本的不足改進和提升2.1 Hadoop框架自身的改進和提升2.2 Hadoop生態系統的完善3. HDFS2.03.1 HDFS HA3.1.1

原创 kafka原理解析(適合跟我一樣從來爲了解過的小白進行了解)

官網:http://kafka.apache.org kafka原理解析1. 定義(簡單瞭解kafka)2. 於Flume進行比較3. kafka架構4. 消息存儲和生產消費模型5. kafka的消息構成 1. 定義(簡單瞭解ka

原创 Scrapy對接Selenium(說明在哪裏進行對接爲什麼在這裏):小豬短租網實戰分析

在沒有系統學習框架進行爬蟲的時候,已經可以使用selenium對動態渲染的網頁和Ajax加載數據的網頁進行爬取,但代碼的整體邏輯在於自己對於方法的認識編寫和使用,沒有很強的邏輯框架性,在自學Scrapy框架的時候也學到對於Sele

原创 Scrapy報錯之:Request object has no attribute dont_filter

記錄每一個遇到的問題的解決方法。 最近在自學框架 Scrapy ,在重寫 start_requests() 方法的時候,可能會遇到以下的問題: 在導入 Request 包的時候,很多小夥伴可能和我一樣看都不看直接選第一個自動導

原创 Scrapy抓站:大批量下載360指定專題下的照片並保存到sql和本地文件夾下

目標網站:http://images.so.com/ (攝影專欄) Scrapy抓站:360照片1. 新建項目2. 新建Spider3. 分析目標網站的種種4. 構造請求5. 定義提取信息的字段6. 編寫 Spider 方法

原创 Scrapy項目運行數據流總覽 AND 幾個重要的組件、中間件分析

以下的內容均爲自己看書自學的分享,加深自己對於Scrapy的整體框架的理解。 Scrapy分析1. 數據流總覽圖1.1 Scrapy整體框架圖和數據流總覽2. 重要的組件和中間件分析2.1 Spider2.1.1 Spider運行