原创 scrapy學習之路(五)一種實現登陸爬取的方案:selenium

     很多網站是需要登陸的,並且有自己的登錄邏輯,通過selenium可以實現模擬網站登錄以及事件的點擊,是一種比較難攔截的爬蟲方案。   先決條件:     (1)首先需要引入selenium和requests類,在requirem

原创 scrapy學習之路(一)運行環境搭建

以mac os爲例: (1)安裝Python 3        下載https://www.python.org/downloads/release/python-364/ 安裝即可   (2) 安裝pip依賴        https:

原创 scrapy學習之路(八)網頁解析:BeautifulSoup

scrapy通過selenium獲取到網頁以後,爲了獲取數據,我們需要對網頁進行解析,BeautifulSoup是一種比較好用的頁面解析工具。 (一) 安裝beautifulsoup4      pip install beautiful

原创 scrapy學習之路(四)給scrapy一個爬取目標

運行環境和開發環境搭建好了,scrapy的基本運行流程也有了基本瞭解以後,我們會有個疑問?如何讓schedule組件知道我需要爬取的網站的網址了?我們需做的是給scrapy一個爬取的目標。 使用vscode打開創建的工程(工程創建方法:h

原创 csr crt key pem

csr:請求證書的證書 crt pem:公鑰 key:私鑰   crt裝pem: openssl x509 -in mycert.crt -out mycert.pem -outform PEM

原创 scrapy學習之路(七)selenium獲取網頁中的圖片或多媒體信息

方案是通過DesiredCapabilities設置prefs通過頁面的加載日誌來獲取,依然在DownloaderMiddleware中實現: (1)webdriver設置perfs: prefs = { "profile.managed

原创 scrapy學習之路(六)selenium 模擬下拉加載

很多網頁,有下拉加載或者懶加載的功能,如何爬取這類網站呢? 還是通過selenium模擬人工操作來實現,這裏以下拉加載爲例介紹,依然在DownloaderMiddleware中實現該功能,具體代碼如下: 在process_request方

原创 kafka學習之路(一)docker安裝kafka

kafka依賴於zookeeper,所以安裝kafka需要對應的安裝zookeeper 這裏採用wurstmeister/kafka和wurstmeister/zookeeper這兩個鏡像。 (1)下拉鏡像:   docker pull

原创 scrapy學習之路(二)開發環境搭建

本文以vscode爲例,搭建scrapy開發環境。 首先安裝https://blog.csdn.net/huyongchao98/article/details/103909153需要搭建運行環境,並且創建出了自己的工程。 使用vscod

原创 阿里雲centos 7下kubeadm方式安裝kubernetes 1.14.1集羣(包含解決牆以及各種坑的問題)

(一)所有節點(master和worker node)都執行的命令 1.關閉系統swap功能,否則kubernetes無法正常啓動 swapoff -a free -h命令 swap空間爲0時關閉成功  2.升級系統: sudo y

原创 Java中獲取路徑的各種方法

1、 java文件中獲得路徑 Thread.currentThread().getContextClassLoader().getResource("") //獲得資源文件(.class文件)所在路徑 ClassLoader.g

原创 Objective-C中nil使用的最佳實踐

沒有必要將nil作爲初始值賦給變量 1 NSString *myString = nil; 上面的代碼與不帶nil效果相同,所以讓我們保持簡潔: 1 NSString *myString;

原创 MACBOOK PRO 鍵盤符號對應表

Mac OS 上的快捷鍵都是用符號加字母標註的。剛接觸Mac系統時對那些符號經常會搞不清那些符號對應的哪個鍵。 (Command 鍵) – 在某些 Apple 鍵盤上,此鍵也可能帶有 Apple 標誌()(Control 鍵)(

原创 【Mongodb】用戶和認證 權限總結

   開啓MongoDB服務時不添加任何參數時,默認是沒有權限驗證的,登錄的用戶可以對數據庫任意操作而且可以遠程訪問數據庫!    在剛安裝完畢的時候MongoDB都默認有一個admin數據庫,此時admin數據庫是空的,沒有記錄權限相關