AWS的EC2上構建一個爬蟲

原創

2020-06-12 20:42

第一章，創建一個EC2實例

首先需要註冊一個AWS的賬號，在賬號的服務中找到EC2。

可以看到我們的賬號裏面目前是沒有實例的。點擊橘黃色按鈕【啓動實例】

第一步，選擇操作系統，本人選擇Amazon Linux。點擊【下一步】

但是這個並不重要，選擇什麼操作系統都可以。只要你熟悉相應的操作系統就好。

第二步，選擇操作系統，本人選擇免費的那個，當然，這個配置也很低。土豪隨意。點擊【下一步】

第三四五步保持默認，全部點擊下一步。

到第六步。分配安全組，這裏面只有我一個用戶，因此就選現有的安全組就好了。點擊【審覈和啓動】。

第七步點擊啓動，會彈出對話框。

這裏面如果之前沒有創建過，可以先創建一個。密鑰名稱按照自己的想法輸入一個就好了。然後把密鑰的文件保存好。

成功

第二章，與EC2實例通信

本地的系統與EC2通信是需要SSH的。如果是MAC系統那麼可以直接通過命令行來搞就行了。如果是windows建議還是搞個工具，比如MobaXterm。

完成安裝後打開。

其中DNS如下圖所示。

在然後就會發現，咦，怎麼連不上呢？？？？？？？？？？？

我們去看看安全組的規則，驗證是否有允許流量從您的計算機到端口 22 (SSH) 的規則。

點擊後面的【default】

可以看到，這裏面的來源需要更改一下，點擊編輯，可以根據自己的需求來設定。比如設置成【我的IP】,那就會自動獲取你的IP，然後點擊保存。個人認爲設置成【任何位置】也是可以的。

然後在去重新連接

第三章，環境部署

首先看一下實例的類型是32位還是64位，

1.安裝Miniconda。

由於本人的工程是python3完成的，因此，選擇如圖所以

將下載好的文件傳入EC2

執行

bash Miniconda3-latest-Linux-x86_64.sh

然後將conda添加到環境變量

export PATH=~/miniconda3/bin:$PATH

輸入

conda list 測試一下是否安裝成功，如果有正常的一堆輸出那就是安裝好了。

2.開始安裝python的相關的環境，此處環境就需要自己配置了，本人用到的幾個常用的包。


conda create -n scrapy python=3.7.5

conda install scrapy

conda install beautifulsoup4

conda install lxml

conda install selenium

先安裝chrom。3.如果用到了webdriver的也要安裝webdriver。


wget https://dl.google.com/linux/direct/google-chrome-stable_current_x86_64.rpm

sudo yum install google-chrome-stable_current_x86_64.rpm

google-chrome-stable -version

查看version，找到與之對應的webdriver

http://chromedriver.storage.googleapis.com/index.html

將driver也拷貝到ec2中，記得將driver與自己的爬蟲結合起來

4.將工程拷貝到虛擬機的目錄下面。運行就可以了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

AWS的EC2上構建一個爬蟲

第一章，創建一個EC2實例

第二章，與EC2實例通信

第三章，環境部署

python gdal 安裝使用（Windows， python 3.6.8）

AWS DataPipline 的一次嘗試。

2020年聯通軟件研究院校招筆試第一題

2020年美團春招技術綜合試卷第一題

IOS開發入門環境搭建輸出helloworld

中國移動研究院2020春招技術綜合JAVA在線編程題第二題

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結