北理工嵩天Python網絡爬蟲與信息提取MOOC 測驗4: Python網絡爬蟲之框架 (第4周)

Python網絡爬蟲與信息提取MOOC 測驗4: Python網絡爬蟲之框架 (第4周)

1、下面哪個不是“網絡爬蟲與信息提取”相關的技術路線?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、bs4-re

B、scrapy-bs4

C、requests-bs4-re

D、requests-re

正確答案: A 

技術路線至少包含一個爬蟲庫和一個解析庫,bs4和re都是解析庫。

2、Requests庫的方法與HTTP協議請求方法對應,下面哪個不是Requests庫的對應方法?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A.push()

B.get()

C.put()

D.patch()

正確答案: A 

3、判斷一個網絡爬蟲應用可行性的最主要因素是什麼?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、技術路線選取

B、Robots協議是否有允許

C、部署代價和經濟成本

D、網頁條件,即儘量沒有JavaScript腳本產生的數據

正確答案: B 

Robots協議允許是爬蟲能夠實施的首要條件。

4、下面哪個不是網絡爬蟲可能引發的問題?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、網絡攻防對抗

B、法律風險

C、隱私泄露

D、性能騷擾

正確答案: A 

爬蟲不會造成網絡攻防對抗,被爬取服務器可能會被爬蟲攻擊,但沒有對抗。

5、以下不是Scrapy框架組成模塊的是:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、Spiders

B、Engine

C、Blocklist

D、Downloader

正確答案: C 

Scrapy具有5+2結構,其中,5個模塊分別是:Engine、Spiders、Scheduler、Downloader和Item Pipelines。

6、在scrapy框架中,數據流最初始的請求來自於:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、Scheduler

B、Engine

C、Downloader

D、Spiders

正確答案: D 

Spiders模塊給出了Scrapy爬蟲最初始的請求

7、在Scrapy框架中,以下不是數據流所承載數據元素的是:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、REQUESTS

B、URLS

C、RESPONSE

D、ITEMS

正確答案: B 

Scrapy中使用REQUESTS表達URL,因此,URL不是其直接承載的元素。

8、在Scrapy框架中,請求從Spider模塊發出後,被Engine發送到:‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、丟棄

B、Scheduler

C、Downloader

D、ITEM Pipeline

正確答案: B 

Spider->Engine->Scheduler,注意,Spider請求不直接到Downloader模塊。

9、在Scrapy框架中,Downloader爬取頁面內容後,結果經Engine發送到哪個模塊?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、丟棄

B、ITEM Pipelines

C、Spiders

D、Scheduler

正確答案: C 

Downloader->Engine->Spiders路徑。

10、在Scrapy框架中,Spiders模塊產生的HTML分析結果經Engine模塊發送給哪個模塊?‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、Item Pipelines和Scheduler

B、Item Pipelines

C、Downloader

D、Scheduler

正確答案: A 

Spiders->Engine->(ITEMS) Item Pipelines

                        ->(REQUESTS) Scheduler

根據不同類型的結果,有兩個路徑。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章