Python網絡爬蟲與信息提取MOOC 測驗4: Python網絡爬蟲之框架 (第4周)
1、下面哪個不是“網絡爬蟲與信息提取”相關的技術路線?
A、bs4-re
B、scrapy-bs4
C、requests-bs4-re
D、requests-re
正確答案: A
技術路線至少包含一個爬蟲庫和一個解析庫,bs4和re都是解析庫。
2、Requests庫的方法與HTTP協議請求方法對應,下面哪個不是Requests庫的對應方法?
A.push()
B.get()
C.put()
D.patch()
正確答案: A
3、判斷一個網絡爬蟲應用可行性的最主要因素是什麼?
A、技術路線選取
B、Robots協議是否有允許
C、部署代價和經濟成本
D、網頁條件,即儘量沒有JavaScript腳本產生的數據
正確答案: B
Robots協議允許是爬蟲能夠實施的首要條件。
4、下面哪個不是網絡爬蟲可能引發的問題?
A、網絡攻防對抗
B、法律風險
C、隱私泄露
D、性能騷擾
正確答案: A
爬蟲不會造成網絡攻防對抗,被爬取服務器可能會被爬蟲攻擊,但沒有對抗。
5、以下不是Scrapy框架組成模塊的是:
A、Spiders
B、Engine
C、Blocklist
D、Downloader
正確答案: C
Scrapy具有5+2結構,其中,5個模塊分別是:Engine、Spiders、Scheduler、Downloader和Item Pipelines。
6、在scrapy框架中,數據流最初始的請求來自於:
A、Scheduler
B、Engine
C、Downloader
D、Spiders
正確答案: D
Spiders模塊給出了Scrapy爬蟲最初始的請求
7、在Scrapy框架中,以下不是數據流所承載數據元素的是:
A、REQUESTS
B、URLS
C、RESPONSE
D、ITEMS
正確答案: B
Scrapy中使用REQUESTS表達URL,因此,URL不是其直接承載的元素。
8、在Scrapy框架中,請求從Spider模塊發出後,被Engine發送到:
A、丟棄
B、Scheduler
C、Downloader
D、ITEM Pipeline
正確答案: B
Spider->Engine->Scheduler,注意,Spider請求不直接到Downloader模塊。
9、在Scrapy框架中,Downloader爬取頁面內容後,結果經Engine發送到哪個模塊?
A、丟棄
B、ITEM Pipelines
C、Spiders
D、Scheduler
正確答案: C
Downloader->Engine->Spiders路徑。
10、在Scrapy框架中,Spiders模塊產生的HTML分析結果經Engine模塊發送給哪個模塊?
A、Item Pipelines和Scheduler
B、Item Pipelines
C、Downloader
D、Scheduler
正確答案: A
Spiders->Engine->(ITEMS) Item Pipelines
->(REQUESTS) Scheduler
根據不同類型的結果,有兩個路徑。