北理工嵩天Python網絡爬蟲與信息提取MOOC 測驗4: Python網絡爬蟲之框架 (第4周)

Python網絡爬蟲與信息提取MOOC 測驗4: Python網絡爬蟲之框架 (第4周)

1、下面哪個不是“網絡爬蟲與信息提取”相關的技術路線？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、bs4-re

B、scrapy-bs4

C、requests-bs4-re

D、requests-re

正確答案： A

技術路線至少包含一個爬蟲庫和一個解析庫，bs4和re都是解析庫。

2、Requests庫的方法與HTTP協議請求方法對應，下面哪個不是Requests庫的對應方法？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A.push()

B.get()

C.put()

D.patch()

正確答案： A

3、判斷一個網絡爬蟲應用可行性的最主要因素是什麼？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、技術路線選取

B、Robots協議是否有允許

C、部署代價和經濟成本

D、網頁條件，即儘量沒有JavaScript腳本產生的數據

正確答案： B

Robots協議允許是爬蟲能夠實施的首要條件。

4、下面哪個不是網絡爬蟲可能引發的問題？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、網絡攻防對抗

B、法律風險

C、隱私泄露

D、性能騷擾

正確答案： A

爬蟲不會造成網絡攻防對抗，被爬取服務器可能會被爬蟲攻擊，但沒有對抗。

5、以下不是Scrapy框架組成模塊的是：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、Spiders

B、Engine

C、Blocklist

D、Downloader

正確答案： C

Scrapy具有5+2結構，其中，5個模塊分別是：Engine、Spiders、Scheduler、Downloader和Item Pipelines。

6、在scrapy框架中，數據流最初始的請求來自於：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、Scheduler

B、Engine

C、Downloader

D、Spiders

正確答案： D

Spiders模塊給出了Scrapy爬蟲最初始的請求

7、在Scrapy框架中，以下不是數據流所承載數據元素的是：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、REQUESTS

B、URLS

C、RESPONSE

D、ITEMS

正確答案： B

Scrapy中使用REQUESTS表達URL，因此，URL不是其直接承載的元素。

8、在Scrapy框架中，請求從Spider模塊發出後，被Engine發送到：‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、丟棄

B、Scheduler

C、Downloader

D、ITEM Pipeline

正確答案： B

Spider->Engine->Scheduler，注意，Spider請求不直接到Downloader模塊。

9、在Scrapy框架中，Downloader爬取頁面內容後，結果經Engine發送到哪個模塊？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、丟棄

B、ITEM Pipelines

C、Spiders

D、Scheduler

正確答案： C

Downloader->Engine->Spiders路徑。

10、在Scrapy框架中，Spiders模塊產生的HTML分析結果經Engine模塊發送給哪個模塊？‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬

A、Item Pipelines和Scheduler

B、Item Pipelines

C、Downloader

D、Scheduler

正確答案： A

Spiders->Engine->(ITEMS) Item Pipelines

->(REQUESTS) Scheduler

根據不同類型的結果，有兩個路徑。

北理工嵩天Python網絡爬蟲與信息提取MOOC 測驗4: Python網絡爬蟲之框架 (第4周)

[轉帖]使用NMT和pmap解決JVM資源泄漏問題原創

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

一款開源的.NET程序集反編譯、編輯和調試神器

關於接口協議，你必須要知道這些！

【2024-05-21】以茶會友

【Pyhton】Error expected an indented block

【Python】Comet OJ C0206 [2011普及組-A]數字反轉

【Python】Comet OJ C0185 [2006普及組-A]明明的隨機數

【C++】Comet OJ C1100 [Contest #8]支援城市

【Python】Comet OJ C0177 [2004普及組-A]不高興的津津

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結