關於網頁抓取的10個誤區(最新)

 

 

Amel Majanovic在Unsplash上的照片

 

1.  網頁爬取是非法的

許多人對網頁抓取有錯誤的印象。這是因爲有些人不尊重互聯網上的出色作品,而是通過竊取內容來使用它。Web爬蟲本身並不是非法的,但是當人們未經站點所有者的許可而無視ToS(服務條款)使用它時,就會出現問題。根據報告,有2%的在線收入可能會由於網絡抓取濫用內容而損失。即使網絡抓取沒有明確的法律和條款來限制其應用,但仍需受到法律的約束。例:

 

2.網頁抓取和網頁爬取相同

網絡抓取涉及在目標網頁上提取特定數據,例如,提取有關銷售線索,房地產清單和產品價格的數據。相反,網絡爬取是搜索引擎的工作。它掃描並索引整個網站及其內部鏈接。搜尋器可在沒有特定目標的情況下瀏覽網頁。 

 

3.您可以抓取任何網站

人們經常要求抓取諸如電子郵件地址或Facebook帖子以及LinkedIn信息之類的信息。在進行網頁抓取之前,請務必注意以下規則:

  • 需要用戶名和密碼的私人數據無法抓取。
  • 遵守TOS(服務條款),該條款明確禁止網頁抓取行爲。
  • 請勿複製受版權保護的數據。

如果觸犯相關法律,那麼將會被起訴。例如,一個人抓取了一些機密信息,然後無視站點所有者發送的禁止信將其出售給第三方。可以根據違法侵害動產行爲法,違反《數字千年版權法》(DMCA),違反《計算機欺詐和濫用法》(CFAA)以及盜用法起訴該人。

這並不意味着您不能抓取TwitterFacebookInstagramYouTube等社交媒體渠道的數據。他們對遵循robots.txt文件規定的抓取服務很友好。對於Facebook,在進行自動數據收集行爲之前,您需要獲得其書面許可 

 

4.您需要知道如何抓取數據

Web抓取工具(數據提取工具)對於非技術專業人員,如營銷人員,統計學家,財務顧問,比特幣投資者,研究人員,新聞記者等,非常有用。Octoparse推出了很多寫好的抓取模板,涵蓋FacebookTwitterAmazoneBayInstagram30多個網站上的14個類別的數據。只需在模板中輸入關鍵字/ URL,就能快速獲取到數據。無需編程,無需進行任何複雜的抓取配置。與Python相比,使用Octoparse抓取數據更加簡單高效。

 

5.您可以將抓取的數據用於任何事情

如果從網站上抓取數據用於分析,以供公衆使用,這是完全合法的。但是,如果是爲獲取利潤而竊取機密信息是不合法的。例如,未經允許就抓取私人聯繫信息,然後將其出售給第三者以牟利是非法的。此外,在沒有提供來源的情況下,將別人的內容抓取下來僞裝成自己的原創內容,也是不道德的。根據法律,您應該遵循禁止垃圾郵件,禁止抄襲,禁止任何欺詐性使用數據的理念。

 

6.網頁抓取是萬能的

網頁抓取並不是一勞永逸的。某些網站會不定期更改其佈局或結構。如果遇到這樣的網站,以前配置好的抓取任務可能沒辦法正常抓取到想要的數據。抓取不到數據的原因有很多,可能是將您識別爲可疑機器人。也可能是由於更改了地理位置沒有訪問權限。在這種情況下,我們需要調整抓取任務。

 

7.抓取速度可以儘可能快

很多抓取廣告都會宣傳其抓取速度很快:在幾秒鐘內收集數據。但是,過快的抓取速度很容易對網站造成損害:快速的可伸縮數據請求將使Web服務器超載,從而可能導致服務器崩潰。這時候可能被起訴。根據“侵入動產法(Dryer and Stockton 2013),該人應對損害負責。如果您不確定網站是否可抓取,請諮詢網頁抓取服務提供商。Octoparse是負責任的網頁抓取服務提供商,將客戶的滿意度放在首位。

 

8. APIWeb抓取相同

API是將數據請求發送到Web服務器,Web服務器返回相應數據的渠道。API將通過HTTP協議以JSON格式返回數據。例如,Facebook APITwitter APIInstagram API。通過API獲取數據具有一定難度,且返回的數據有一定限制,可能並不完全是您想想要的。網頁數據抓取工具則更簡單、更靈活。Octoparse具有網頁抓取模板。對於非技術人員而言,通過在模板中輸入關鍵字/ URL來獲取數據更加簡單。

 

9.抓取的數據僅在經過清理和分析後纔對我們的業務有效

許多數據集成平臺可以幫助我們進行數據可視化分析。相比之下,數據抓取似乎對業務決策沒有直接影響。Web抓取獲得的網頁原始數據,確實需要在處理後才能彰顯價值,例如對評論文本進行情感分析,進而洞察市場。但是,有些原始數據在黃金開採者手中可能是極其有價值的。

以Octoparse爲例。通過使用 Google搜索網絡抓取模板 來採集關鍵詞的搜索結果。您可以提取競爭對手的標題和詳細描述,以確定您的SEO策略。對於零售行業,還可以使用Web抓取工具來進行產品監控。

 

10.網頁抓取只能用於商業

網頁抓取廣泛應用於各個領域:尋找潛在客戶,價格監控,價格跟蹤,業務市場分析。學生還可以利用Google Scholar 網絡抓取模板進行論文研究。房地產經紀人能夠進行住房研究並預測住房市場。或者可以通過關鍵詞抓取相關的新聞媒體數據,做垂直領域資訊聚合。

 

___________________________________________________________________________________

引用:

DryerAJStocktonJ.2013。《互聯網“數據採集”:諮詢客戶入門》,紐約法律雜誌。

取自:https://www.law.com/newyorklawjournal/almID/1202610687621

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章