網絡爬蟲違法嗎?

Web爬取,也稱爲Web抓取,數據抓取或爬蟲,是一種計算機程序技術,用於從網站上抓取大量數據,並將其處理爲結構化數據。

 

Web抓取是常用的:

基本上,網頁抓取是互聯網的功能。例如,SEO需要創建站點地圖並授予其權限,讓Google對其網站進行抓取,以便在搜索結果中獲得更高的排名。許多顧問公司會僱用專門從事網絡抓取的公司來豐富他們的數據庫,以便爲他們的客戶提供專業服務。

在數字化時代,很難確定網頁抓取的合法性。

 

爲什麼網絡抓取具有負面含義:

Web抓取可用於惡意目的,例如:

  1. 蒐集私人或機密信息。
  2. 忽略網站的條款和服務,未經所有者許可,將其刪除。
  3. 濫用數據請求的方式會導致Web服務器在額外的重負載下崩潰。

請務必注意,在以下情況下,負責任的數據服務提供商將拒絕您的請求:

  1. 數據是私人的,需要用戶名和密碼
  2. 服務條款(TOS)明確禁止進行網頁抓取
  3. 數據受版權保護

 

有什麼理由可以起訴人?

如果網絡數據運用不當,可能會導致意想不到的後果。

 

HiQ vs LinkedIn

您可能聽說過2017年的HiQ與Linkedin案。HiQ是一家數據科學公司,爲公司人力資源部門抓取數據。Linkedin隨後發送了終止函,以停止HiQ的抓取行爲。HiQ隨後提起訴訟,以阻止Linkedin限制其訪問網站。結果,法院裁定對HiQ是有利的。這是因爲HiQ無需登錄即可從Linkedin上的公共資料中抓取數據。也就是說,抓取在互聯網上公開共享的數據是完全合法的。

讓我們再舉一個例子來說明在什麼情況下抓取可能有害。例如:eBay訴訟Bidder's Edge。如果您出於個人目的進行網頁抓取,則屬於合法使用原則,因此是合法的。如果您想將抓取的數據用於其他目的(尤其是用於商業目的),則會開始複雜化。(引自Wikipedia.org,地址爲100 F.Supp.2d 1058(ND Cal。2000))。

2000年,在線拍賣公司eBay成功地使用了“動產侵權”理論來獲得初步禁令,以防止競標數據彙總的Bidder's Edge使用“爬蟲”從eBay網站上收集數據。該意見是將“動產侵權”應用於網絡活動的一個主要案例。

只要您沒有以破壞性的速度抓取,並且消息來源是公開的,那麼就是合法的。在抓取前建議您檢查目標網站,查找與數據爬取有關的任何服務條款。如果顯示“不允許爬取”,則應尊重這一點。

 

建議:

  1. 謹慎抓取,請在開始抓取之前檢查“ Robots.txt”
  2. 保守一點。激進地請求數據可能會給Internet服務器造成負擔。請保持溫柔。沒有人想要使服務器崩潰。
  3. 明智地使用數據。您可以從收集的數據中獲得見解,並幫助您的業務發展。
  4. 在開始抓取之前,請與網站所有者聯繫。
  5. 請勿將抓取的數據隨意傳遞給任何人。如果它是有價值的數據,請確保其安全。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章