網絡爬蟲違法嗎？

原創

BAZHUAYUdata

2020-06-27 16:43

Web爬取，也稱爲Web抓取，數據抓取或爬蟲，是一種計算機程序技術，用於從網站上抓取大量數據，並將其處理爲結構化數據。

Web抓取是常用的：

基本上，網頁抓取是互聯網的功能。例如，SEO需要創建站點地圖並授予其權限，讓Google對其網站進行抓取，以便在搜索結果中獲得更高的排名。許多顧問公司會僱用專門從事網絡抓取的公司來豐富他們的數據庫，以便爲他們的客戶提供專業服務。

在數字化時代，很難確定網頁抓取的合法性。

爲什麼網絡抓取具有負面含義：

Web抓取可用於惡意目的，例如：

蒐集私人或機密信息。
忽略網站的條款和服務，未經所有者許可，將其刪除。
濫用數據請求的方式會導致Web服務器在額外的重負載下崩潰。

請務必注意，在以下情況下，負責任的數據服務提供商將拒絕您的請求：

數據是私人的，需要用戶名和密碼
服務條款（TOS）明確禁止進行網頁抓取
數據受版權保護

有什麼理由可以起訴人？

如果網絡數據運用不當，可能會導致意想不到的後果。

HiQ vs LinkedIn

您可能聽說過2017年的HiQ與Linkedin案。HiQ是一家數據科學公司，爲公司人力資源部門抓取數據。Linkedin隨後發送了終止函，以停止HiQ的抓取行爲。HiQ隨後提起訴訟，以阻止Linkedin限制其訪問網站。結果，法院裁定對HiQ是有利的。這是因爲HiQ無需登錄即可從Linkedin上的公共資料中抓取數據。也就是說，抓取在互聯網上公開共享的數據是完全合法的。

讓我們再舉一個例子來說明在什麼情況下抓取可能有害。例如：eBay訴訟Bidder's Edge。如果您出於個人目的進行網頁抓取，則屬於合法使用原則，因此是合法的。如果您想將抓取的數據用於其他目的（尤其是用於商業目的），則會開始複雜化。（引自Wikipedia.org，地址爲100 F.Supp.2d 1058（ND Cal。2000））。

2000年，在線拍賣公司eBay成功地使用了“動產侵權”理論來獲得初步禁令，以防止競標數據彙總的Bidder's Edge使用“爬蟲”從eBay網站上收集數據。該意見是將“動產侵權”應用於網絡活動的一個主要案例。

只要您沒有以破壞性的速度抓取，並且消息來源是公開的，那麼就是合法的。在抓取前建議您檢查目標網站，查找與數據爬取有關的任何服務條款。如果顯示“不允許爬取”，則應尊重這一點。

建議：

謹慎抓取，請在開始抓取之前檢查“ Robots.txt”
保守一點。激進地請求數據可能會給Internet服務器造成負擔。請保持溫柔。沒有人想要使服務器崩潰。
明智地使用數據。您可以從收集的數據中獲得見解，並幫助您的業務發展。
在開始抓取之前，請與網站所有者聯繫。
請勿將抓取的數據隨意傳遞給任何人。如果它是有價值的數據，請確保其安全。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

網絡爬蟲違法嗎？

Web抓取是常用的：

爲什麼網絡抓取具有負面含義：

有什麼理由可以起訴人？

HiQ vs LinkedIn

建議：

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

關於網頁抓取的10個誤區（最新）

如何利用關鍵詞采集工具，提高商品自然搜索流量？

漫威女性電影背後所體現出來的性別觀念轉變

如何從亞馬遜抓取產品數據？

網絡爬蟲在電商定價策略上的應用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結