Web爬取,也稱爲Web抓取,數據抓取或爬蟲,是一種計算機程序技術,用於從網站上抓取大量數據,並將其處理爲結構化數據。
Web抓取是常用的:
基本上,網頁抓取是互聯網的功能。例如,SEO需要創建站點地圖並授予其權限,讓Google對其網站進行抓取,以便在搜索結果中獲得更高的排名。許多顧問公司會僱用專門從事網絡抓取的公司來豐富他們的數據庫,以便爲他們的客戶提供專業服務。
在數字化時代,很難確定網頁抓取的合法性。
爲什麼網絡抓取具有負面含義:
Web抓取可用於惡意目的,例如:
- 蒐集私人或機密信息。
- 忽略網站的條款和服務,未經所有者許可,將其刪除。
- 濫用數據請求的方式會導致Web服務器在額外的重負載下崩潰。
請務必注意,在以下情況下,負責任的數據服務提供商將拒絕您的請求:
- 數據是私人的,需要用戶名和密碼
- 服務條款(TOS)明確禁止進行網頁抓取
- 數據受版權保護
有什麼理由可以起訴人?
如果網絡數據運用不當,可能會導致意想不到的後果。
HiQ vs LinkedIn
您可能聽說過2017年的HiQ與Linkedin案。HiQ是一家數據科學公司,爲公司人力資源部門抓取數據。Linkedin隨後發送了終止函,以停止HiQ的抓取行爲。HiQ隨後提起訴訟,以阻止Linkedin限制其訪問網站。結果,法院裁定對HiQ是有利的。這是因爲HiQ無需登錄即可從Linkedin上的公共資料中抓取數據。也就是說,抓取在互聯網上公開共享的數據是完全合法的。
讓我們再舉一個例子來說明在什麼情況下抓取可能有害。例如:eBay訴訟Bidder's Edge。如果您出於個人目的進行網頁抓取,則屬於合法使用原則,因此是合法的。如果您想將抓取的數據用於其他目的(尤其是用於商業目的),則會開始複雜化。(引自Wikipedia.org,地址爲100 F.Supp.2d 1058(ND Cal。2000))。
2000年,在線拍賣公司eBay成功地使用了“動產侵權”理論來獲得初步禁令,以防止競標數據彙總的Bidder's Edge使用“爬蟲”從eBay網站上收集數據。該意見是將“動產侵權”應用於網絡活動的一個主要案例。
只要您沒有以破壞性的速度抓取,並且消息來源是公開的,那麼就是合法的。在抓取前建議您檢查目標網站,查找與數據爬取有關的任何服務條款。如果顯示“不允許爬取”,則應尊重這一點。
建議:
- 謹慎抓取,請在開始抓取之前檢查“ Robots.txt”
- 保守一點。激進地請求數據可能會給Internet服務器造成負擔。請保持溫柔。沒有人想要使服務器崩潰。
- 明智地使用數據。您可以從收集的數據中獲得見解,並幫助您的業務發展。
- 在開始抓取之前,請與網站所有者聯繫。
- 請勿將抓取的數據隨意傳遞給任何人。如果它是有價值的數據,請確保其安全。