爬蟲有風險,爬取須謹慎

作者 | CDA數據分析研究院,轉載需授權

有人說,中國電商事業的紅火發展,離不開瘋狂剁手的中國女人.然而手剁的多了,就算是千手觀音也會被剁成維納斯啊!所以很多妹子在剁手的時候,發現有一些可以進行價格對比的軟件,幫助自己一鍵貨比三家,日積月累能省下不少銀子!可能很多人會有疑問,剁手和爬蟲有半毛錢關係嗎?還別說,真的有,還不止是半毛錢的關係.因爲用來對比各個電商平臺同類產品價格的軟件,應用到的技術就是今天我們要探討的主題--爬蟲!

首先,做個簡單的科普,解釋一下爬蟲技術是個怎樣的東東:簡單來說就是敲一段自動抓取互聯網信息的程序,從互聯網上抓取對於我們有價值的信息。比如說開頭提到的貨比三家的軟件,就是去各大電商網站爬取信息彙總到自己的軟件中,供消費者參考,自己心儀的寶貝都在哪些電商平臺有售,而又是哪家電商平臺賣的最便宜.這樣的軟件對於消費者而言再美好不過,然而電商平臺的內心其實是拒絕的,價格完全透明被對比,是個賣家都會拒絕的吧!可能也會有童鞋有疑問,這些比價平臺不也是可以給電商平臺導入流量的麼,是這樣,沒錯!但是我們大家轉動自己聰明的小腦瓜想一想,首先,作爲一家大型的電商平臺,這些引流重要嗎?其次,把自己想象成手握各家電商平臺信息的第三方軟件,你會怎麼做來賺點錢呢?如果沒想明白也沒關係,參考下百度的廣告競價就一清二楚了.

OK,簡單的科普到此結束,我們來探討下風險問題.像上文中提到的爬蟲,電商平臺雖然不開心,但是目前的法律也沒有說不允許.爲了研究爬蟲的合法問題,我專門去研讀了一下《中華人民共和國網絡安全法》,這算是中國網絡安全第一大法了,來來回回看了好幾遍,並沒有發現有哪條法條說"爬取網頁公開數據是違法"這一說!然而我沒有就此止步,又繼續搜索,發現了這樣一段司法解釋:未經授權爬取用戶手機通訊錄超過50條記錄;未經授權抓取用戶淘寶交易記錄超過500條;未經授權讀取用戶運營商網站通話記錄超過500條;未經授權讀取用戶公積金社保記錄的超過50000條的。按照這段解釋,涉及到的數據全部都爲不公開的涉及隱私的數據,如果只是爬取一些網頁的公開數據,好像也沒什麼不妥.比如上邊提到的各個電商平臺的商品價格信息,都是公開的,比價軟件只是把他們彙總到了一起而已,所以沒有人去起訴比價軟件.

然而,比價軟件沒有被起訴,不代表其他爬了別人家數據的公司沒有被起訴!比如說,曾經轟動一時的曾經被李開復旗下的創新工場投資的巧達科技被一警方鍋端了,所有員工被帶走.不瞭解這個案件也沒關係,課代表來幫大家補補課.這家公司曾經號稱是中國最大的簡歷大數據公司 ,中國最大的用戶畫像關鍵數據服務提供商,專注於大數據及人工智能領域前瞻性產品研發……等等,想象一下,最大的簡歷大數據公司,如果不是求職者自己在他家網站上上傳了簡歷,那麼大概率是爬取的其他平臺的建立數據,而用戶畫像關鍵數據服務提供商,關鍵數據又是從哪裏來的呢?如果這些數據全部都是未經來源平臺或者用戶授權,那麼這些數據的來源就是違法的.

剛纔還說在《中華人民共和國網絡安全法》中沒有說爬取公開數據違法來着,那麼這裏的違法從何說起呢,別急,我們除了這本網絡安全法還有一本刑法,下邊是刑法的第285條: 第二百八十五條 【非法侵入計算機信息系統罪;非法獲取計算機信息系統數據、非法控制計算機信息系統罪;提供侵入、非法控制計算機信息系統程序、工具罪】違反國家規定,侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的,處三年以下有期徒刑或者拘役。 違反國家規定,侵入前款規定以外的計算機信息系統或者採用其他技術手段,獲取該計算機信息系統中存儲、處理或者傳輸的數據,或者對該計算機信息系統實施非法控制,情節嚴重的,處三年以下有期徒刑或者拘役,並處或者單處罰金;情節特別嚴重的,處三年以上七年以下有期徒刑,並處罰金。 提供專門用於侵入、非法控制計算機信息系統的程序、工具,或者明知他人實施侵入、非法控制計算機信息系統的違法犯罪行爲而爲其提供程序、工具,情節嚴重的,依照前款的規定處罰。 單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照各該款的規定處罰。 而且,像簡歷這種數據信息並不是網絡公開數據,並不是如商品價格一般人人可見的,簡歷信息是一種個人隱私!也是招聘平臺的財富!爬取這樣的數據,既是侵犯個人隱私也是侵犯其他公司商業祕密,顯然是違法的.

稱爲全國首例“爬蟲”技術侵入計算機系統案,涉及到的是上海晟品網絡科技有限公司爬取今日頭條的數據,下圖是從中國裁判文書網的判決截圖:

還有曾經的"數據堂"公司案,大家都知道現在是數據爲王的時代,但是爬蟲的不當使用,非法獲取數據是真的會被關進去的! 當然,看了這些大家也不用談爬蟲色變,個人認爲,爬蟲技術本身是不違法的,違法的行爲在於用這項技術來做了什麼!去爬取大量用戶隱私數據並作爲商業用途顯然是違法的.而且我也注意到,目前爬蟲的職位需求也很旺盛,隨手在一家招聘網站搜了下爬蟲相關職位:

大多數薪酬誘人,平臺規模大,各位小夥伴在做爬蟲工作時,可以要留神.可能會有人認爲,這是公司的行爲,出了事兒也是公司層面的,這可真的是個誤會,前邊的發條明確說了:單位犯前三款罪的,對單位判處罰金,並對其直接負責的主管人員和其他直接責任人員,依照各該款的規定處罰.所以纔有巧達科技被警方一鍋端的事情發生.所以,如果需要幫公司爬數據,一定要好好擦擦眼鏡,看清楚數據的來由,是不是用戶隱私數據,是不是人家沒有公開的數據.要是領導非讓你爬一些不該爬的數據怎麼辦呢?不妨把刑法第二百八十五條先念給領導聽聽,還不行就把案例講解給上司聽聽,而領導堅持讓你在違法的路上狂奔,那兄弟,考慮下換個公司吧,畢竟失業也比進去強不是?

最後,再普及一點爬蟲的其他知識.世間萬物相生相剋,有肆意爬取數據的爬蟲,就也有反爬蟲.被爬蟲鍾愛的第一名當屬12306,這特別好理解,買火車票的地方就這一家別無分號啊.最開始上線的圖片驗證被網友各種吐槽,其實12306也是用心良苦,設計那麼難的驗證圖,就是爲了反爬蟲的.雖然爬蟲可以模仿瀏覽器的行爲對服務器發出請求,但是它還沒有智能到分辨圖片.還有那種滑塊拼成完成圖片的驗證,拼的過程超級簡單無腦,但是這也能分辨發起訪問請求的是人還是爬蟲,人的速度一定不是勻速的,而大多數爬蟲的拼圖速度是勻速且迅速的,這也是反爬蟲的手段.然而交戰雙發往往都是道高一尺魔高一丈,你有爬蟲技術,我又反爬蟲技術,你有反爬蟲技術我就又有了反反爬蟲技術,各種手段層出不窮.

就拿上邊的圖片驗證來說,有個東西叫做打碼平臺可以瞭解一下.當你的爬蟲遇到這些反爬蟲手段時,把這些需要人類操作的程序發給打碼平臺,分分鐘解決這個問題,爬蟲就又可以把自己僞裝成正常的瀏覽請求接入被爬取網頁的服務器了. 爬蟲和反爬蟲的爭鬥這麼厲害,是爲什麼呢?因爲爬蟲只會往有利益的地方爬啊.比如說,大家在出門旅遊之前或者下館子之前,都會去刷一下目的地的評論,而這些評論就一定是真的去過這些地方的用戶留下的 真實評論嘛?不一定呢,也可以用爬蟲模留言點贊收藏之類的操作來刷高自己的信譽值,使自己排名靠前.而那些神坑的虛假廣告,衝榜刷量,背後空爬也都少不了爬蟲的影子,這波操作是不是相當於欺騙? 所以,還是那句話,技術本身是無罪的,要看使用技術的人做了什麼,爬蟲有風險,爬取須謹慎.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章