爬蟲技術的倫理研討

爬蟲技術的倫理研討

本文根據幾篇關於爬蟲技術的報道針對以下三個問題進行說明

1. 爬蟲技術涉及到倫理問題有哪些?

2. 作爲一個IT技術人員,應怎麼看待爬蟲技術的使用?

3. 提出自己對爬蟲技術在倫理規則方面發展的幾點看法。

前兩天還有人問我有沒有做過python爬蟲,說實話,雖然這個技術近幾年很火熱,但自身並沒有過多的瞭解。
該文只簡單闡述爬蟲技術的原理,讓小白也能看懂爬蟲技術到底是什麼,以及該項技術所產生的一些倫理問題,值得行業內人員去思考。
首先介紹這項技術,**網絡爬蟲,是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。**最初它的出現就是用來解決搜索引擎存在的侷限性,使得用戶在網頁中精確搜索到自己需要的內容以及解決搜索引擎服務器資源與網絡數據資源不匹配等問題。網絡爬蟲是一個自動提取網頁的程序,它爲搜索引擎從萬維網上下載網頁。傳統爬蟲從一個或若干初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統的一定條件時停止。網絡爬蟲按照系統結構和實現技術,大致可以分爲通用網絡爬蟲(General Purpose Web Crawler)、聚焦網絡爬蟲(Focused Web Crawler)、增量式網絡爬蟲(Incremental Web Crawler)、深層網絡爬蟲(Deep Web Crawler)。 實際的網絡爬蟲系統通常是幾種爬蟲技術相結合實現的。
同樣的,一項技術總會在發展的過程中產生各種各樣的問題,從技術上看網絡爬蟲所面臨的是效率問題即Web 信息的巨大容量使得爬蟲在給定時間內只能下載少量網頁。 Lawrence 和 Giles 的研究表明沒有哪個搜索引擎能夠索引超出 16%的Internet 上 Web 頁面,即使能夠提取全部頁面,也沒有足夠的空間來存儲 。爬蟲需要在單位時間內儘可能多的獲取高質量頁面,是它面臨的難題之一。爲了提高爬行速度,網絡通常會採取並行爬行的工作方式,隨之引入了新的問題:重複性(並行運行的爬蟲或爬行線程同時運行時增加了重複頁面)、質量問題(並行運行時,每個爬蟲或爬行線程只能獲取部分頁面,導致頁面質量下降)、通信帶寬代價(並行運行時,各個爬蟲或爬行線程之間不可避免要進行一些通信)。
而從公共社會的層面上看,爬蟲技術的應用存在着諸多倫理問題。例如,51信用卡事件,其委託外包催收的公司利用爬蟲不正當竊取用戶數據、濫用用戶信息進行暴利催收。並且有多家大數據公司、徵信公司和擁有此類業務的互聯網金融公司也做着相同的事情。再如,2019年9月,天翼徵信、杭州存信數據、新顏科技、魔蠍科技等多家大數據公司被查,原因就是利用爬蟲技術過度收集、非法竊取和販賣個人數據信息等。
中消協發佈的《APP個人信息泄露情況調查報告》顯示,超八成受訪者曾遭遇個人信息泄露,主要原因就是APP經營者未經授權收集個人信息和故意泄露信息。而另外一份報告顯示,被評測的100款APP中,竟然有多達91款的APP存在過度收集用戶個人信息的問題,典型方式包括隱蔽收集用戶信息、誤導用戶同意,強制授權、過度索權,超出用戶心理預期獲取個人信息,賬號註銷困難等。
更讓人擔憂的是,一些細微的隱私信息一旦泄露,造成的危害,可不僅僅是多了騷擾電話、推銷短信和詐騙電話那麼簡單。如暴力催收、套路貸、砍頭息等也大多與數據隱私泄露有關。因此,個人信息的泄露不僅僅會危害個人人身財產安全,甚至會危害公共安全。
即使數據來源合理合規,近年來,在大數據畫像的使用過程中,也出現了一些“倫理問題”,比如“大數據殺熟”“同房不同價”“看人發紅包”等等,都備受爭議。本是用來精準服務你的方法,被用來精準地“欺負”你。
由於金融機構和互金平臺獲得的收益遠高於廣告行業,因此,爲其服務的大數據公司也收入更高,這使得這類數據越來越貴。一些中小型銀行和金融機構,特別是一些互聯網金融公司,自身並沒有積累足夠的用戶數據,因此只能通過第三方數據公司提供徵信和風控服務,而這些數據公司的數據來源是黑是白,他們也並不想知道。
前面所說到的是企業對廣大用戶利益的直接影響,威脅着我們的財產生命安全。除此之外,還存在着企業與企業之間通過爬蟲技術獲得可能帶來商業利益的信息從而構成不正當競爭。比如,蜂窩旅遊網通過機器人從攜程等競爭對手那裏抄襲餐飲酒店評價,製造流量很大的假象,既給用戶看、商家看,更要給投資人看,獲取不同輪次的投資以便上市。以及市面上大的互聯網公司都會推出自己的刷票軟件,目的是爲了分享12306網站的‘流量紅利’。不僅給網站服務器造成巨大壓力,也擾亂了正常的訂票秩序,由此帶來的購票難是鐵路部門一直頭疼的問題。像這樣利用“爬蟲”技術從其他平臺惡意抓取數據的公司還有很多很多。最終受益者是不懷好意的人,而廣大用戶都會間接受到利益的損失。
無論是大數據公司有意而爲之,還是他們認爲技術本是中立的,很多情況下,爬取得數據並不受控制;或是技術人員也不知,什麼樣的數據可以獲取,什麼樣的不能,因爲技術本身還在不斷髮展的過程中,爲了達到科技創新的目的,如果國家政策過多的限制,那麼科技產業並不會得到很好的發展,這一系列問題,值得所有人的深思,如何在技術與人類安全之間找到一個平衡點,如何用法律去制約,制約的程度需要多大,這都是爬蟲技術甚至說新興技術所隱藏的倫理問題。
作爲一個IT技術人員,首先,要知道在運用這項技術的時候,不能做違法違規的事,例如,已明確被告知,不能隨意爬取得信息,還要爲了謀取私利而爲之,必然是違背職業道德操守的行爲甚至觸犯到了法律。而說到具體制約規範,我國並沒有像歐洲那樣實施“史上最嚴格”的數據保護條例,因爲這樣會阻礙創新的風險,在工業時代,作爲核心能源的石油因其背後的巨大利益,引發了戰爭。如果大數據真的是“未來的石油”,巨大的利益面前,僅僅靠法律和規則的禁止,恐怕很難解決全部問題。“只要市場對此的需求存在,即使監管再嚴格,也總會有人因爲利益去鋌而走險。”北京大學市場與網絡經濟研究中心的陳永偉研究員認爲,數據隱私歸根到底要從技術上入手,技術帶來的新問題最終還是需要用技術來解決。
“比如獲得圖靈獎的、清華大學姚期智教授的‘多方安全計算(MPC)’,通過技術手段實現既保護用戶的數據隱私,又能夠獲得有價值的數據挖掘。”陳永偉說。
MPC (Secure Multi-Party Computation),是一個名爲“多方安全計算”的理論框架,基於此,可以實現數據使用權、所有權的分離,數據所有方可以保有數據,但是又不影響數據需求方提供服務。簡單地說,就是基於加密的數據進行計算。
吳沈括說:“事實上,無論是商業模式還是科技進步,既是個人信息的加害者,也是個人信息的保護者。因此,我們可以通過鼓勵企業創新,積極開拓區塊鏈、多方安全計算等新的技術架構,達成個人信息保護與數據利用的動態平衡。”。
實際上,針對數據隱私的立法在全球已經形成潮流,日本、韓國、印度、巴西、俄羅斯等國都設立了類似於歐洲GDPR的隱私保護法,美國各州也已經陸續在落地隱私保護的法規,至於中國,需不需要也給企業也套上一道“緊箍咒”?
實際上,關於信息安全的規範等一系列與數據隱私安全有關的法律法規推出並在廣泛徵求意見。爲切實保障數據的隱私安全,收集使用相關數據時需要遵循合法、正當、必要的原則。
吳沈括說:“一是收集的數據必須是合法的,要公示收集規則,經用戶同意;二是收集數據應遵守道德倫理底線,確保使用數據行爲的正當性,不應強迫用戶授權,或者以默認授權、捆綁服務、強制停止使用等不正當手段變相誘導、脅迫用戶提供相關數據;三是收集必要的、最小化的數據。”。
吳映京還表示,數據利用的“度”一定是需要政府、企業和民衆共同去摸索實踐的,因爲目前並不能說哪個制度就一定是最優的,關鍵在於明確好社會、企業和用戶在隱私保護中的責任,平衡好三者之間的利益。對於數據“發掘”過程中可能帶來的問題保持動態的態度和審慎的精神,但是不要製造非此即彼的對立情緒,而是應該以制度、教育甚至進一步的科技發展積極地解決這些問題。
而我也認爲,爬蟲技術要長遠的發展下去,解決以上出現的道德倫理問題是刻不容緩的事情,要從多個角度去切入,無論是從技術人員自身還是管理者,以至於整個企業都應加以重視。對於技術人員的來說,可以通過反爬蟲技術遏制利用爬蟲技術進行的違法犯罪活動,並且不應有利用此技術謀取私利做越界,違反道德倫理的事情。
中國人民大學法學院教授劉俊海表示:“一個技術如何使用,責任主體都應捫心自問,這是否侵犯個人隱私,是否破壞言論自由,是否損害公共利益,是否損害其他數據財產擁有者的財產所有權,是否涉及不正當競爭。”
  有業內人士表示,雖然網絡安全法對非法獲取個人信息等相關行爲進行了規定,但對於爬取公開信息行爲並未予以規定。相關部門應進一步查漏補缺,儘快縮小新技術應用的法律模糊地帶。而目前國內還沒有全面的規定,要從根源上解決這類問題,還是要從立法層面入手。
  專家認爲,未經對方允許從其他平臺抓取數據並謀取商業利益的一般屬於不正當競爭行爲,由工商部門負責監管。但是因爲這類行爲通常比較隱蔽,工商部門一般需要有人舉報並提供相應證據或線索後啓動調查,因此需要藉助技術手段更有效地進行打擊。
  所以網絡運營者應當誠信經營、遵循合法、正當、必要的原則,盡到網絡運營者的管理義務。第三方應用開發者在收集、使用個人數據信息時,應當遵循誠實信用的原則及公認的商業道德。
  最後,作爲普通用戶,我們同樣不能因爲小恩小惠,而把自己的信息隨意透漏給一些平臺,讓不法分子有可乘之機。
  如果從各個方面進行改善,無論是現在的爬蟲技術,還是將來出現的新技術,都能走得更好更遠。

轉載:

https://www.huxiu.com/article/324162.html
https://www.sohu.com/a/336165079_114988
http://www.xinhuanet.com/mrdx/2018-11/02/c_137576140.htm
https://baijiahao.baidu.com/s?id=1653174048544025196%ED%94%B4=spider&for=pc
https://baike.baidu.com/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711?fromtitle=%E7%88%AC%E8%99%AB&fromid=22046949&fr=aladdin

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章