原创 開源大數據處理工具彙總(上)

開源大數據處理工具彙總(上) http://www.36dsj.com/archives/24852 查詢引擎 一、Phoenix 貢獻者::Salesforce 簡介:這是一個Java中間層,可以讓開發者在Apache H

原创 開源大數據處理工具彙總(下),包括日誌收集系統/集羣管理/RPC等

開源大數據處理工具彙總(下),包括日誌收集系統/集羣管理/RPC等 http://www.36dsj.com/archives/25042 第二部分主要收集整理的內容主要有日誌收集系統、消息系統、分佈式服務、集羣管理、RPC、基

原创 flume-kafka-storm日誌處理經驗

flume-kafka-storm日誌處理經驗       最近搞日誌處理,注意是日誌處理,如果用流計算處理一些金融數據比如交易所的行情數據,是不能這麼“粗魯”的,後者必須還考慮數據的完整性和準確性。以下是在實踐過程中的一點點小總結,提供

原创 【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 實時系統搭建

【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 實時系統搭建 http://blog.csdn.net/weijonathan/article/details/18301321

原创 Ubuntu14.04快速搭建SVN服務器及日常使用

【轉】 http://lizhenliang.blog.51cto.com/7876557/1651831 ---------------------------------------------------------------

原创 【爬蟲-反爬蟲】系列二:【文章精選2】 錢曙光論爬蟲

關於反爬蟲,看這一篇就夠了 錢曙光發佈於架構 2016-06-30 15:24 http://geek.csdn.net/news/detail/85333 你被爬蟲侵擾過麼?當你看到“爬蟲”兩個字的時候,是不是已經有點血脈

原创 「企業上雲」系列之開源數據庫的現狀

「企業上雲」系列之開源數據庫的現狀 作者 黃東旭 發佈於 2016年7月6日http://www.infoq.com/cn/articles/situation-of-the-open-source-database

原创 解讀ThoughtWorks技術雷達

解讀ThoughtWorks技術雷達 發佈於 2016年7月6日 http://www.infoq.com/cn/articles/interpretation-of-thoughtworks-technology-radar

原创 【爬蟲-反爬蟲】系列二:【文章精選1】-互聯網網站的反爬蟲策略淺析

互聯網網站的反爬蟲策略淺析             robbin 2009-08-17發表              http://robbinfan.com/blog/11/anti-crawler-strategy 因爲搜索

原创 【爬蟲-反爬蟲】系列一:反爬蟲之session(4)

反爬蟲之session(4) 人們經常把session與cookie放在一起談論,因爲session變量存儲在服務器端,而cookie是瀏覽器端,兩者在能力上互補。 在講session之前,先思考一下這樣一個場景:

原创 【爬蟲-反爬蟲】系列一:-尾篇(7)

尾篇(7) 寫到這裏,本專題可以告一段落了,如果你理解了之前的文章且認真實踐過,相信絕大多數網站的數據都能爬取下來。 閒聊部分 爲了讓更多新手小白們閱讀起來不吃力,本專題文筆刻意通俗,很多概念也有意的多次重複提及,且

原创 【爬蟲-反爬蟲】系列一:反爬蟲之驗證碼(5)

反爬蟲之驗證碼(5) 驗證碼可以說是最讓人傷腦筋的事了,最常見的便是圖片驗證碼,花樣百出,再加上有意模糊數字,就連人都不一定能識別出來,所以本專題也不會專門講識別算法等等,而是介紹一種人工打碼的方式。 人工打碼 可能

原创 我從編程總結的 22 個經驗

我從編程總結的 22 個經驗 發佈於: 2016/06/18 http://blog.jobbole.com/102562/ 以下所列是我在這些年來軟件開發工作過程中受到的啓發,還有總結而來的好經驗。 開發 從小

原创 【爬蟲-反爬蟲】系列一:反爬蟲之cookie(3)

反爬蟲之cookie 前面講過,cookie存儲在瀏覽器端,常用來保存“認證數據”,請求會攜帶這些數據發送給服務器,這樣服務器才能判斷當前請求的狀態,比如是否自動登錄? 狀態不同,服務器返回的數據也會不一樣。比如未登錄狀

原创 【爬蟲-反爬蟲】系列三:【工具1】WebMagic in Action

  WebMagic in Action               http://webmagic.io/docs/zh/