原創文章,轉載請註明原地址
http://blog.csdn.net/stevenprime
三.數據的分析
數據的分析其實分爲實時與非實時,非實時的話比較好辦,就是將收集收集到的日誌用程序來跑就行,
java,python,hadoop都可以.
首先講講非實時數據分析(離線數據分析)
數據分析的方法其實看數據量的大小,現在很火的是hadoop分佈式,但是如果數據量太小,其實根本沒有必要使用hadoop,
而且就我個人的經驗來看,hadoop還不夠穩定,還不夠成熟,用起來門檻也很高.
所以我強烈推薦如果數據量不是很大,千萬級一下,使用腳本對數據進行分析吧.
當時剛進公司的時候,經理就建議我用腳本對日誌進行分析,當時我理解的腳本是linux的shell腳本,
我想shell如何分析json數據呢?而且我們需要根據ip查出地域,當時我覺得用shell無法完成.
受限於當時的經驗,沒有用腳本分析日誌,而且使用自己最熟悉的java程序來分析.
其實腳本有很多種啦,比如python,perl,都有json庫,而且都有根據ip獲取地區的代碼,
網上隨便搜一下就是很多.
第一版我使用的是java應用程序,一行行地讀取日誌,並且找了一段能根據ip查地域的代碼,加上qqwry.dat純真數據庫,
就能根據ip獲取所對應的地域了.這個程序運行了很久.
....................未完待續
原創文章,轉載請註明原地址
http://blog.csdn.net/stevenprime