移動互聯網數據分析 移動客戶端流量統計 移動客戶端數據統計(三)

原創文章,轉載請註明原地址

http://blog.csdn.net/stevenprime

 

三.數據的分析

數據的分析其實分爲實時與非實時,非實時的話比較好辦,就是將收集收集到的日誌用程序來跑就行,

java,python,hadoop都可以.

 

首先講講非實時數據分析(離線數據分析)

數據分析的方法其實看數據量的大小,現在很火的是hadoop分佈式,但是如果數據量太小,其實根本沒有必要使用hadoop,

而且就我個人的經驗來看,hadoop還不夠穩定,還不夠成熟,用起來門檻也很高.

所以我強烈推薦如果數據量不是很大,千萬級一下,使用腳本對數據進行分析吧.

當時剛進公司的時候,經理就建議我用腳本對日誌進行分析,當時我理解的腳本是linux的shell腳本,

我想shell如何分析json數據呢?而且我們需要根據ip查出地域,當時我覺得用shell無法完成.

受限於當時的經驗,沒有用腳本分析日誌,而且使用自己最熟悉的java程序來分析.

其實腳本有很多種啦,比如python,perl,都有json庫,而且都有根據ip獲取地區的代碼,

網上隨便搜一下就是很多.

第一版我使用的是java應用程序,一行行地讀取日誌,並且找了一段能根據ip查地域的代碼,加上qqwry.dat純真數據庫,

就能根據ip獲取所對應的地域了.這個程序運行了很久.

....................未完待續

 

 

 

 

 

 

原創文章,轉載請註明原地址

http://blog.csdn.net/stevenprime

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章