《從非結構化數據到大數據》有感

    看到一篇文章,是一位Orcale專家,對當下非結構化數據存貯和大數據處理的方案介紹(其實也是爲了推廣公司產品),個人覺得對大數據這一塊認識更深了,受益匪淺啊。

下面講講個人理解:

    自從互聯網普及進千家萬戶後,各個公共系統和個人都在不停的產生數據。對個人來說,手機的通訊記錄、購物記錄、使用軟件情況、微博、說說等,都是被記錄存貯的數據。對於公共機構來說,各個公司的運營記錄、地鐵進出記錄、買票記錄也是數據、上傳的視頻、遊戲記錄。這些數據格式不一,有文件、圖片、音頻、視頻、文檔等。

     大數據至少有4個特點:1、來源廣泛,格式多樣 2、產生速度非常快,可能成指數級增長 3、價值密度低,單條記錄價值低,單個的信息可能沒多少用,不過巨大的數量能提出產生可觀的利益 4、數量巨大

       爲了從大量的垃圾數據中,提取分析出有用的信息,就需要BI商業智能,從企業的運營資料中,分析出方案,提供決策,給企業管理層提供戰略建議。而開源項目Hadoop,則是一個分佈式的文件系統,一個分佈式的並行計算平臺,離線延時處理。可以用Hadoop來實現雲計算。

     既然數據量非常大,並且現在上網帶寬也提升起來,用戶對於獲取信息的速度,要求就高起來。而傳統的RDBMS關係型數據庫,擅長處理結構化數據,對於結構紛繁多樣的非結構數據,就不太靈活了。對應着需求在變化,NoSql也逐漸人氣高起來。NoSql可以提供實時的、靈活的、非機構數據快速處理,可以滿足更快速、更零碎化的用戶需求。

    現在大數據整個應用流程可以分爲這四步:一、收集(個人設備產生的信息、企業運行記錄、日誌和監控設備等)二、存儲(支持各種格式大批量數據導入、及時靈活的數據查詢)三、分析(Storm、Hadoop等大數據計算框架,Docker等容器)、BI(商業智能)四、決策(通過分析,爲最終決策提供建議)

   其中,我印象最深的是——大數據的價值密度低特性。因爲以前我有疑問,大數據裏面有很多垃圾數據,爲什麼還要進行大數據收集分析呢?看了專家(不是“磚家”哦)的報告,我恍然大悟,雖然大數據裏面大部分是垃圾數據(無法利用),不過大量的數據能提取分析出,一定的規則行爲,這些規則行爲纔是寶貴的信息!例如當初沃爾瑪的“尿布和啤酒”的案例,就是商業智能的典型案例。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章