《從非結構化數據到大數據》有感

看到一篇文章，是一位Orcale專家，對當下非結構化數據存貯和大數據處理的方案介紹（其實也是爲了推廣公司產品），個人覺得對大數據這一塊認識更深了，受益匪淺啊。

下面講講個人理解：

自從互聯網普及進千家萬戶後，各個公共系統和個人都在不停的產生數據。對個人來說，手機的通訊記錄、購物記錄、使用軟件情況、微博、說說等，都是被記錄存貯的數據。對於公共機構來說，各個公司的運營記錄、地鐵進出記錄、買票記錄也是數據、上傳的視頻、遊戲記錄。這些數據格式不一，有文件、圖片、音頻、視頻、文檔等。

大數據至少有4個特點：1、來源廣泛，格式多樣 2、產生速度非常快，可能成指數級增長 3、價值密度低，單條記錄價值低，單個的信息可能沒多少用，不過巨大的數量能提出產生可觀的利益 4、數量巨大

爲了從大量的垃圾數據中，提取分析出有用的信息，就需要BI商業智能，從企業的運營資料中，分析出方案，提供決策，給企業管理層提供戰略建議。而開源項目Hadoop，則是一個分佈式的文件系統，一個分佈式的並行計算平臺，離線延時處理。可以用Hadoop來實現雲計算。

既然數據量非常大，並且現在上網帶寬也提升起來，用戶對於獲取信息的速度，要求就高起來。而傳統的RDBMS關係型數據庫，擅長處理結構化數據，對於結構紛繁多樣的非結構數據，就不太靈活了。對應着需求在變化，NoSql也逐漸人氣高起來。NoSql可以提供實時的、靈活的、非機構數據快速處理，可以滿足更快速、更零碎化的用戶需求。

現在大數據整個應用流程可以分爲這四步：一、收集（個人設備產生的信息、企業運行記錄、日誌和監控設備等）二、存儲（支持各種格式大批量數據導入、及時靈活的數據查詢）三、分析（Storm、Hadoop等大數據計算框架，Docker等容器）、BI（商業智能）四、決策（通過分析，爲最終決策提供建議）

其中，我印象最深的是——大數據的價值密度低特性。因爲以前我有疑問，大數據裏面有很多垃圾數據，爲什麼還要進行大數據收集分析呢？看了專家（不是“磚家”哦）的報告，我恍然大悟，雖然大數據裏面大部分是垃圾數據（無法利用），不過大量的數據能提取分析出，一定的規則行爲，這些規則行爲纔是寶貴的信息！例如當初沃爾瑪的“尿布和啤酒”的案例，就是商業智能的典型案例。

《從非結構化數據到大數據》有感

Python實現大麥網搶票的四大關鍵技術點解析

salesforce零基礎學習（一百三十八）零碎知識點小總結（十）

遞歸SQL練習

魯迅有本事硬譯ON-THE-FLY嗎？（像狂風一樣舞蹈，掙脫懷抱--汪峯意譯）

SQL Server 查詢性能優化——創建索引原則（一）

石油管道的最優位置

JS函數節流(throttle)和函數去抖(debounce)

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結