文章目錄
一、大數據基礎知識小結
(1)數據分析
數據分析是基於商業目的,有目的的進行收集、整理、加工和分析數據,提煉有價值信息的過程。數據分析通俗的說就是對收集起來的大量數據進行分析,提取有用的信息。
- 數據分析流程:
需求分析 明確目標 --》 數據收集 加工處理 --》數據分析 數據展現 --》分析報告 提煉價值
(2)數據倉庫系統
分析的前提是要有相應的數據,大量的業務數據聚集在一起,就產生了一種新的概念:數據倉庫
數據倉庫是一個面向主題的、集成的、非易失的、時變的數據集合,用於支持管理決策。
比如說一個電商系統,他的數據可以劃分爲客戶主題、產品主題、訂購主題、物流主題的相關數據。一個數據倉庫的數據源可以來自於不同的業務系統,集成到同一個數據倉庫中。數據到達數據倉庫之後,會對外進行相關的查詢,很少做相關的修改。同時數倉中的數據會隨着時間而不停地變化。
- 基於數據倉庫的數據分析流程:
分析需求–》 確認數據源–》 ETL處理 --》彙總/整合 --》 數據建模 --》 分析展現
(3)數據倉庫解決的問題
- 爲業務部門提供準確及時的業務報表:多個業務平臺捕獲數據整合
- 爲管理人員提供更強的分析能力
- 爲數據挖掘和知識發現奠定基礎:通過數據分析,利用數據挖掘的技術找到數據發展的模式與規律,可以使預測分析的結果更準確完整。
(4)大數據的理解
大數據指在可承受的時間範圍內用常用的軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。
大數據的特點:
- 體量巨大 體量達到 pb tb級別
- 種類繁多 數據來源於多個數據源,格式也可能是涵蓋了音頻、視頻、文本等格式
- 價值密度低
- 處理速度快 涉及相關的實時性處理
大數據的理解:
- 不能盲目追求體量
- 不能盲目追求數量
- 不能盲目追求技術
- 不能盲目追求潮流
大數據的處理思路:
- 減治:將問題簡化成一個更簡單的能處理的問題
- 分治:將問題分成多個可以簡單求解的小問題
– 複雜的問題簡單化,複雜的問題拆分化,再重複減化。
二、阿里雲大數據產品體系
(1)產品體系概況:
(2)阿里雲數加平臺定位:
一站式數據平臺、提供三層服務(數加平臺內底層數加平臺提供基礎計算服務:離線計算、流計算、分析型數據庫等,同時提供數據平臺分析工具,最上層數加平臺提供應用級別的服務,包括規則引擎、畫像分析、智能推薦) 、定製化行業解決方案。
(3)阿里雲大數據基礎產品:
- 雲數據庫 ApsaraDB for RDS (簡稱RDS):穩定可靠地伸縮性在線數據庫服務、兼容 Mysql 、SQL server、PG等,只需在選擇數據庫時選擇對應的數據庫類型和版本。
- 表格存儲 TS:構建在阿里雲飛天分佈式系統之上的NoSQL數據存儲服務。
- 分析型數據庫 Analytic DB:海量數據實時高併發在線分析雲計算服務。
- 大數據計算服務 MaxCompute 原名ODPS:針對 TB/PB級、實時性要求不高的分佈式處理能力,用於大數據運算能力相關的服務,開箱即用。
- 數據集成 Data Integration:阿里雲對外提供的穩定高效、彈性伸縮的數據同步平臺,爲阿里雲大數據計算引擎提供離線(批量)數據進出通道。
- 對象存儲服務 Object Storage Service(OSS):海量、安全、低成本、高可用的雲存儲服務。即開即用,無限大空間的存儲集羣。
(4)阿里雲數加平臺:
- 大數據開發平臺 DataWorks(原名Data IDE):數據工場DataWorks是基於MaxCompute作爲計算和存儲引擎的用於工作流可視化開發和託管調度運維的海量數據離線加工分析平臺。具有託管和調度的能力。
- Quick BI :海量數據實時在線分析服務。
- 阿里雲機器學習PAI:基於MaxCompute、GPU集羣,支持MR、MPI、SQL、Spark。
- DataV:大屏開發平臺。