原创 電商推薦系統項目總結

項目架構 項目過程中的數據轉換 注意:圖中RDD後跟的不是元素類型,而是其中元素的含義,如:userId即爲用戶Id,score和rating均爲用戶對商品的打分 離線階段數據轉化流程 實時階段數據轉化流程 部分代碼 商品推

原创 RDD、DataFrame、DataSet的聯繫和轉化

在SparkSQL中Spark爲我們提供了兩個新的抽象,分別是DataFrame和DataSet。他們和RDD有什麼區別呢?首先從版本的產生上來看: RDD (Spark1.0) —> Dataframe(Spark1.3) —>

原创 SparkCore之RDD概述

RDD(Resilient Distributed Dataset)叫做彈性分佈式數據集,是Spark中最基本的數據抽象。代碼中是一個抽象類,它代表一個彈性的、不可變、可分區、裏面的元素可並行計算的集合。 RDD的屬性 一組分區

原创 Spark集羣角色

1.Master和Worker Spark特有資源調度系統的Leader。掌管着整個集羣的資源信息,類似於Yarn框架中的ResourceManager,主要功能: (1)監聽Worker,看Worker是否正常工作; (2)M

原创 電商數倉項目總結

技術選型 Hadoop-2.7.2,Zookeeper-3.4.10,Flume-1.7.0,Kafka-2.11.0,Kafka-manager-1.3.3.22,Sqoop-1.4.6,Mysql,HDFS,Hive-1.2.

原创 Druid簡介

1.Druid概念 Druid是一個快速的列式分佈式的支持實時分析的數據存儲系統。它在處理PB級數據、毫秒級查詢、數據實時處理方面,比傳統的OLAP系統有了顯著的性能改進。 Druid的官方網站是http://druid.io。

原创 Presto優化

Presto優化之數據存儲 合理設置分區 與Hive類似,Presto會根據元數據信息讀取分區數據,合理的分區能減少Presto數據讀取量,提升查詢性能。 使用列式存儲 Presto對ORC文件讀取做了特定優化,因此在Hive中

原创 Sqoop概述

Sqoop簡介 Sqoop是一款開源的工具,主要用於在Hadoop(Hive)與傳統的數據庫(mysql、postgresql…)間進行數據的傳遞,可以將一個關係型數據庫(例如 : MySQL ,Oracle ,Postgres等

原创 HBase優化

1. 高可用 在 HBase 中 HMaster 負責監控 HRegionServer 的生命週期,均衡 RegionServer 的負載,如果 HMaster 掛掉了,那麼整個 HBase 集羣將陷入不健康的狀態,並且此時的工作

原创 HBase架構原理

1)StoreFile 保存實際數據的物理文件,StoreFile 以 HFile 的形式存儲在 HDFS 上。每個 Store 會有一個或多個 StoreFile(HFile),數據在每個 StoreFile 中都是有序的。

原创 HBase與Hive的對比

1.Hive (1) 數據倉庫 Hive 的本質其實就相當於將 HDFS 中已經存儲的文件在 Mysql 中做了一個雙射關係,以方便使用 HQL 去管理查詢。 (2) 用於數據分析、清洗 Hive 適用於離線的數據分析和清洗,延遲

原创 HBase常用API操作

新建項目後在 pom.xml 中添加依賴: <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <ve

原创 HBase概述

1. HBase 定義 HBase 是一種分佈式、可擴展、支持海量數據存儲的 NoSQL 數據庫。 2. HBase 數據模型 邏輯上,HBase 的數據模型同關係型數據庫很類似,數據存儲在一張表中,有行有列。 但從 HBase

原创 關於Kafka分區策略和分區分配策略的理解

1.分區策略 1)分區的原因 (1)方便在集羣中擴展,每個 Partition 可以通過調整以適應它所在的機器,而一個 topic 又可以有多個 Partition 組成,因此整個集羣就可以適應任意大小的數據了; (2)可以提高併

原创 Flume 數據流監控

1.Ganglia 的安裝與部署 安裝httpd服務與php [hadoop@hadoop102 flume]$ sudo yum -y install httpd php 安裝其他依賴 [hadoop@hadoop10