原创 Hive(數據倉庫)數據倉庫和 Hive 的基本概念

1. 數據倉庫 1.1 基本概念        英文名稱爲 Data Warehouse,可簡寫爲 DW 或 DWH。數據倉庫的目的是構建面相分析的集成化數據環境,爲企業提供決策支持(Decision Support)。        數

原创 Hadoop生態圈之Flume(一)

1. 概述        Flume是Cloudera提供的一個高可用的,高可靠的,分佈式的海量日誌採集、聚合和傳輸的軟件。        Flume的核心是把數據從數據源(source)收集過來,再將收集到的數據送到指定的目的地(sin

原创 新模塊 Sql 學習筆記聲明!!

聲明:       最近準備開始從頭系統地學習一下 Sql 的相關知識,並會在本文中進行彙總。(本人初學,如有錯誤,歡迎斧正!)   Sql: Sql學習筆記(一)        

原创 Hive(數據倉庫)Hive 調優

10.hive調優 10.1 Fetch抓取 Hive中對某些情況的查詢可以不必使用MapReduce計算。例如:SELECT * FROM score;在這種情況下,Hive可以簡單地讀取score對應的存儲目錄下的文件,然後輸

原创 Hive(數據倉庫)數據壓縮、數據存儲格式

7.hive的數據壓縮 在實際工作當中,hive當中處理的數據,一般都需要經過壓縮,前期我們在學習hadoop的時候,已經配置過hadoop的壓縮,我們這裏的hive也是一樣的可以使用壓縮來節省我們的MR處理的網絡帶寬 **7.1

原创 Hive(數據倉庫) Hive 的交互方式和基本操作

1. Hive 的交互方式 第一種交互方式:bin/hive   第二種交互方式:使用 sql 語句或者 sql 腳本進行交互     2. Hive 的基本操作 2.1 數據庫操作 創建數據庫: create database if

原创 Hadoop_day05_MapReduce 的 Shuffle 詳解(分區、排序、規約、分組)

一、分區 在 MapReduce 中, 通過我們指定分區, 會將同一個分區的數據發送到同一個 Reduce 當中進行處理 ​        例如: 爲了數據的統計, 可以把一批類似的數據發送到同一個 Reduce 當中, 在同一個 Red

原创 Hadoop_day04_HDFS的高可用機制和聯邦機制

一、高可用機制 1.1 HDFS的高可用介紹        在Hadoop 中,NameNode 所處的位置是非常重要的,整個HDFS文件系統的元數據信息都由NameNode 來管理,NameNode的可用性直接決定了Hadoop 的可用

原创 Hadoop_day01_大數據的概念及磁盤存儲

Hadoop預備知識 1.大數據課程導論 1.1.大數據概念 ​ 大數據bigdata,指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增

原创 Hadoop_day05_MapReduce 的 經典案例(流量統計)

需求一:統計求和        統計每個手機號的上行數據包總和,下行數據包總和,上行總流量之和,下行總流量之和分析:以手機號碼作爲key值,上行流量,下行流量,上行總流量,下行總流量四個字段作爲value值,然後以這個key,和value

原创 Hadoop_day05_MapReduce相關概念

1.MapReduce介紹         MapReduce思想在生活中處處可見。或多或少都曾接觸過這種思想。MapReduce的思想核心是“分而治之”,適用於大量複雜的任務處理場景(大規模數據處理場景)。 Map負責“分”,即把複雜

原创 Hadoop_day01_Zookeeper概述及安裝

Zookeeper 1.Zookeeper 的概述 Zookeeper 是一個開源的分佈式協調服務框架 ,主要用來解決分佈式集羣中應用系統的一致性問題和數據管理問題 2.Zookeeper的特點 Zookeeper 本質上

原创 Hadoop_day01_hadoop輔助軟件(Linux)

輔助軟件JDK&mysql 1.三臺機器安裝jdk 1.1 查看自帶的openjdk並卸載 rpm -qa | grep java rpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_

原创 Hadoop_day04_HDFS的API操作

1、在 Windows 下配置 Hadoop 環境 1.1 未配置會產生的問題 缺少 winutils.exe Could not locate executable null \bin\winutils.exe in the hado

原创 Hadoop_day02_Zookeeper的深入理解和操作(客戶端、API(Java))

1. zookeeper的數據類型 ZooKeeper 的數據模型,在結構上和標準文件系統的非常相似,擁有一個層次的命名空間,都是採用樹形層次結構. ZooKeeper 樹中的每個節點被稱爲—個Znode。和文件系統的目錄樹一樣,ZooK