原创 Hadoop項目規劃:硬件

規劃硬件我們主要介紹兩個方面:一個是Master怎麼規劃,一個是Slave怎麼規劃,選擇是不一樣的。其他規劃諸如容量以及操作系統的選擇也會簡單介紹,對於瞭解Hadoop的操作環境有着重要幫助作用。首先我們看一下Slave,它是用來存儲數據然

原创 大數據學習一般都學什麼

大數據已經成爲發展的趨勢,大數據的培訓學習也就應運而生,可是大數據具體學習什麼內容呢,衆說紛紜:那麼大數據學習到底應該掌握哪些知識呢,筆者根據自己的經驗總結如下:學習要根據自身情況來定,如果你是零基礎,那就必須先從基礎java開始學起(大數

原创 初識Apache Hadoop

Apache Hadoop是一套用於在由通用硬件構建的大型集羣上運行應用程序的框架。它實現了Map/Reduce編程範型,計算任務會被分割成小塊(多次)運行在不同的節點上。除此之外,它還提供了一款分佈式文件系統(HDFS),數據被存儲在計算

原创 大數據學習的流程方案

大數據成爲了當下發展的一種趨勢,很多人去追求大數據的學習,但是苦於無從下手,今天編者根據自己的經驗系統總結一下大數據學習的方略:第一步:感性認識,找準思路(1)看一些大數據發展及應用,瞭解市場形勢(2)閱讀大數據相關書籍,瞭解知識架構對上面

原创 數據分析:Hive、Pig和Impala

本文主要分享Hadoop三大分析工具:Hive、Pig和Impala。Hive和Pig是高級數據語言,基於Mapreduce,底層處理的時候會轉換成Mapreduce去提交,Hive和Pig都是開源的,Hive最初由Facebook開發,P

原创 Hadoop核心組件:四步通曉HDFS

Hadoop分佈式文件系統(HDFS)被設計成適合運行在通用硬件上的分佈式文件系統,它提供高吞吐量來訪問應用程序的數據,適合那些有着超大數據集的應用程序,那麼在實際應用中我們如何來操作使用呢?一、HDFS操作方式:1、  命令行操作–FsS

原创 mapreduce和spark的原理及區別

Mapreduce和spark是數據處理層兩大核心,瞭解和學習大數據必須要重點掌握的環節,根據自己的經驗和大家做一下知識的分享。首先了解一下Mapreduce,它最本質的兩個過程就是Map和Reduce,Map的應用在於我們需要數據一對一的

原创 sqoop導入關係型數據庫-解密Sqoop

Sqoop作爲Hadoop與傳統數據庫之間的橋樑,對於數據的導入導出有着重要作用。通過對Sqoop基本語法以及功能的闡述,深刻解密Sqoop的作用和價值。 一、什麼是Apache Sqoop?Cloudera開發的Apache開源項目,是S

原创 關係型數據庫導入導出絕招出爐

Sqoop作爲數據傳輸的工具,對於Hadoop與傳統數據庫之間數據的傳輸起着橋樑作用,那麼到底如何導入導出數據呢?第一:使用MapReduce作業來執行導入:(1)Sqoop首先檢查將要導入的表1、確定主鍵(如果有的話),調用mapredu

原创 爲什麼使用Hive和Impala

Impala 與Hive都是構建在Hadoop之上的數據查詢工具,但是各有不同側重,那麼我們爲什麼要同時使用這兩個工具呢?單獨使用Hive或者Impala不可以嗎?一、介紹Impala和Hive(1)Impala和Hive都是提供對HDFS

原创 Spark和Hadoop大決戰

Spark作爲數據處理的核心應用,有着重要的作用和地位,那麼spark能不能取代Hadoop而存在呢?Spark只是分佈式計算平臺,而hadoop已經是分佈式計算、存儲、管理的生態系統。與Spark相對應的是Hadoop MapReduce

原创 解密數據分區

   數據分區分爲兩種,動態分區和靜態分區,那麼兩種分區是怎樣創建的呢?它們各自怎麼來使用呢?一、動態分區1、從已有的數據動態創建新的分區2、分區基於最後一個列值自動創建,如果分區不存在,它將被創建;如果分區存在,將被覆蓋。二、靜態分區1、

原创 大數據資源如何管理

Hadoop集羣資源管理器是什麼?它是如何爲上層應用提供資源管理和調度的呢?我們一起來看Apache Hadoop YARN的引入,爲集羣在利用率、資源統一管理和數據共享等方面帶來的巨大好處。從開發人員來講提交作業(應用)到YARN集羣,通

原创 在Impala 和Hive裏進行數據分區(1)

進行數據分區將會極大的提高數據查詢的效率,尤其是對於當下大數據的運用,是一門不可或缺的知識。那麼數據怎麼創建分區呢?數據怎樣加載到分區呢?Impala/Hive按State分區Accounts(1)示例:accounts是非分區表通過以上方

原创 Spark的函數式編程

Spark是近年來發展較快的分佈式並行數據處理框架,瞭解和掌握spark對於學習大數據有着至關重要的意義。但是spark依賴於函數單元,它的函數編程過程是怎樣的呢?我們怎麼來應用呢?一、Spark的函數式編程Spark依賴於函數單元,函數是