原创 使用Apache Flume抓取數據(1)

使用Apache Flume抓取數據,怎麼來抓取呢?不過,在瞭解這個問題之前,我們必須明確ApacheFlume是什麼?一、什麼是Apache FlumeApache Flume是用於數據採集的高性能系統 ,名字來源於原始的近乎實時的日誌數

原创 Hadoop文件存儲的葵花寶典

文件存儲分行存儲和列存儲,每個存儲格式裏面又分不同的類型,在實際的應用中如何去使用?怎樣去使用?快來圍觀吧!文件存儲格式,我們在什麼時候去指定呢?比如在Hve和Ipala中去創建表的時候,我們除了指定列和分隔符,在它的命令行結尾有STORE

原创 我的友情鏈接

51CTO博客開發

原创 精彩解密大數據之精絕古城

     Avro schema作爲大數據一個項目,它可以算得上精品中的上等品,讓學習或者想要學習大數據的人爲之傾倒,不斷挖掘學習,那麼它究竟有着怎樣的神祕面紗呢?我們一起來揭開!爲了理解Avro,首先要理解序列化。序列化是在內存裏表述數據

原创 學習Hive和Impala必看經典解析

Hive和Impala作爲數據查詢工具,它們是怎樣來查詢數據的呢?與Impala和Hive進行交互,我們有哪些工具可以使用呢?我們首先明確Hive和Impala分別提供了對應查詢的接口:(1)命令行shell:1、 Impala:impal

原创 分佈式數據集RDD經典集錦

RDD是spark的核心組成,想要理解spark,就必須瞭解RDD。那麼RDD具有什麼樣的特性,怎麼來創建和應用呢?一、RDD(Resilient Distributed Dataset)RDD是一個彈性分佈式數據集,這裏我們解釋一下它具體

原创 Hadoop中最不容錯過的壓縮知識

  隨着大數據時代的來臨,數據體量越來越大,處理這些數據會越來越受到網絡IO的限制,爲了儘可能多的處理更多的數據我們必須使用壓縮。那麼壓縮在Hadoop裏面是不是所有格式都適用呢?它都有哪些性能呢?壓縮在sqoop裏面可以做,在hive和i

原创 經典解密數據庫和表的創建

    創建數據庫和表是學習大數據必備的知識,那麼數據庫和表如何創建呢?使用Impala和Hive創建數據庫和表又有什麼區別呢?數據庫和表通過HiveQL或ImpalaSQL的DDL語句進行創建和管理,和標準SQL DDL非常相似。但是它們

原创 那些年踏過的Apache Flume之路

   Flume作爲日誌採集系統,有着獨特的應用和優勢,那麼Flume在實際的應用和實踐中到底是怎樣的呢?讓我們一起踏上Flume之路。1、  什麼是Apache Flume(1)Apache Flume簡單來講是高性能、分佈式的日誌採集系

原创 數據加載的妙招解析

  大數據中怎麼來加載數據呢?數據加載應該注意哪些問題呢?關係型數據庫和Impala、Hive加載數據有哪些區別呢?在瞭解加載數據之前必須明確一個概念“數據驗證”, Impala和Hive與其他關係型數據庫不一樣,關係型數據庫是在寫的時候進

原创 Impala隱藏的驚天祕密

元數據作爲大數據的源泉,有着非常重要的作用。可在Impala中卻隱藏着一個祕密?和元數據有着頗深的淵源,我們一起來追溯!一、Impala體系結構(1)每個slave節點運行一個Impala進程,和HDFS的DataNode進程同時協作(2)

原创 在Hive中如何實現數據分區

                   Hive中的分區就是分目錄,把一個大的數據集根據業務需要分割成更小的數據集。那麼在Hive中如何進行數據分區呢?分區時應該注意什麼樣的問題呢?它的分區數如何進行限制呢?一、Hive only:加載分區數

原创 大數據的一指禪--Hcatalog

   Hcatalog儘管作爲一個子項目,卻給整個Hadoop生態環境帶來了一股清流,它讓數據的訪問不再雜亂無章,那麼Hcatalog有什麼樣的作用呢?它是怎樣統一定義數據的呢?HCatalog是用來訪問Metastore的Hive子項目,

原创 Hive和Impala加載和存儲數據功能曝光

Hive與Impala都是構建在Hadoop之上的數據查詢工具,那麼在實際的應用中,它們是如何加載和存儲數據的呢?Hive和Impala存儲和加載表,和所有的關係型數據庫一樣,有自己的數據管理結構,從它的Server到Database再到表

原创 Sqoop新品來了

Sqoop儘管穩定的應用於生產環境很多年,但是它自身存在的一些缺陷給實際操作帶來了不便。Sqoop2便成爲了研究使用的對象,那麼Sqoop2有什麼優勢呢?首先我們先來了解一下Sqoop的使用情況,使用Sqoop數據不會出現丟失,而且Sqoo