台部落caosheng03

使用Apache Flume抓取數據，怎麼來抓取呢？不過，在瞭解這個問題之前，我們必須明確ApacheFlume是什麼？一、什麼是Apache FlumeApache Flume是用於數據採集的高性能系統，名字來源於原始的近乎實時的日誌數

2019-02-22 21:14:20

文件存儲分行存儲和列存儲，每個存儲格式裏面又分不同的類型，在實際的應用中如何去使用？怎樣去使用？快來圍觀吧！文件存儲格式，我們在什麼時候去指定呢？比如在Hve和Ipala中去創建表的時候，我們除了指定列和分隔符，在它的命令行結尾有STORE

2019-02-22 21:14:20

51CTO博客開發

2019-02-22 21:14:20

Avro schema作爲大數據一個項目，它可以算得上精品中的上等品，讓學習或者想要學習大數據的人爲之傾倒，不斷挖掘學習，那麼它究竟有着怎樣的神祕面紗呢？我們一起來揭開！爲了理解Avro，首先要理解序列化。序列化是在內存裏表述數據

2019-02-22 21:14:19

Hive和Impala作爲數據查詢工具，它們是怎樣來查詢數據的呢？與Impala和Hive進行交互，我們有哪些工具可以使用呢？我們首先明確Hive和Impala分別提供了對應查詢的接口：（1）命令行shell：1、 Impala：impal

2019-02-22 21:14:19

RDD是spark的核心組成，想要理解spark，就必須瞭解RDD。那麼RDD具有什麼樣的特性，怎麼來創建和應用呢？一、RDD(Resilient Distributed Dataset）RDD是一個彈性分佈式數據集，這裏我們解釋一下它具體

2019-02-22 21:14:19

隨着大數據時代的來臨，數據體量越來越大，處理這些數據會越來越受到網絡IO的限制，爲了儘可能多的處理更多的數據我們必須使用壓縮。那麼壓縮在Hadoop裏面是不是所有格式都適用呢？它都有哪些性能呢？壓縮在sqoop裏面可以做，在hive和i

2019-02-22 21:14:19

創建數據庫和表是學習大數據必備的知識，那麼數據庫和表如何創建呢？使用Impala和Hive創建數據庫和表又有什麼區別呢？數據庫和表通過HiveQL或ImpalaSQL的DDL語句進行創建和管理，和標準SQL DDL非常相似。但是它們

2019-02-22 21:14:19

Flume作爲日誌採集系統，有着獨特的應用和優勢，那麼Flume在實際的應用和實踐中到底是怎樣的呢？讓我們一起踏上Flume之路。1、什麼是Apache Flume（1）Apache Flume簡單來講是高性能、分佈式的日誌採集系

2019-02-22 21:14:18

大數據中怎麼來加載數據呢？數據加載應該注意哪些問題呢?關係型數據庫和Impala、Hive加載數據有哪些區別呢？在瞭解加載數據之前必須明確一個概念“數據驗證”， Impala和Hive與其他關係型數據庫不一樣，關係型數據庫是在寫的時候進

2019-02-22 21:14:18

元數據作爲大數據的源泉，有着非常重要的作用。可在Impala中卻隱藏着一個祕密？和元數據有着頗深的淵源，我們一起來追溯！一、Impala體系結構（1）每個slave節點運行一個Impala進程，和HDFS的DataNode進程同時協作（2）

2019-02-22 21:14:18

Hive中的分區就是分目錄，把一個大的數據集根據業務需要分割成更小的數據集。那麼在Hive中如何進行數據分區呢？分區時應該注意什麼樣的問題呢？它的分區數如何進行限制呢？一、Hive only：加載分區數

2019-02-22 21:14:18

Hcatalog儘管作爲一個子項目，卻給整個Hadoop生態環境帶來了一股清流，它讓數據的訪問不再雜亂無章，那麼Hcatalog有什麼樣的作用呢？它是怎樣統一定義數據的呢？HCatalog是用來訪問Metastore的Hive子項目，

2019-02-22 21:14:18

Hive與Impala都是構建在Hadoop之上的數據查詢工具，那麼在實際的應用中，它們是如何加載和存儲數據的呢？Hive和Impala存儲和加載表，和所有的關係型數據庫一樣，有自己的數據管理結構，從它的Server到Database再到表

2019-02-22 21:14:18

Sqoop儘管穩定的應用於生產環境很多年，但是它自身存在的一些缺陷給實際操作帶來了不便。Sqoop2便成爲了研究使用的對象，那麼Sqoop2有什麼優勢呢？首先我們先來了解一下Sqoop的使用情況，使用Sqoop數據不會出現丟失，而且Sqoo

2019-02-22 21:14:17