原创 Parquet_5. SequenceFile vs ORC File vs Parquet File -- 待完善

本節將跟大家探討一下 SequenceFile 和 ORC File 和 Parquet File的區別與聯繫 具體內容將會在後續進行完善,敬請期待

原创 Parquet_9. 將CSV 文件轉換成 Parquet 格式 -- 待完善

具體內容將會在後續進行完善,敬請期待

原创 Pig_10. 常見的數據簡化模式 -- 待完善

目前只是先完善目錄結構,內容會後續填充 點贊 收藏

原创 Sqoop_1. 基本架構及數據操作 -- 待完善

關於 Sqoop 的架構,大家可以參考以下這篇博客:http://www.biaodianfu.com/sqoop.html 今天我將跟大家着重介紹

原创 Avro技術應用_5. 利用 Camus 來將 Avro 數據從 Kafka 拷貝到 HDFS -- 待完善

本節主要跟大家介紹一些 LinkedIn 的 Camus 項目以及它是如何與 Kafka 合作來處理數據的。在這裏需要注意的是,Camus 目前已經

原创 Avro技術應用_12. 將 Avro 數據加載到 Spark 中

這是一篇翻譯,原文來自:How to load some Avro data into Spark。 首先,爲什麼使用 Avro ? 最基本的格式是 CSV ,其廉價並且不需要頂一個一個 schema 和數據關聯。 隨後流行起來

原创 Avro技術應用_8. 使用 Sqoop 加載數據的時候使用 Avro 格式進行編碼 -- 帶完善

本節將跟大家討論一下如何利用 Sqoop 從 MySQL 中抽取Avro格式數據,再利用 Sqoop 將數據導入到 Hive 中 具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報

原创 Avro技術應用_8. 混合模式 - MR 輸入/出文件爲 Avro類型 -- 待完善

具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報 Mike_H 發佈了71 篇原創文章 · 獲贊 1 · 訪問量 11萬+ 私信

原创 Parquet_10. Spark & Parquet -- 待完善

具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報 站內首發文章 Mike_H 發佈了71 篇原創文章 · 獲贊 1

原创 Avro技術應用_6. Avro Format & Text Format 之間的轉換 --待完善

本文將跟大家探討一下,Avro 數據格式與文本文件格式直接的轉換方法。具體內容將會在後續進行完善,敬請期待: 點贊 收藏 分

原创 Avro技術應用_11. 將 HBase 數據存儲爲 Avro格式的二進制數據 -- 待完善

具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報 站內首發文章 Mike_H 發佈了71 篇原創文章 · 獲贊 1

原创 Avro技術應用_10. 基於鍵值 - 在 MR 中把文本文件(csv)轉換成鍵值對格式的 Avro 文件 -- 待完善

具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報 站內首發文章 Mike_H 發佈了71 篇原創文章 · 獲贊 1

原创 Hadoop中數據序列化的常用方式:SequenceFile, Avro, Thrift, ProtoBuff -- 待完善

本節將跟大家討論一下 Hadoop 中常見的數據序列化場景:SequenceFile, Avro, Thrift, Protocol Buffers

原创 Parquet_8. MapReduce & Parquet -- 待完善

具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報 站內首發文章 Mike_H 發佈了71 篇原創文章 · 獲贊 1

原创 Parquet_4. 列式存儲總結 -- 待完善

整理於》Columnar storage 具體內容將會在後續進行完善,敬請期待 點贊 收藏 分享 文章舉報 Mike_H 發佈了71 篇原創文章 · 獲贊 1 · 訪問量 1