原创 Hive自定義函數-UDF

Hive提供了大多數操作符,例如用於測試相等性的x='a',用於判空的x IS NULL,用於字符串匹配的x LIKE 'a%',數學運算x+1,邏輯判斷x OR y,||是或判斷而不是連接字符串,字符串的連接通過concat函數

原创 Spark及其子項目

Apache Spark是一個通用的分佈式計算框架,基於內存的特點使得其以高性能著稱。Spark應用可以運行在本地模式或者集羣模式,集羣模式中通過ClusterManager來管理整個應用,目前Spark提供了3中Cluster

原创 Sqoop: 環境搭建、實例及概念

簡介 Sqoop是一個用於在外部結構化數據與Hadoop之間導入導出數據的工具。 Apache Sqoop is a tool designed for efficiently transferring bulk data be

原创 使用Spark和Pig統計每秒鐘微博數量

手頭有一個新浪微博的數據集,大概在1億條左右。用Pig和Spark寫了幾行代碼,基於400w條微博,統計了每秒鐘發了多少條微博。 Life is too short , show me the code. 將數據從本地拷到HD

原创 ZooKeeper集羣搭建詳細步驟

Apache ZooKeeper是一個非常出色的分佈式協調系統,在配置管理、命名服務、分佈式同步等方面應用廣泛。其基本思想來源於Google的Chubby,可以認爲是其開源實現。在Hadoop生態系統中,ZooKeeper發揮着非

原创 Apache Pig:乾貨長文帶你完全入門

本文內容來自Hadoop權威指南,個人閱讀的時候順帶整理翻譯而來,並加入了自己的理解以及實際運行的配置。涵蓋了Pig的核心內容,非常值得細讀。如果你想獲得本文更好的閱讀體驗,請訪問這裏. 版本記錄: 2016-07 初稿 1

原创 Avro:MapReduce應用

Apache Avro框架提供: 豐富的數據類型(原始類型和複雜類型) 緊湊、快速的二進制文件格式(.avro) 一種容器文件,用於存儲avro數據 RPC 容易與動態語言集成,無需生成代碼。代碼生成作爲一種優化,只有在靜態語言

原创 Avro:入門例子

Avro是由Hadoop創始人Doug Cutting創建的一種語言無關的數據序列化和RPC框架,用於解決Hadoop中Writable序列化機制的缺點:缺少跨語言特性,與Java綁的太緊,數據格式很難被JVM外的語言進行處理。

原创 Hive與傳統的數據庫

1. Hive vs. 傳統的數據庫 Hive與傳統的關係型數據庫有很多類似的地方,例如對SQL的支持。但是其基於HDFS與MapReduce的事實使得它與傳統的數據庫在很多方面有很大的不同,在一些特性的支持下也受到底層架構的限制

原创 Hive之數據查詢

Hive爲大規模的數據分析提供了一種類SQL的查詢語言,在數據倉庫中是一種很常見的工具。 1. 排序和聚合 排序使用常規的ORDER BY來完成,Hive在處理ORDER BY請求時,並行排序,最終產生一個全局排序結果。如果全局有

原创 Hive數據類型

1. Hive數據類型 Hive支持原始數據類型和複雜類型,原始類型包括數值型,Boolean,字符串,時間戳。複雜類型包括數組,map,struct。下面是Hive數據類型的一個總結: 分類 類型 描述 字面量示例

原创 Spark RDD

RDD最初是由伯克利大學的幾個教授提出的,原始論文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computi

原创 Avro:RPC例子

Apache Avro除了提供一種數據序列化機制以外,還提供了一套RPC機制。本文基於Avro協議,實現一個Java語言編寫的RPC Server,以及一個Python語言編寫的客戶端。 定義一個RPC協議 Acro的RPC協議也

原创 Hue 3.9 Tarball安裝及界面一覽

Hue是Cloudera開源的一個Hadoop UI,由Cloudera Desktop演化而來。面向用戶提供方便的UI用於平時的Hadoop操作中。Apache Ambari面向的是管理員,用於安裝、維護集羣,而不是使用集羣。兩

原创 理解Hive表(Hive Table)

Hive表邏輯上有表的數據和相關的元數據組成。元數據描述表的結構,索引等信息。數據通常存放在HDFS中,雖然任意的Hadoop文件系統都能支持,例如Amazon的S3或者而本地文件系統。元數據則存在關係型數據庫中,嵌入式的默認使用