台部落Lust-Ring

Hive提供了大多數操作符，例如用於測試相等性的x='a',用於判空的x IS NULL，用於字符串匹配的x LIKE 'a%'，數學運算x+1,邏輯判斷x OR y，||是或判斷而不是連接字符串，字符串的連接通過concat函數

2020-06-23 02:53:23

Apache Spark是一個通用的分佈式計算框架，基於內存的特點使得其以高性能著稱。Spark應用可以運行在本地模式或者集羣模式，集羣模式中通過ClusterManager來管理整個應用，目前Spark提供了3中Cluster

2020-06-23 02:53:23

簡介 Sqoop是一個用於在外部結構化數據與Hadoop之間導入導出數據的工具。 Apache Sqoop is a tool designed for efficiently transferring bulk data be

2020-06-23 02:53:23

手頭有一個新浪微博的數據集，大概在1億條左右。用Pig和Spark寫了幾行代碼，基於400w條微博，統計了每秒鐘發了多少條微博。 Life is too short , show me the code. 將數據從本地拷到HD

2020-06-23 02:53:23

Apache ZooKeeper是一個非常出色的分佈式協調系統，在配置管理、命名服務、分佈式同步等方面應用廣泛。其基本思想來源於Google的Chubby，可以認爲是其開源實現。在Hadoop生態系統中，ZooKeeper發揮着非

2020-06-23 02:53:23

本文內容來自Hadoop權威指南，個人閱讀的時候順帶整理翻譯而來，並加入了自己的理解以及實際運行的配置。涵蓋了Pig的核心內容，非常值得細讀。如果你想獲得本文更好的閱讀體驗，請訪問這裏. 版本記錄： 2016-07 初稿 1

2020-02-21 20:29:04

Apache Avro框架提供：豐富的數據類型（原始類型和複雜類型）緊湊、快速的二進制文件格式（.avro）一種容器文件，用於存儲avro數據 RPC 容易與動態語言集成，無需生成代碼。代碼生成作爲一種優化，只有在靜態語言

2020-02-21 20:28:53

Avro是由Hadoop創始人Doug Cutting創建的一種語言無關的數據序列化和RPC框架，用於解決Hadoop中Writable序列化機制的缺點：缺少跨語言特性，與Java綁的太緊，數據格式很難被JVM外的語言進行處理。

2020-02-21 20:28:53

1. Hive vs. 傳統的數據庫 Hive與傳統的關係型數據庫有很多類似的地方，例如對SQL的支持。但是其基於HDFS與MapReduce的事實使得它與傳統的數據庫在很多方面有很大的不同，在一些特性的支持下也受到底層架構的限制

2020-02-21 20:28:52

Hive爲大規模的數據分析提供了一種類SQL的查詢語言，在數據倉庫中是一種很常見的工具。 1. 排序和聚合排序使用常規的ORDER BY來完成，Hive在處理ORDER BY請求時，並行排序，最終產生一個全局排序結果。如果全局有

2020-02-21 20:28:52

1. Hive數據類型 Hive支持原始數據類型和複雜類型，原始類型包括數值型，Boolean，字符串，時間戳。複雜類型包括數組，map，struct。下面是Hive數據類型的一個總結：分類類型描述字面量示例

2020-02-21 20:28:52

RDD最初是由伯克利大學的幾個教授提出的，原始論文Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computi

2020-02-21 20:28:52

Apache Avro除了提供一種數據序列化機制以外，還提供了一套RPC機制。本文基於Avro協議，實現一個Java語言編寫的RPC Server，以及一個Python語言編寫的客戶端。定義一個RPC協議 Acro的RPC協議也

2020-02-21 20:28:52

Hue是Cloudera開源的一個Hadoop UI，由Cloudera Desktop演化而來。面向用戶提供方便的UI用於平時的Hadoop操作中。Apache Ambari面向的是管理員，用於安裝、維護集羣，而不是使用集羣。兩

2020-02-21 20:28:52

Hive表邏輯上有表的數據和相關的元數據組成。元數據描述表的結構，索引等信息。數據通常存放在HDFS中，雖然任意的Hadoop文件系統都能支持，例如Amazon的S3或者而本地文件系統。元數據則存在關係型數據庫中，嵌入式的默認使用

2020-02-21 20:28:52