原创 Shell 詳解

[TOC]——主要來自《Red Hat Linux指南:基礎與系統管理篇》《Linux命令行與shell腳本編程大全.第3版》 1、shell 要點:命令行、標準輸入和標準輸出、重定向、管道、後臺運行程序、kill:終止後臺作業、文件名生成

原创 基本的 RDD 操作——PySpark

基本的 RDD 轉化操作map()    語法:RDD.map(<function>,preservesPartitoning=False)    轉化操作 map() 是所有轉化操作中最基本的。它將一個具名函數或匿名函數對數據集內的所有元

原创 Hive lateral view 與 explode

explode(官網鏈接)    explode 是一個 UDTF(表生成函數),將單個輸入行轉換爲多個輸出行。一般和 lateral view 結合使用,主要有兩種用法:輸入類型使用方法描述Texplode(ARRAY<T> a)將數組分

原创 Python 數值類型——《Python學習手冊》第 5 章學習筆記

數值類型基礎知識 在 Python 中,數字並不真的是隻是一種對象類型,而是一組相似類型的分類。完整的 Python 數值類型工具包括:整數和浮點對象;複數對象;小數:固定精度對象;分數:有理數對象;集合:帶有數值運算的集合體;布爾值:真和

原创 官網_2.6.5_HDFS高可用性使用仲裁日誌管理器(HDFS HA QJM)

目的(Purpose)使用仲裁日誌管理器(QJM)功能概述了HDFS高可用性(HA)功能以及如何配置和管理HA HDFS羣集。背景(Background)在Hadoop 2.0.0之前,NameNode是HDFS集羣中的單點故障(SPOF)

原创 官網_2.6.5_HDFS Commands

概觀(Overview)所有HDFS命令都由$HADOOP_HOME/bin/hdfs腳本調用。不帶任何參數運行hdfs腳本將打印所有命令的描述。Usage: hdfs [--config confdir] [COMMAND] [GENER

原创 常用HiveQL

1、在命令行提示符前顯示操作的數據庫:hive > set hive.cli.print.current.db=true;2、查詢結果顯示字段名稱:hive > set hive.cli.print.header=true;3、執行shel