原创 HIVE學習四:Window And Analytical Function

文章目錄標準sql裏的窗口函數和分析函數介紹(爲什麼引入窗口函數)Window functions的類型Aggregate Window FunctionsRanking Window FunctionsValue Window

原创 HIVE LanguageManual Select

文章目錄select語法where語句ALL and DISTINCT 語句Partition Based QueriesPartition Filter SyntaxGroup ByMap-side Aggregation fo

原创 HIVE學習三:partition和bucket及Join

文章目錄Partition爲什麼需要Partition如何創建PartitionPartition的兩種類型 static VS dynamic生成測試數據動態分區驗證Bucket爲什麼要引入Bucket特點及優點創建Bucket

原创 HIVE Tutorial

文章目錄介紹Hive ArchitechtureHive ClientHive ServiceProcessing Framework and Resource ManagementDistributed StorageHive的

原创 SequenceFile文件原理及使用

文章目錄介紹Sync points(同步點)SequenceFile的壓縮形式SequenceFile的文件格式SequenceFile文件的header格式無壓縮的SequenceFile文件格式Record壓縮的Sequenc

原创 Spark -- RDD兩種算子:Transformation 和 Action

文章目錄Transformationmap(func)filter(func)flatMap(func)mapPartitions(func)mapPartitionsWithIndex(func)sample(withRepla

原创 Spark學習三:RDD介紹及編程

文章目錄Overview(總覽)Linking with SparkInitializing SparkUsing the ShellResilient Distributed Datasets (RDDs)Parallelize

原创 Spark學習二:spark基礎理論知識

文章目錄Spark生態系統Components (組件)Glossary(術語表)deploy mode中cluster和client的區別Spark和Hadoop作業之間的區別MapReduce的task進程模型和Spark的t

原创 Vim一些實用技巧

文章目錄Vim中的幾種模式Vim光標移動Vim中的Split Layouts(分割佈局)vim在系統剪切板的複製與粘貼Linux命令行下實用的命令!(驚歎號)的秒用Linux中的&& || ()vim中常用實用的技巧vim插件管理

原创 數據庫mysql、mariadb、postgresql:安裝

文章目錄服務器環境安裝mariadbConnector(驅動包)安裝mysqlConnector(驅動包)安裝postgresqlConnector(驅動包) 服務器環境 CentOS7 x86_64 [root@slave2 y

原创 Spark學習一:安裝、IDEA編寫代碼

文章目錄Spark下載和安裝Spark的部署模式spark on yarnIDEA編寫spark程序下載Scala安裝Scala插件建立Maven工程編寫wordcount程序打成jar包驗證JAR包 Spark下載和安裝 可以去

原创 Spark學習四:Spark架構設計和RDD的stage劃分

文章目錄架構設計Spark運行基本流程RDD之間的依賴關係stage的劃分RDD運行過程參考網址 架構設計 學習完Spark學習二:spark基礎理論知識,我們可以對Spark的一些組件和術語應該有了基本的認識,下面介紹Spark

原创 Hadoop Streaming思考總結

文章目錄Hadoop StreamingHow Streaming WorksStreaming Command OptionsGeneric Command OptionsSpecifying Map-Only Jobs單詞統計

原创 MapReduce全局程序計數器Counters

文章目錄Counters定義以源碼的TaskCounter計數器爲例自定義Counter例子 Counters定義 Counters represent global counters, defined either by th

原创 Spark -- Monitoring(spark作業監控和測量)

文章目錄Monitoring and Instrumentation (監控和測量)Web Interfaces(web界面)Viewing After the Fact (事後查看)Environment VariablesSp