原创 Spark學習(3)——Spark基於Standalone+Yarn任務提交流程詳解

一、Standalone模式兩種提交任務方式 1.1、Standalone-client提交任務方式 (1)提交命令 ./spark-submit --master spark://node1:7077 --class org.ap

原创 Spark學習(4)——Spark任務提交參數詳解

一、Spark-Submit提交參數 1.1、補充算子 transformations: (1)mapPartitionWithIndex:類似於mapPartitions,除此之外還會攜帶分區的索引值。 (2)repartition:增

原创 Spark學習(6)——SparkSQL(1)

一、SparkSQL介紹 1.1、Shark介紹 hark是基於Spark計算框架之上且兼容Hive語法的SQL執行引擎,由於底層的計算採用了Spark,性能比MapReduce的Hive普遍快2倍以上,當數據全部load在內存的話,將快

原创 Spark學習(5)——Spark源碼學習(1)

一、廣播變量和累加器 1.1、廣播變量 (1)廣播變量使用 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = new S

原创 Hadoop學習(7)——Hive高級應用(1)

一、Hive案例 1.1、統計出掉線率最高的前10基站 數據: record_time:通話時間 imei:基站編號 cell:手機編號 drop_num:掉話的秒數 duration:通話持續總秒數 (1)建表 create ta

原创 Hadoop學習(10)——Hbase介紹

一、Hbase介紹 1.1、Hbase簡介 Hadoop Database(Hbase): 是一個高可靠性、高性能、面向列、可伸縮、實時讀寫的分佈式數據庫; 利用Hadoop HDFS作爲其文件存儲系統,利用Hadoop MapReduc

原创 Spark學習(2)——Spark介紹

一、簡介 (1)什麼是Spark Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是Job中間輸出結果可以保存在內存中,從而

原创 Hadoop學習(9)——Hive優化

(1)核心思想:把Hive SQL 當做Mapreduce程序去優化 (2)以下SQL不會轉爲Mapreduce來執行 select僅查詢本表字段 where僅對本表字段做條件過濾 (3)Explain 顯示執行計劃:EXPLAIN [E

原创 Hadoop學習(8)——Hive高級應用(2)

一、Hive Lateral View (1)什麼是hive Lateral View / 作用 Lateral View用於和UDTF函數(explode、split)結合來使用。 首先通過UDTF函數拆分成多行,再將多行結果組合成

原创 Hadoop學習(6)——Hive SQL(3)高級用法

一、Hive分區  (1)Hive 分區partition:必須在表定義時指定對應的partition字段 a、單分區建表語句: create table day_table (id int, content string) parti

原创 Hadoop學習(5)——Hive SQL(2)語法

一、基礎命令 1.1、數據庫操作   show databases; # 查看某個數據庫   use 數據庫; # 進入某個數據庫   show tables; # 展示所有表   desc 表名; # 顯示錶結構   show par

原创 Hadoop學習(3)——Mapreduce案例分析

一、天氣案例:細粒度介紹計算框架 (1)需求:找出每個月氣溫最高的2天 (2)思路 每年 每個月 最高 2天 1天多條記錄? 進一部思考: 年月分組 溫度升序 key中要包含時間和溫度呀! MR原語:相同的key分到一組,通過Group

原创 Hadoop學習鏈接

1.HDFS介紹:https://blog.csdn.net/RuiKe1400360107/article/details/107080084 2.MapReduce介紹:https://blog.csdn.net/RuiKe14003

原创 Hadoop學習(1)——組件介紹(HDFS)

1.1、分佈式存儲系統HDFS 介紹 (1)存儲模型:字節 文件線性切割成塊(Block):偏移量 offset ; Block分散存儲在集羣節點中,單一文件Block大小一致,文件與文件可以不一致; Block可以設置副本數,副本無序分

原创 Hadoop學習(2)——組件介紹(MapReduce)

一、分佈式計算框架MapReduce介紹(計算向數據移動) 1.1、爲什麼叫MapReduce MR原語:map + reduce(MapTask & ReduceTask)輸入(格式化k,v)數據map映射成一箇中間數據集(k,v)re