台部落V瑞

一、Standalone模式兩種提交任務方式 1.1、Standalone-client提交任務方式（1）提交命令 ./spark-submit --master spark://node1:7077 --class org.ap

2020-07-07 08:43:35

一、Spark-Submit提交參數 1.1、補充算子 transformations：（1）mapPartitionWithIndex：類似於mapPartitions,除此之外還會攜帶分區的索引值。（2）repartition：增

2020-07-07 08:43:35

一、SparkSQL介紹 1.1、Shark介紹 hark是基於Spark計算框架之上且兼容Hive語法的SQL執行引擎，由於底層的計算採用了Spark，性能比MapReduce的Hive普遍快2倍以上，當數據全部load在內存的話，將快

2020-07-07 08:43:35

一、廣播變量和累加器 1.1、廣播變量（1）廣播變量使用 val conf = new SparkConf() conf.setMaster("local").setAppName("brocast") val sc = new S

2020-07-07 08:43:35

一、Hive案例 1.1、統計出掉線率最高的前10基站數據： record_time：通話時間 imei：基站編號 cell：手機編號 drop_num：掉話的秒數 duration：通話持續總秒數（1）建表 create ta

2020-07-06 17:21:26

一、Hbase介紹 1.1、Hbase簡介 Hadoop Database（Hbase）: 是一個高可靠性、高性能、面向列、可伸縮、實時讀寫的分佈式數據庫; 利用Hadoop HDFS作爲其文件存儲系統，利用Hadoop MapReduc

2020-07-06 15:42:02

一、簡介（1）什麼是Spark Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。Spark擁有Hadoop MapReduce所具有的優點；但不同於MapReduce的是Job中間輸出結果可以保存在內存中，從而

2020-07-06 15:41:52

（1）核心思想：把Hive SQL 當做Mapreduce程序去優化（2）以下SQL不會轉爲Mapreduce來執行 select僅查詢本表字段 where僅對本表字段做條件過濾（3）Explain 顯示執行計劃：EXPLAIN [E

2020-07-06 15:41:52

一、Hive Lateral View （1）什麼是hive Lateral View / 作用 Lateral View用於和UDTF函數（explode、split）結合來使用。首先通過UDTF函數拆分成多行，再將多行結果組合成

2020-07-06 15:41:52

一、Hive分區（1）Hive 分區partition：必須在表定義時指定對應的partition字段 a、單分區建表語句： create table day_table (id int, content string) parti

2020-07-04 02:44:23

一、基礎命令 1.1、數據庫操作　　show databases; # 查看某個數據庫　　use 數據庫; # 進入某個數據庫　　show tables; # 展示所有表　　desc 表名; # 顯示錶結構　　show par

2020-07-04 02:44:23

一、天氣案例：細粒度介紹計算框架（1）需求：找出每個月氣溫最高的2天（2）思路每年每個月最高 2天 1天多條記錄？進一部思考：年月分組溫度升序 key中要包含時間和溫度呀！ MR原語：相同的key分到一組，通過Group

2020-07-03 16:45:22

1.HDFS介紹：https://blog.csdn.net/RuiKe1400360107/article/details/107080084 2.MapReduce介紹：https://blog.csdn.net/RuiKe14003

2020-07-03 16:45:22

1.1、分佈式存儲系統HDFS 介紹（1）存儲模型：字節文件線性切割成塊（Block）:偏移量 offset ； Block分散存儲在集羣節點中，單一文件Block大小一致，文件與文件可以不一致； Block可以設置副本數，副本無序分

2020-07-03 16:45:22

一、分佈式計算框架MapReduce介紹（計算向數據移動） 1.1、爲什麼叫MapReduce MR原語：map + reduce（MapTask & ReduceTask）輸入(格式化k,v)數據map映射成一箇中間數據集(k,v)re

2020-07-03 16:45:21