台部落Morgan

1.Flink on yarn執行方式和提交命令第一種:是先開闢資源然後在進行資源的調度使用，開闢的資源是供所有的flink進程來使用的，如果某一時刻沒有flink程序執行開闢的資源會空轉等待新的flink進程。第二種:是一

2019-05-07 10:38:22

Spark直連kafka解決方案：注意：spark直連kafka spark的分區數和kafka的分區數是一致的 1.增加kafka的分區數，相當於增加了spark的分區數，分區數增加處理數據能力上升。但是分區數量不要少於服務器

2019-04-28 15:08:56

Receiver方式： Receiver方式是使用高級API，需要消費者連接zookeeper來讀取數據。是由zookeeper來維護偏移量，不用我們手動維護，這樣的話就比較簡單，減少了代碼量。但是特有很多缺點：丟失數據。他是由

2019-04-25 12:42:45

stage 和 task 的劃分問題。只要在 ShuffleDependency 處斷開，就只剩 NarrowDependency，而 NarrowDependency chain 是可以進行 pipeline 的。　　所以劃分算法就是

2019-04-24 09:54:12

$0: shell或shell腳本的名字 $*:以一對雙引號給出參數列表 $@:將各個參數分別加雙引號返回 $#:參數的個數 $_:代表上一個命令的最後一個參數 $$:代表所在命令的PID $!:代表最後執行的後臺命令的PID $?:代表

2018-12-23 17:53:23

Hadoop： 50070：HDFS WEB UI端口 8020 ：高可用的HDFS RPC端口 9000 ：非高可用的HDFS RPC端口 8088 ： Yarn 的WEB UI 接口

2018-12-13 17:37:46

1.環境要求我安裝的是JDK1.8，Python2.7.13 記錄下使用crontab,datax定時同步數據遇到的問題。 1.開始使用如下配置，死活不執行。網上說crontab環境便利的問題，設置了也沒反應。 [root@hdp-

2018-12-12 17:42:32

1

package com.aiads import org.apache.spark.sql.SparkSession object SparkCEs { def main(args: Array[String]): Unit = {

2018-11-03 23:27:06

/** * spark連接阿里雲ES */ val conf = new SparkConf().setMaster("local[*]").setAppName("RecommendMovie") conf.set("es.

2018-10-27 03:01:06

import org.apache.spark.api.java.JavaRDD; import org.apache.spark.ml.evaluation.RegressionEvaluator; import org.apache

2018-10-27 03:01:06

阿里雲代碼：https://help.aliyun.com/document_detail/69194.html?spm=a2c4g.11186623.6.552.315a483evqVhPj 需要測試人員給開發人員賬號密碼，公網地址（公

2018-10-27 03:01:06

<dependency> <groupId>com.typesafe.akka</groupId> <artifactId>akka-actor_2.10</artifactId> <version>

2018-08-29 06:51:27

理解spark中的閉包（spark官方文檔“spark.apachecn.or

2018-08-29 06:51:27

Spark中的二次排序（簡化版） 1，代碼解析：運行結果： (de,17,30) (db,14,28) (da,15,28) (dc,17,28) (dd,17,10) 對比此代碼即可知ordering,on方法 object S

2018-08-29 06:51:27

2

1.什麼是HIVE1.hive是一個工具，用於將輸入的sql語句翻譯成MapReduce程序，對HDFS中的數據進行增刪改查和運算，並將結果存入HDFS中。 2.HIVE的工作機制核心： HIVE 利用HDFS來存儲文件；利用Mapre

2018-08-29 06:51:27

3