原创 Flink on yarn

  1.Flink on yarn執行方式和提交命令 第一種:是先開闢資源然後在進行資源的調度使用,開闢的資源是供所有的flink進程來使用的,如果某一時刻沒有flink程序執行開闢的資源會空轉等待新的flink進程。   第二種:是一

原创 SparkStreaming消費kafka數據堆積問題(即生產者生產數據速率>>消費者消費數據速率)

  Spark直連kafka解決方案: 注意:spark直連kafka spark的分區數和kafka的分區數是一致的   1.增加kafka的分區數,相當於增加了spark的分區數,分區數增加處理數據能力上升。但是分區數量不要少於服務器

原创 Spark 連接kafka的兩種(Receiver與Direct)方式的區別

  Receiver方式: Receiver方式是使用高級API,需要消費者連接zookeeper來讀取數據。是由zookeeper來維護偏移量,不用我們手動維護,這樣的話就比較簡單,減少了代碼量。但是特有很多缺點: 丟失數據。他是由

原创 spark 中stage 和 task的劃分

stage 和 task 的劃分問題。只要在 ShuffleDependency 處斷開,就只剩 NarrowDependency,而 NarrowDependency chain 是可以進行 pipeline 的。   所以劃分算法就是

原创 shell腳本的符號命令含義

$0: shell或shell腳本的名字 $*:以一對雙引號給出參數列表 $@:將各個參數分別加雙引號返回 $#:參數的個數 $_:代表上一個命令的最後一個參數 $$:代表所在命令的PID $!:代表最後執行的後臺命令的PID $?:代表

原创 大數據各組件默認端口號彙總

Hadoop:         50070:HDFS WEB UI端口     8020 : 高可用的HDFS RPC端口     9000 : 非高可用的HDFS RPC端口     8088 : Yarn 的WEB UI 接口    

原创 數據倉庫定時任務(crontab+datax)

1.環境要求 我安裝的是JDK1.8,Python2.7.13 記錄下使用crontab,datax定時同步數據遇到的問題。 1.開始使用如下配置,死活不執行。網上說crontab環境便利的問題,設置了也沒反應。 [root@hdp-

原创 sparksql連接阿里雲ElasticSearch

package com.aiads import org.apache.spark.sql.SparkSession object SparkCEs {   def main(args: Array[String]): Unit = {

原创 記錄Spark連接阿里雲的ES

/** * spark連接阿里雲ES */ val conf = new SparkConf().setMaster("local[*]").setAppName("RecommendMovie") conf.set("es.

原创 記錄一次用spark java寫文件到本地(java推薦算法)

import org.apache.spark.api.java.JavaRDD; import org.apache.spark.ml.evaluation.RegressionEvaluator; import org.apache

原创 連接ElasticSearch需要的代碼和參數

阿里雲代碼:https://help.aliyun.com/document_detail/69194.html?spm=a2c4g.11186623.6.552.315a483evqVhPj 需要測試人員給開發人員賬號密碼,公網地址(公

原创 maven中jar包排除

      <dependency> <groupId>com.typesafe.akka</groupId> <artifactId>akka-actor_2.10</artifactId> <version>

原创 理解spark中的閉包問題

                                                                               理解spark中的閉包 (spark官方文檔“spark.apachecn.or

原创 Spark中的二次排序(最簡版)

Spark中的二次排序(簡化版) 1,代碼解析: 運行結果: (de,17,30) (db,14,28) (da,15,28) (dc,17,28) (dd,17,10) 對比此代碼即可知ordering,on方法 object S

原创 Hive的簡單總結

1.什麼是HIVE1.hive是一個工具,用於將輸入的sql語句翻譯成MapReduce程序,對HDFS中的數據進行增刪改查和運算,並將結果存入HDFS中。 2.HIVE的工作機制核心: HIVE 利用HDFS來存儲文件; 利用Mapre