原创 四、Azkaban調度Shell腳本

需求:通過Azkaban 調用 shell腳本,將當前時間追加到指定目錄的date.txt文件中 1、Liux下創建shell腳本 mkdir azkaban_schedule cd azkaban_schedule/ vim s

原创 Flink DataSet API (三)Data Sinks

原文鏈接:https://www.cnblogs.com/niutao/p/10548466.html flink在批處理中常見的sink 1.基於本地集合的sink(Collection-b

原创 二、python3之模塊urllib

原文鏈接:https://www.cnblogs.com/zhangxinqi/p/9170312.html 閱讀目錄 1、urllib.request.urlopen() 2、urllib.r

原创 創建代理服務器

centos yum install tinyproxy vim /etc/tinyproxy/tinyproxy.conf #1、註釋掉 alow 127.0.0.1 #2、修改端口號 Port 自定義一個端口號 #3、保存退出 #4

原创 Spark 讀寫Hive分桶表

原文鏈接:https://stackoverflow.com/questions/53476945/read-write-bucketed-tables-in-spark?r=SearchResul

原创 Flink Dataset Api(七)分佈式緩存

原文鏈接:https://www.cnblogs.com/niutao/p/10548489.html Flink提供了一個類似於Hadoop的分佈式緩存,讓並行運行實例的函數可以在本地訪問。這

原创 一、讀寫圖片和添加logo

OpenCV  (4.1.1) 1、讀取和保存圖片 import numpy as np import cv2 from matplotlib import pyplot as plt # img = cv2.imread("test

原创 Flink DataSet API (二) Transformation

原文鏈接:https://www.cnblogs.com/niutao/p/10548385.html 目錄   一、flatMap函數 二、mapPartition函數 四、filter函數

原创 Flink Dataset Api(六)廣播變量

原文鏈接:https://www.cnblogs.com/niutao/p/10548481.html Flink支持廣播變量,就是將數據廣播到具體的taskmanager上,數據存儲在內存中,

原创 spark核心技術原理透視一(Spark運行原理)

原文鏈接:https://blog.csdn.net/liuxiangke0210/article/details/79687240   一、Spark專業術語定義 1、Application:

原创 獨孤九劍-Spark面試80連擊(上)

原文鏈接:https://mp.weixin.qq.com/s/i1ZkCbhUM7Dcygvn2CrTSw 場景描述:這是一個Spark的面試題合集。是我自己作爲面試者和作爲面試官都會被問到或

原创 二、Flink從入門到放棄-本地環境搭建&構建第一個Flink應用

原文鏈接:https://www.jianshu.com/p/88e175355d7e https://www.jianshu.com/p/88e175355d7e

原创 三、Azkaban調度Shell腳本

需求:通過Azkaban 調用 shell腳本,將當前時間追加到指定目錄的date.txt文件中 1、Liux下創建shell腳本 mkdir azkaban_schedule cd azkaban_schedule/ vim s

原创 一、Flink是什麼

原文鏈接:https://www.jianshu.com/p/26bd686b9517 一句話概括 Apache Flink是一個面向分佈式數據流處理和批量數據處理的開源計算平臺,提供支持流處理

原创 五、Flink 集羣部署

原文鏈接:https://github.com/wangzhiwubigdata/God-Of-BigData/blob/master/Flink/Flink%E9%9B%86%E7%BE%A4%E