原创 四、Azkaban調度Shell腳本
需求:通過Azkaban 調用 shell腳本,將當前時間追加到指定目錄的date.txt文件中 1、Liux下創建shell腳本 mkdir azkaban_schedule cd azkaban_schedule/ vim s
原创 Flink DataSet API (三)Data Sinks
原文鏈接:https://www.cnblogs.com/niutao/p/10548466.html flink在批處理中常見的sink 1.基於本地集合的sink(Collection-b
原创 二、python3之模塊urllib
原文鏈接:https://www.cnblogs.com/zhangxinqi/p/9170312.html 閱讀目錄 1、urllib.request.urlopen() 2、urllib.r
原创 創建代理服務器
centos yum install tinyproxy vim /etc/tinyproxy/tinyproxy.conf #1、註釋掉 alow 127.0.0.1 #2、修改端口號 Port 自定義一個端口號 #3、保存退出 #4
原创 Spark 讀寫Hive分桶表
原文鏈接:https://stackoverflow.com/questions/53476945/read-write-bucketed-tables-in-spark?r=SearchResul
原创 Flink Dataset Api(七)分佈式緩存
原文鏈接:https://www.cnblogs.com/niutao/p/10548489.html Flink提供了一個類似於Hadoop的分佈式緩存,讓並行運行實例的函數可以在本地訪問。這
原创 一、讀寫圖片和添加logo
OpenCV (4.1.1) 1、讀取和保存圖片 import numpy as np import cv2 from matplotlib import pyplot as plt # img = cv2.imread("test
原创 Flink DataSet API (二) Transformation
原文鏈接:https://www.cnblogs.com/niutao/p/10548385.html 目錄 一、flatMap函數 二、mapPartition函數 四、filter函數
原创 Flink Dataset Api(六)廣播變量
原文鏈接:https://www.cnblogs.com/niutao/p/10548481.html Flink支持廣播變量,就是將數據廣播到具體的taskmanager上,數據存儲在內存中,
原创 spark核心技術原理透視一(Spark運行原理)
原文鏈接:https://blog.csdn.net/liuxiangke0210/article/details/79687240 一、Spark專業術語定義 1、Application:
原创 獨孤九劍-Spark面試80連擊(上)
原文鏈接:https://mp.weixin.qq.com/s/i1ZkCbhUM7Dcygvn2CrTSw 場景描述:這是一個Spark的面試題合集。是我自己作爲面試者和作爲面試官都會被問到或
原创 二、Flink從入門到放棄-本地環境搭建&構建第一個Flink應用
原文鏈接:https://www.jianshu.com/p/88e175355d7e https://www.jianshu.com/p/88e175355d7e
原创 三、Azkaban調度Shell腳本
需求:通過Azkaban 調用 shell腳本,將當前時間追加到指定目錄的date.txt文件中 1、Liux下創建shell腳本 mkdir azkaban_schedule cd azkaban_schedule/ vim s
原创 一、Flink是什麼
原文鏈接:https://www.jianshu.com/p/26bd686b9517 一句話概括 Apache Flink是一個面向分佈式數據流處理和批量數據處理的開源計算平臺,提供支持流處理
原创 五、Flink 集羣部署
原文鏈接:https://github.com/wangzhiwubigdata/God-Of-BigData/blob/master/Flink/Flink%E9%9B%86%E7%BE%A4%E