原创 【MaxCompute】MaxCompute SQL with as 語句

COMMON TABLE EXPRESSION(CTE) MaxCompute支持SQL標準的CTE,提高SQL語句的可讀性與執行效率。 命令格式: WITH cte_name AS ( cte

原创 【Spark】Spark cache的用法及其誤區分析

Spark cache的用法及其誤區: 一、Cache的用法注意點: (1)cache之後一定不能立即有其它算子,不能直接去接算子。因爲在實際工作的時候,cache後有算子的話,它每次都會重新觸發這個計算過程。 (2)cache不

原创 【MaxCompute】實現自定義UDF、UDTF詳解

背景及目的 本文簡單地介紹了一下如何新建工程,添加代碼,打包,上傳資源包和註冊方法,對初次接觸的用戶提供幫助。另外,詳解介紹通過UDF來滿足不同的計算需求。 UDF 開發流程如下: UDF概述 UDF全稱爲User Defined

原创 【Oozie】oozie學習筆記

Oozie英文翻譯爲:馴象人。一個基於工作流引擎的開源框架,由Cloudera公司貢獻給Apache,提供對HadoopMapreduce、Pig Jobs的任務調度與協調。Oozie需要部署到Java Servlet容器中運行。

原创 【Spark】Spark Streaming(二)—— DStream Transformation操作

本節主要內容 本節部分內容來自官方文檔:http://spark.apache.org/docs/latest/streaming-programming-guide.html DStream Transformation操作

原创 【Mysql】Mysql 入門詳解(一)

MySQL 一直是本人很薄弱的部分,後面會多輸出 MySQL 的文章貢獻給大家,畢竟 MySQL 涉及到數據存儲、鎖、磁盤尋道、分頁等操作系統概念,而且互聯網對 MySQL 的注重程度是不言而喻的,後面要加緊對 MySQL 的研究

原创 【Qucik BI】查詢控件詳解,分分鐘成爲數據分析師

情景再現: 現在有某大型連鎖超市的一整年的經營數據,分析師要將這些數據以一張報表的形式呈現給不同的人來看,分別是公司的CXO,業務線的管理者還有一線的業務人員。顯然,這些人關注的核心數據是不一樣的。CXO作爲公司的決策層,會關注這

原创 【Java】 牛客網華爲機試108題彙總

文章目錄1、求字符串最後一個單詞長度2、計算字符串個數3、明明的隨機數4、字符串分割5、進制轉換6、質數因子 1、求字符串最後一個單詞長度 計算字符串最後一個單詞的長度,單詞以空格隔開。 import java.util.Sc

原创 【Spark】Spark join()和cogroup()區別

官網對join和cogroup解釋 示例代碼: /** * join(otherDataSet,[numTasks]) * 加入一個RDD,在一個(k,v)和(k,w)類型的dataSet上調用,返回一個(k,

原创 【Java】TreeSet()詳解

1.概述 在本文中,我們將介紹Java Collections Framework的一個組成部分,以及最受歡迎的Set實現之一 TreeSet。 2. TreeSet簡介 簡而言之,TreeSet是一個有序集合,它擴展了Abstr

原创 【Spark】Spark Streaming(一)

1. Spark流式計算簡介 Hadoop的MapReduce及Spark SQL等只能進行離線計算,無法滿足實時性要求較高的業務需求,例如實時推薦、實時網站性能分析等,流式計算可以解決這些問題。目前有三種比較常用的流式計算框架,

原创 【ACP】阿里雲ACP吐血彙總(一)

文章目錄一、大數據基礎知識小結(1)數據分析(2)數據倉庫系統(3)數據倉庫解決的問題(4)大數據的理解二、阿里雲大數據產品體系(1)產品體系概況:(2)阿里雲數加平臺定位:(3)阿里雲大數據基礎產品:(4)阿里雲數加平臺:三、大

原创 【Hive】數倉建設之拉鍊表

全文由下面幾個部分組成: 先分享一下拉鍊表的用途、什麼是拉鍊表。 通過一些小的使用場景來對拉鍊表做近一步的闡釋,以及拉鍊表和常用的切片表的區別。 舉一個具體的應用場景,來設計並實現一份拉鍊表,最後並通過一些例子說明如何使用我們設

原创 【Flink】Flink入門(一)

文章目錄一、Flink 簡介二、Flink 的重要特點2.1 事件驅動型(Event-driven)2.2 流與批的世界觀2.3 分層api三、Flink 幾大模塊 一、Flink 簡介 Flink 起源於 Stratospher

原创 【Flink】Flink 入門(二)-- 架構詳解

文章目錄一、 Flink 運行時的組件二、任務提交流程三、任務調度原理3.1 TaskManger 與 Slots3.2 程序與數據流(DataFlow)3.3 執行圖(ExecutionGraph)3.4 並行度(Paralle