原创 數據倉庫 - 事實表開發實踐(IoT場景)

一、事實表分類 1. 以粒度劃分 (1) 事務事實表(Transaction Grain Fact Table) 一條記錄代表了業務系統中的一個事件。事務出現後,就會在事實中出現一條記錄。以訂單域舉例:下單是一個事實;付款是一個事實;退款

原创 數據倉庫 - 拉鍊表開發實踐

一、什麼是拉鍊表 拉鍊表是針對數據倉庫設計中表存儲數據的方式而定義的,顧名思義,所謂拉鍊,就是記錄歷史。記錄一個事物從開始,一直到當前狀態的所有變化的信息。 二、拉鍊表開發 案例:客戶數據拉鍊表 2x01 表設計 表 存儲介質 T_CUS

原创 運行Spark GraphX Pregel出現Issue communicating with driver in heartbeater異常

最近基於Spark GraphX Pregel開發了一個ETL任務,運行過程中會報Issue communicating with driver in heartbeater,然後就是Connection refused錯誤。 經分析,S

原创 Spark first, last函數的坑

Spark SQL的聚合函數中有first, last函數,從字面意思就是根據分組獲取第一條和最後一條記錄的值,實際上,只在local模式下,你可以得到滿意的答案,但是在生產環境(分佈式)時,這個是不能保證的。看源碼的解釋: /**

原创 python 數據分析學習 - 股票數據(一)

免責聲明:本人不是專業人士,純粹個人愛好,如有錯誤歡迎指正。 一、數據採集 本文分析的對象是股票數據,數據採集渠道和方式很多,可以自己寫爬蟲,也可以用開源的工具。這裏我們使用開源工具tushare, https://tushare.pro

原创 使用Flink Watermark sideOutputLateData的坑

Flink Watermark是用於處理數據亂序問題,網上已經有很多優秀的文章介紹,這裏就不重複了。參考: https://ci.apache.org/projects/flink/flink-docs-release-1.10/dev/

原创 主數據管理(Master Data Management)

一、什麼是主數據? 主數據是爲了解決企業對數據一致性、時效性的需求應運而生。 主數據是用於描述企業運營過程中最爲關心的核心數據。它通常更新不頻繁,它不是事務性的但用於描述事務。最爲典型的主數據例如客戶(Customer)、產品(Produ

原创 數據治理(Data Governance)

什麼是數據治理? 百度百科解釋: 數據治理(Data Governance)是組織中涉及數據使用的一整套管理行爲。由企業數據治理部門發起並推行,關於如何制定和實施針對整個企業內部數據的商業應用和技術管理的一系列政策和流程。 國際數據管理協

原创 初識推薦引擎

推薦引擎是數據應用的經典例子,典型的應用場景如亞馬遜的商品推薦。 根據推薦引擎的數據源分類可分爲三種: 根據系統用戶的基本信息發現用戶的相關程度,這種被稱爲基於人口統計學的推薦(Demographic-based Recommendati

原创 Spark GraphX Pregel 應用

一、Pregel介紹 Pregel是一種基於BSP模型實現的並行圖處理系統。 BSP(Bulk Synchronous Parallel Computing Model,塊同步並行計算模型,又稱“大同步”模型)計算過程包括一系列全局超步(

原创 數據倉庫 - 樹形結構的維表開發實踐

一、概述 根據星型模型的概念,不存在漸變維度,數據存在冗,典型例子地域維度表,如國家,省,市這種樹形數據結構。 OLTP數據結構: id pid name 1   中國 2 1 廣東省 3 2 深圳 期望的星型模型數據結構: id cou

原创 Flink出現Caused by: java.lang.LinkageError: loader constraint violation錯誤

Flink出現Caused by: java.lang.LinkageError: loader constraint violation錯誤,這是由於Flink的包加載機制引起的。 原因: 類加載順序問題,可以在flink-conf.y

原创 華爲FusionInsight HD spark寫PostgreSQL的包衝突問題

在使用華爲FusionInsight大數據產品過程中遇到一個坑,項目需求是利用spark處理數據後把結果集寫入PostgreSQL,但是一直報用戶名密碼不正確。經定位發現,華爲FI產品中有一個組件叫DBService,其中使用華爲修改的o

原创 Spark讀HBASE - shc方案

shc是hortonworks出品的開源方案,基於spark的特性,分片處理,並通過謂詞下推,提高處理性能。 1. 引入依賴包 <dependency> <groupId>com.hortonworks</groupId>

原创 Flink 利用KeyedProcessFunction處理數據超時沒有流入問題

需求背景:當流超時沒有數據流入,發出告警通知。 思路: KeyedProcessFunction中有onTimer()方法,將時間註冊到timerService中,在指定時間觸發onTimer()方法,在onTimer()中結合State