原创 mysql逗號分隔List字段轉多行

具體的邏輯我還沒整明白,先記上再說,親測可用。 1、原表數據 select a1.id,a1.job_depends from job_version_history a1 where a1.id in (1655,1656); id

原创 標籤庫建設

一、標籤庫定位 標籤庫以標籤形式統一客戶羣數據的封裝規範和操作風格,從而實現客戶洞察知識的沉澱及共享,並通過產品化的形式實現目標客戶羣的快速生成和發佈,提升營銷渠道的客戶羣投放效率,標籤庫建設的目的就是爲了營銷,而不是爲了分析。 企業的標

原创 需用歷史全量數據計算的替代方案

比如,計算第一次、總量等,正常情況下需要用到所有歷史數據進行計算。但有些表數據特別大,用全景歷史數據計算比較費力,可能就算不出來。 這時,可以考慮用這種方式。其優點是,數據涉及到的數據量偏小;其缺點也很明顯,需要從歷史數據起始之日,一天天

原创 數據湖淺析

一、什麼是數據湖? ODS(operational data store, staging area)存儲來自各業務系統(生產系統)的原始數據,即爲數據湖。CDM(common dimension model)爲經過整合、清洗的數據。其

原创 配合任務遷移數倉ETL腳本按需替換方案2

參考:https://blog.csdn.net/BabyFish13/article/details/103516408 1、固定庫名替換成參數腳本 /Users/nisj/Documents/wptDataGit-nisj/wptDa

原创 Hive 內外表轉換、表結構複製、動態分區等實操

內部表和外部表的轉換 alter table tablePartition set TBLPROPERTIES ('EXTERNAL'='TRUE');  //內部錶轉外部表 alter table tablePartition set

原创 由LEFT SEMI JOIN所聯想到的

一、LEFT SEMI JOIN 與 INNER JOIN的區別 1. LEFT SEMI JOIN  LEFT SEMI JOIN 是 IN/EXISTS 子查詢的一種更高效的實現。 Hive 當前沒有實現 IN/EXISTS 子查詢,

原创 金融行業用戶畫像六大維度

隨着移動互聯網時代的到來,金融服務從以產品爲中心逐漸轉向以消費者爲中心。而金融消費主力人羣也趨於年輕化,金融行業無法像過去一樣從對話就能瞭解年輕人的想法,而對於年輕人金融產品的需求出現多元化,更需要我們細分客戶併爲其開發設計產品。爲此,金

原创 阿里雲高級技術專家李金波:優秀數倉的要素及如何從傳統數倉轉型做互聯網數倉?

介然(李金波),阿里雲高級技術專家,現任阿里雲大數據數倉解決方案總架構師。8年以上互聯網數據倉庫經歷,對系統架構、數據架構擁有豐富的實戰經驗,曾經數據魔方、淘寶指數的數據架構設計專家。 優秀數倉的三要素:清晰、保障和擴展性好 介然認爲,優

原创 互聯網數倉之:Lambda架構 vs Kappa架構

一、Lambda 架構 Lambda 架構由Storm的作者Nathan Marz提出,其設計目的在於提供一個能滿足大數據系統關鍵特性的架構,包括高容錯、低延遲、可擴展等。其整合離線計算與實時計算,融合不可變性、讀寫分離和複雜性隔離等原

原创 常見的幾種消息中間件

消息隊列已經逐漸成爲企業IT系統內部通信的核心手段。它具有低耦合、可靠投遞、廣播、流量控制、最終一致性等一系列功能,成爲異步RPC的主要手段之一。當今市面上有很多主流的消息中間件,如老牌的ActiveMQ、RabbitMQ,炙手可熱的Ka

原创 值得借鑑和思考的若干數倉相關架構圖

1、知乎實時數據分層架構 2、較不常見的一種離線架構 3、數倉、大數據平臺、數據中臺的幾個架構圖 1)、數倉技術架構和功能架構 功能架構圖: 技術架構圖: 2)、大數據平臺架構 3)、數據中臺架構 4、其他(待整理...) .

原创 數據中臺研發實踐

轉自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:顏博,馬蜂窩數倉研發總監 1、數據處理架構 下面是一個簡單的數據處理架

原创 數據中臺架構與技術選型

轉自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:顏博,馬蜂窩數倉研發總監 1、數據中臺架構核心組成 我認爲的數據中臺核

原创 大數據演進:從數據倉庫到數據中臺

轉自:https://www.sohu.com/a/396680882_411876?scm=1002.44003c.17c024f.PC_ARTICLE_REC作者:顏博,馬蜂窩數倉研發總監 第一階段 21世紀的第一個10年,企業級數據