原创 取之開源,用之開源——深度剖析阿里巴巴對Apache Flink的優化與改進

Apache Flink 概述 Apache Flink(以下簡稱Flink)是誕生於歐洲的一個大數據研究項目,原名StratoSphere。該項目是柏林工業大學的一個研究性項目,早期專注於批計算。2014年,StratoSphere項目中

原创 友盟+CEO朋新宇:DI進化,是選擇更是態度

10月16日,友盟+主辦的2018UBDC全域大數據峯會在北京舉辦。峯會以“DI·進化”爲主題——8小時,10餘家黑科技企業,超40位國內頂級專家主題分享,近3500位數據從業者共同見證,旨在讓更多企業“會用數據,用好數據”,最終推動持續業

原创 百度世界發佈渡鴉新品,軟硬件結合更懂生活

百度世界發佈劃時代產品,軟硬件結合更懂智能生活 11 月 16 日,2017 百度世界大會在北京盛大舉行。百度在會上發佈了手機百度 10.0 和全新人工智能硬件“Raven H”等軟硬件產品。百度董事長兼首席執行官李彥宏在主題演講中表示,十

原创 ETL系列專題5——L之DimLoad

ETL系列專題5——Load之DimLoad Warren [email protected] L(Load),裝載,就是把準備好的數據加載到Star-Schema。Kimball把這個步驟稱作Delivery,這個詞在軟件業務中更專業

原创 ETL系列專題 1——DW/BI的基石

ETL系列專題 1——DW/BI的基石 Warren [email protected] 在DW領域中真的不敢說有什麼大的經驗,因爲之前一起工作的中外同事都不知道要比我高深多少。如果說他們是太平洋,我充其量就是我現在身邊的這杯水,還被

原创 ETL系列專題2——ETL中的數據結構

數據結構這個名詞對計算機科學專業的同行一定十分熟悉,在我們工作中也是無處不在地使用數據結構,本章節首先介紹一下數據結構的概念和主要作用(請大家忍受一下筆者的囉嗦),然後着重介紹一下數據結構在ETL中的使用。 什麼是數據結構 數據結構是針對

原创 ETL系列專題4——ETL之T

ETL系列專題4——ETL之T 轉換(Transform),是ETL過程中最複雜的部分,ETL中E和L都非常容易理解,Extract從源系統中提取數據,Load將數據載入星型模型。而轉換的過程涉及到更多的內容,Kimball把這個過程拆解

原创 Oralce GoldenGate與Kafka集羣集成

本文介紹如何配置Oracle GoldenGate 同步數據到Kafka,包括OGG源端安裝配置,OGG for Big Data replication安裝配置,以及如何與Kafka集羣集成。 軟件準備 1.     Or

原创 ETL系列專題6——Load之FactLoad

ETL系列專題6——Load之FactLoad Warren [email protected] 事實表包含企業業務分析所需要的量度,通常表現爲數值型數據。那麼事實表和量度的關係怎樣?可以這麼理解,如果有一個量度,那麼它會存在於事實表中

原创 OGG Defgen 使用方法

使用OGG抽取Oracle數據,有時 我們需要在Replication端設置SourceDefs屬性,這樣Replicat才能正確解析Trail流。OGG提供了defgen工具幫我們提取源端的表定義信息。 如果大家在啓動Replicati

原创 ETL 38子系統

To create a successful data warehouse, rely on best practices, not intuition. Three little letters -- E,T, and L -- ob

原创 SQL Server 執行連接的方式 - Merge Join

The merge join requires both inputs to be sorted on the merge columns, which are defined by the equality (ON) clauses

原创 SQL Server 執行連接的方式 - Nested Loops Joins

The nested loops join, also called nested iteration, uses one join input as the outer input table (shown as the top i

原创 SQL Server 執行連接的方式 - Hash Join

The hash join has two inputs: the build input and probe input. The query optimizer assigns these roles so that the sma

原创 ETL系列專題3——ETL之E

ETL系列專題3——ETL之E 從本章開始介紹基於ETL的數據流架構,首先介紹E(Extract)過程。 抽取(Extract) 沒有數據,DW/BI的模型再好也沒有任何用處。數據集成的第一個步驟就是從業務系統中抽取(Extract)數據