原创 二分查找模板分析

模板說明: 你在網上看到的 99% 的二分查找問題會歸結於這 3 個模板中的一個。有些問題可以使用多個模板來實現,但是當你做更多的練習時,你會注意到一些模板比其他模板更適合某些問題。 注意:模板和它們的差異已被彩色標註如下。 這 3 個

原创 技術新人的大數據之路

    不可否認,大數據學習最重要的是學習的能力,這種能力要遠比你掌握的知識多少要重要,所以,練習大於理論,加油吧。     首先,大數據不得不講神器的Google三大論文,你可以罵它看不懂,你可以罵自己英語不好,但是你確實要看的,不推薦

原创 漫談數據治理之三:流程上的規範化

治理理論概述 我們目前所積累的數據治理經驗,大多數是在互聯網場景下的,且與自己工作高度相關。如果想更進一步的搞好數據治理,就應該看一下業界相關的一些權威機構的理論。以國際數據管理協會,也就是DAMA,協會提供了一種DMBOK方式,

原创 漫談數據治理之二:思想上的體系化

數據的滾雪球效應 現代數倉體系中,數據數量的高速增長已經不是什麼新鮮事了,在大數據的作用被業界所認知到後,幾乎所有對於業務有價值的行爲,都將以數據的形式被收集。雖然這些數據很有價值,但在體現數據的價值之前,數據存儲的成本已經扛不住

原创 漫談數據治理之一:計算與存儲壓力

背景概要 做數據的同學都能夠有體會,當我們做業務時間長了以後,數據表的數量就會變得龐大無比,很多過去的邏輯,如果負責的同學離職了,那麼能再看懂它的人就很少了。久而久之,就造成了表一大堆,沒人敢動的問題。等到計算或者存儲遇到瓶頸了,

原创 簡單說一說數據中臺

中臺的起源與疑惑 “中臺”某種意義上是一個正宗的中國概念,早在2015年,馬老師訪問過北歐的Supercell遊戲公司之後,便提出了這個概念。隨之而來的,是阿里帶動的“大中臺、小前臺”運動。這個概念聽起來還是非常不錯的,因爲整合技

原创 開源組件系列(12):DAG計算引擎Spark

目錄 (一)概述 (二)Spark核心概念 (三)Spark程序基本框架 (四)Spark編程接口 (五)Spark運行模式 (六)Spark應用示例 (七)Spark作業生命週期 (八)Spark Shuffle (一)概述   Spa

原创 開源組件系列(13):交互式計算引擎

概述 產生背景   在開源大數據領域,交互式引擎並不是從一開始就出現的。起初,大數據領域數據處理引擎以MapReduce爲主,但MapReduce引擎採用了批處理的理念,數據處理能力低效: IO密集型:Map階段中間結果寫磁盤,

原创 開源組件系列(11):批處理引擎MapReduce

目錄 (一)MapReduce設計目標 (二)MapReduce編程思想 (三)MapReduce模塊 (四)MapReduce數據傾斜場景 (一)MapReduce設計目標         MapReduce誕生於搜索領域,主要解決搜索

原创 數據人指南:實用項目管理技巧

        對於業務開發的同學而言,需求多、排期難,是一件非常普遍的事情,而採用怎樣的項目管理技巧,能夠幫助我們節約開發時間、提前排除開發中的隱患問題,幫助是很多的。這裏給大家分享幾個小技巧,希望能夠幫到你。 第一個小技巧是重新審視

原创 大規模需求協作的挑戰與思路

(一)基本挑戰概述 互聯網公司的典型業務場景下,一個需求會涉及到運營、產品、前端、後端、數據、測試等不同部門的配合,一個需求正常情況下都需要拆解成多個模塊,而其中的一些模塊可能還涉及到其他模塊的功能,導致需求完成的子目標比預期的多很多,需

原创 程序員成長路徑概述:四個維度教你如何快速提高自己

        程序員和金融是當前社會裏唯二的高薪水崗位,努力一把,每月幾萬收入都不是什麼問題。很多人拿程序員和醫生、律師作比較,其實是不同的,醫生、律師的經驗可以複用,年紀越大,經驗越多,收入也就越高。但程序員和金融民工,很多時候,學習

原创 開源組件系列(9):資源管理與調度系統(YARN)

目錄 (一)概述 (二)YARN基本架構 (三)YARN高可用性 (四)YARN工作流程 (五)YARN資源調度器 (六)YARN的具體調度場景 (七)YARN資源隔離 (八)YARN生態系統 (九)資源管理系統架構演化 (一)概述  

原创 設計一種數據結構,實現常數時間的增刪改查

LeeCode經典題:常數時間插入、刪除和獲取隨機元素 原題: 設計一個支持在平均 時間複雜度 O(1) 下,執行以下操作的數據結構。 insert(val):當元素 val 不存在時,向集合中插入該項。 remove(val):元素 v