原创 天下數據,唯快不破

|0x00 軟件行業看數據 從傳統軟件行業的視角,來看待互聯網人搞數據的方式,感覺像是時代的倒退。 過去搞了很多的軟件開發模型,例如瀑布、螺旋、敏捷等,都是以用戶的需求作爲出發點,將一個大型項目,按照迭代的方式,拆解成子項目,並對

原创 開源組件系列(4):分佈式消息隊列(Kafka)

目錄 (一)消息隊列概述 (二)Kafka基本架構 (三)Kafka組件介紹 (四)Kafka關鍵技術點 (五)Kafka示例任務 (一)消息隊列概述 不論是系統產生的數據日誌,還是對應的數據系統,從來都不是單一的對應關係,而是多種數據日

原创 開源組件系列(7):分佈式結構化存儲(HBase)

目錄 (一)概述 (二)HBase數據模型 (三)HBase基本架構 (四)HBase內部原理 (五)HBase訪問方式   (一)概述   長期以來,傳統的關係型數據庫(Mysql)等因爲其易懂的關係模型、高效的查詢引擎和易用的查詢語言

原创 有關大型數據倉庫三大痛點的個人看法

有人說,數據倉庫搭建失敗的概率非常高,是ERP之後最不靠譜的大型項目之一。往往在項目立項的時候,我們會給老闆呈現出一幅非常美的願景圖:響應快、業務驅動、智能化……但當項目上線之後,纔會發現這個項目往往華而不實,要什麼沒什麼,慢慢的投入就會

原创 開源組件系列(10):集羣化服務資源管理系統(Mesos)

目錄 (一)Mesos基本架構 (二)Mesos資源分配策略 (三)Mesos與YARN的對比 Mesos最早是UC Berkeley的一個研究項目,用以解決編程模型和計算框架多樣化環境下,不同框架之間的資源隔離和共享問題。儘管它的直接設

原创 聽說你的需求做不完

|0x00 需求真的多嗎? 需求太多,是程序員們共同面對的困局。 從前端到後端、從數據到分析、從交互到測試,幾乎每個人都很忙。大公司的用人標準,早期有一個很常見的說法,叫作“三個程序員,拿四個人的工資,做五個人的事情”。在行業高速

原创 解算法題的五個基本思路

解算法題的四個基本思路: 一、閱讀完成條件 二、選擇數據結構 三、時間複雜度分析 四、判斷邊界條件 五、繼續探索取巧方法   例子解析: LeeCode 136題:只出現一次的數字 給定一個非空整數數組,除了某個元素只出現一次以外,其餘每

原创 數倉那點事:從入門到佛系

(一)初識數倉   每個人對於數倉的理解,都源自於大數據,而大數據有源自於那個神奇的故事:從前有一家超市,它有一個怪現象,尿布和啤酒赫然擺在一起出售。外行人不明所以,但內行人卻看到了尿布和啤酒的銷量雙雙增加。爲什麼呢?正是因爲大數據發揮了

原创 開源組件系列(8):分佈式結構化存儲(Zookeeper)

目錄 (一)分佈式協調服務的意義 (二)Zookeeper數據模型 (三)Zookeeper基本架構 (四)Zookeeper應用案例:Leader選舉 (一)分佈式協調服務的意義   分佈式協調服務在分佈式應用中是不可缺少的,通過引入類

原创 大數據系統下的數據安全注意事項

在大數據時代,越大的公司,面臨的數據安全風險越高,簡要而言,主要分爲六個部分:         1. 後臺被黑客攻擊,例如SDK泄漏關鍵服務IP地址;         2. 數據被爬取風險,例如簡歷信息被外界抓取;         3.

原创 突然火了的實時數倉

|0x00 數倉爲什麼要實時 去年開始,實時數倉的概念突然火了。也許是傳統的離線數倉搞了很多年,技術相對成熟了,因此大家都把注意力放到了挑戰性更高的實時上來;也許是隨着存量市場競爭的到來,對於速度的要求越來越快,T+1已經不能滿足

原创 數據人如何做好能力積累

| 0x00 學習的力量 從畢業開始,數據人就要奮鬥在學習的第一線上。 數據開發與Java不同,它要求一個更高的起點;數據開發與Java相同的是,成爲專家都需要一個長期的學習過程。 畢業伊始,數據人就要奮鬥在讀論文的道路上。大數據

原创 Facebook的天秤幣是什麼,能否顛覆現有的金融體系?

|0x00 Libra是什麼意思 大家好,這裏是科普博主,曉陽。這一期,我們來聊聊數字貨幣,以Facebook的Libra爲例。這個貨幣國內也翻譯成:臉譜天秤幣。如果問天秤幣是什麼,一句話就可以解釋:“無國界的數字貨幣”。作爲擁有

原创 簡單聊聊數據湖

數據湖是什麼 “數據湖”最近好像一下子火了,遠比“數據倉庫”要吃香,在做雲計算的公司都在主推這一概念。關於這個概念的標準解釋,不論是Wiki也好、AWS也罷,基本上都集中在幾個共性上: 存儲能力:支持企業數據的海量存儲需求; 數

原创 漫談數據治理之四:企業數據該怎麼搞

企業數據的特點 在絕大多數的互聯網公司中,數據倉庫都是面向用戶的數據建設,如廣告、電商、遊戲等,相對而言都有比較穩定的業務形態和統計方式。但有一個方向是例外的,那就是企業數據。不論是阿里、騰訊,還是傳統的大企業,任何一家企業做大了