原创 Hbase Rowkey設計及索引

開頭,先功夫一個好消息,浪尖的微信公衆號支持內容搜索了,入口請點擊原文閱讀。https://data.newrank.cn/m/s.html?s=PSkwPS48MT87也可以去菜單欄,點擊進入入口

原创 海量數據處理之bitmap

一、概述 本文將講述Bit-Map算法的相關原理,Bit-Map算法的一些利用場景,例如BitMap解決海量數據尋找重複、判斷個別元素是否在海量數據當中等問題.最後說說BitMap的特點已經在各個場景的使用性。 二、Bit-Map算法先看看

原创 Spark SQL用UDF實現按列特徵重分區

這兩天,球友又問了我一個比較有意思的問題:解決問題之前,要先了解一下Spark 原理,要想進行相同數據歸類到相同分區,肯定要有產生shuffle步驟。比如,F到G這個shuffle過程,那麼如何決定數據到哪個分區去的呢?這就有一個分區器的概

原创 Spark2.4.0屏障調度器

前幾天,浪尖發了一篇文章,講了Spark 2.4發佈更新情況:Spark2.4.0發佈了! 其中,就有一項說到Spark 爲了支持深度學習而引入的屏障調度器。本文就詳細講講。 基於消息傳遞結構的計算模型和Spark計算模型是有很大區別。在S

原创 Spark SQL的幾個里程碑!

本文講講Spark SQL的幾個里程碑的更新升級。1. spark 1.0.0誕生了Spark SQL官方版本是spark 1.0.0引入的Spark SQL模塊。當時這個模塊的核心實際上就是一種新類型的RDD,叫做SchemaRDD。Sc

原创 大數據啊大數據!

首先,祝大家雙十一快樂。開始本文之前,希望大家參與一下下面的投票。做這個投票的主要原因是最近經常有找浪尖諮詢大數據,自學,培訓及找工作的事情,問題歸類如下:大數據要不要培訓自學一段時間,發現很痛苦,沒人指導想放棄,培訓費用太高了培訓發現跟不

原创 知乎數據埋點方案

客戶端埋點爲什麼難?埋點的流程 從業務過程中採集埋點,是數據驅動型公司的必要條件。知乎的產品功能評審環節,不僅有 PRD (Product requirement document),還加入了對應的 DRD ( Data requireme

原创 Spark2.4.0發佈了!

Spark2.4.0 今天官網發佈,這是一個大好消息。Spark 2.4.0是2.x的第五個髮型版本。官方發佈消息鏈接如下:http://spark.apache.org/releases/spark-release-2-4-0.html此

原创 如何成爲一個優秀的工程師?

這是一篇舊文,是陸奇還在百度時候的演講:如何成爲一個優秀的工程師。道出了一個工程師應有的追求,如此,未來才能屬於工程師。01Believe in 技術 首先要相信技術,我剛纔已經講了,整個我們工業界,特別是像百度這樣的公司,對技術堅定的、不

原创 解惑:這個SPARK任務是數據傾斜了嗎?

健身前後對比健身回來的路上,看到微信羣裏聊技術,一羣有問了一個神奇的問題,具體可以看如下截圖:哥們給出的結論是repartition導致的數據傾斜,我給他詳細的回覆了說明了不是數據傾斜。那麼接下來,我們就仔細分析一下原因。爲了大家更徹底的瞭

原创 Flink異步IO第一講

Async I/O 是阿里巴巴貢獻給社區的一個呼聲非常高的特性,於1.2版本引入。主要目的是爲了解決與外部系統交互時網絡延遲成爲了系統瓶頸的問題。對於實時處理,當需要使用外部存儲數據染色的時候,需要小心對待,不能讓與外部系統之間的交互延遲對

原创 spark源碼導讀一

經常有球友問,我分享了源碼視頻,那麼該如何下手?實際上,正常情況下,單純愛好去看源碼的情況不多,閱讀源碼無非就一下幾種情況:1,業務需求,現有框架滿足不了項目需要,需要對源碼的一部分進行修改或者叫做二次開發,需要閱讀部分源碼。那麼這個針對性

原创 高性能:MYSQL異步客戶端

實時必須實時處理領域,當需要使用外部存儲數據染色的時候,需要慎重對待,不能讓與外部系統之間的交互延遲對流的整個進度取決定性的影響。同步的與數據庫交互需要等待一個請求從發起到結束才能發起下次請求,等待過程是非常浪費函數時間的。與數據庫異步交互

原创 一文精通kafka 消費者的三種語義

本文主要是以kafka 09的client爲例子,詳解kafka client的使用,包括kafka消費者的三種消費語義at-most-once, at-least-once, 和 exactly-once message ,生產者的使用等

原创 案例簡介flink CEP

隨着無處不在的傳感器網絡和智能設備不斷收集越來越多的數據,我們面臨着以近實時的方式分析不斷增長的數據流的挑戰。 能夠快速響應不斷變化的趨勢或提供最新的商業智能可能是公司成功或失敗的決定性因素。 實時處理中的關鍵問題是檢測數據流中的事件模式。