原创 kafka官網翻譯二:API使用,配置,設計

2. API 卡夫卡包括五個核心API: 該生產 API允許應用程序發送數據流的卡夫卡集羣中的主題。 該消費者 API允許應用程序從卡夫卡集羣中的主題讀取數據流。 該流 API允許將來自輸入主題數據流輸出的主題。 所述連接 API允許實現

原创 BitMapIndex,倒排索引原理,B-Tree索引

Bitmap索引 時序數據庫從抽象語義上來說總體可以概括爲兩個方面的基本需求,一個方面是存儲層面的基本需求:包括LSM寫入模型保證寫入性能、數據分級存儲(最近2小時的數據存儲在內存中,最近一天的數據存儲在SSD中,一天以後的數據存儲在HD

原创 volatile詳解(內存模型->併發編程->java內存模型->引出volatile含義)

https://www.cnblogs.com/dolphin0520/p/3920373.html

原创 HDFS權限管理以及ACL介紹

一篇文章搞懂HDFS權限管理   HDFS承載了公司內多個部門幾十條業務線的幾十PB數據,這些數據有些是安全級別非常高的用戶隱私數據,也有被廣泛被多個業務線使用的基礎數據,不同的業務之間有着複雜的數據依賴。因此,如何管理好這些數據的授權,

原创 kafka官網翻譯一:簡介與用例及安裝手冊

1.入門 1.1簡介 ApacheKafka®是一個分佈式流媒體平臺。這到底是什麼意思? 我們認爲流媒體平臺具有三個關鍵功能: 它可以讓你發佈和訂閱記錄流。在這方面,它類似於消​​息隊列或企業消息傳遞系統。 它允許您以容錯方式存儲記錄流。

原创 Spark-Core源碼精讀(1)、從start-all腳本到Master、work源碼啓動分析

首先來到這裏的同學應該都學了spark相關知識,對於master跟work的啓動註冊源碼感興趣的可以往下看看 master的啓動註冊機制 首先看一下start-master.sh腳本 這是最後一行代碼,可見他去調用了spark-

原创 廣播變量Broadcast2種實現方式,以及開發中遇到的坑

首先,介紹2中 我在開發過程中實現廣播變量時用了2中方式: 1.  使用mapPartitions循環每個分區 裏面套一個for循環 進行遍歷quzhi,使用yield進行返回(因爲for循環不支持返回),當然了這是根據業務需要,你也可以

原创 詳解維度建模

原文鏈接:https://cloud.tencent.com/developer/article/1135917 前一篇已經對常用的幾種數據模型做了簡單的介紹,本篇主要對其中最常用的維度建模做一

原创 Data VauIt建模理論及應用場景

DataVault模型 DataVault是在ER模型的基礎上衍生而來的,模型設計的初衷是有效的組織基礎數據層,使之易擴展、靈活的應對業務變化,同時強調歷史性、可追溯性和原子性,不要求對數據進行過度的一致性處理;並非針對分析場景所設計。

原创 ER建模理論及應用場景

由於看的是電子書,不想一個字一個打出來了(費時間)大家可以直接看圖片,直觀明瞭。歡迎一起交流  

原创 數據倉庫與數據挖掘學習筆記(一)數據倉庫概述

1、數據倉庫有哪些主要的特徵 (1)、面向主題的 (2)、集成的 (3)、穩定性不容易丟失(非易失) (4)、按時間變化而變化(即時變) 2、簡述數據倉庫的傳統數據庫的主要區別 區別 傳統數據庫 數據倉庫 數據量

原创 數據倉庫與數據挖掘學習筆記(二)數據倉庫設計

學習心得 一、數據倉庫的設計步驟 主要分爲如下5步 1) 數據倉庫的規劃和需求分析 其中最重要的一條就是業務目標,建設數據倉庫的目的,解決什麼問題, 2)數倉建模 傳統的關係型數據庫建模方式採用E-

原创 數據倉庫與數據挖掘學習筆記(三)OLAP技術

學習心得 一、什麼是OLAP? 在以前20世紀60年代末,關係型數據庫與OLTP得到了快速發展,隨着時間的延續,全球數據暴增,越來越多的數據被生產,同時人們對信息的需求也更加發雜,希望儘可能從GB,TB甚至PB數據直觀的連接隱藏

原创 爬蟲框架Scrapy的入門使用

前提:安裝好scrapy模塊 使用pip install scrapy 步驟一:創建項目 在你的程序主目錄執行下面命令 scrapy startproject baidu 然後根據步驟繼續執行 cd baidu scrap

原创 性能最快的連接池. HikariCP使用

添加maven依賴 <!-- HikariCP --> <dependency> <groupId>com.zaxxer</groupId> <artifactId>HikariCP</artifactId>