原创 HBase最佳實踐

本文致力於從架構原理、集羣部署、性能優化與使用技巧等方面,闡述在如何基於HBase構建 容納大規模數據、支撐高併發、毫秒響應、穩定高效的OLTP實時系統 。 一、架構原理 1.1 基本架構 從上層往下可以看到HBase架構中的角

原创 Spark最佳實踐

前言 本文主要分爲四個部分: 分佈式計算概覽:第一章將會從基礎的 分佈式計算理論 開始,討論一個分佈式計算系統需要實現哪些 主要的功能,以及業界通用的解決方案,並在最後簡單擴展了下分佈式計算系統的發展歷程。這部分主要爲開發人員

原创 ItermCF的MR並行實現

ItermCF的MR並行實現 @(Hadoop) ItermCF的基本思想 基於物品相似度的協同過濾推薦的思想大致可分爲兩部分: 1.計算物與物之前的相似度 2.根據用戶的行爲歷史,給出和歷史列表中的物品相似度最高的推

原创 大數據平臺生產環境部署指南

總結一下在生產環境部署Hadoop+Spark+HBase+Hue等產品遇到的問題、提高效率的方法和相關的配置。 集羣規劃 假設現在生產環境的信息如下: 服務器數量:6 操作系統:Centos7 Master節點數:2 Zoo

原创 MapReduce中的分佈式緩存使用

MapReduce中的分佈式緩存使用 @(Hadoop) 簡介 DistributedCache是Hadoop爲MapReduce框架提供的一種分佈式緩存機制,它會將需要緩存的文件分發到各個執行任務的子節點的機器中,各個節點可

原创 Kafka最佳實踐

前言 Kafka 是一種分佈式的,基於發佈/訂閱體系的消息隊列系統。 能夠以 時間複雜度爲 O(1) 的方式提供消息持久化能力,即使對 TB 級以上數據也能保證 常數時間複雜度 的訪問性能。 即使在非常廉價的商用機器上也能做到單機

原创 Zookeeper概覽

前言 Zookeeper 是一個典型的 分佈式數據一致性 的解決方案,是谷歌 Chubby 的開源實現,在分佈式系統中有非常廣泛的應用。 分佈式應用程序可以基於它來實現 數據發佈/訂閱、分佈式協調/通知、集羣管理、Master 選

原创 關於Web界面查看日誌的權限問題

關於Web界面查看日誌的權限問題 @(Hadoop) 訪問集羣的8088端口,通過web ui查看作業日誌時,發現沒有權限查看,8088主界面右上角顯示Logged in as : dr.who,即匿名用戶。 修改core-s

原创 MapReduce性能調優記錄

MapReduce原理 要知道怎麼對MapReduce作業進行調優前提條件是需要對Map-Reduce的過程瞭然於胸。 Map-Reduce運行原理圖: Map Side 1.從磁盤讀取數據並分片 默認每個block對應一個

原创 多個Mapper和Reducer的Job

多個Mapper和Reducer的Job @(Hadoop) 對於複雜的mr任務來說,只有一個map和reduce往往是不能夠滿足任務需求的,有可能是需要n個map之後進行reduce,reduce之後又要進行m個map。 在

原创 個人信息安全管理條例解釋

一、前言 近年來,隨着信息技術的快速發展和互聯網應用的普及,越來越多的組織大量收集、使用個人信息。給人們生活帶來便利的同時,也出現了對個人信息的 非法收集、濫用、泄露 等問題,個人信息安全面臨嚴重威脅。 爲了保護公民個人隱私數據不

原创 Hive配置與操作實踐

Hive配置與操作實踐 @(Hadoop) 安裝hive hive的安裝十分簡單,只需要在一臺服務器上部署即可。 上傳hive安裝包,解壓縮,將其配入環境變量。 mysql的設置 在要作爲元數據庫的mysql服務器上建立hiv

原创 Flink最佳實踐(一)流式計算系統概述

前言 傳統的批處理擁有巨大 吞吐量 的優勢,但是隨之而來的是極其 高延遲 的缺陷。 隨着大數據系統的不斷髮展,傳統的批處理已然無法全部滿足對 時效性 要求愈加嚴苛的業務需求。 爲了適應逐漸變得 「實時」 的年代,大數據系統架構也由

原创 Flink最佳實踐(二)Flink流式計算系統

前言 在 Flink最佳實踐(一)流式計算系統概述 中,我們詳細討論了流式計算系統中 時域、窗口、時間推理與正確性工具 等概念。 本文將以這些概念爲基礎,逐一介紹 Flink 的 發展背景、核心概念、時間推理與正確性工具、安裝部署

原创 使用rsync進行多服務器同步

使用rsync進行多服務器同步 @(Others) 當集羣數量很大時,修改配置文件和節點之間的文件同步是一件很麻煩且浪費時間的事情。 rsync是linux上實現不同機器之間文件同步、備份的工具,centos系統中默認已經安裝