台部落xiaohei.info

本文致力於從架構原理、集羣部署、性能優化與使用技巧等方面，闡述在如何基於HBase構建容納大規模數據、支撐高併發、毫秒響應、穩定高效的OLTP實時系統。一、架構原理 1.1 基本架構從上層往下可以看到HBase架構中的角

2020-06-14 07:07:24

前言本文主要分爲四個部分：分佈式計算概覽：第一章將會從基礎的分佈式計算理論開始，討論一個分佈式計算系統需要實現哪些主要的功能，以及業界通用的解決方案，並在最後簡單擴展了下分佈式計算系統的發展歷程。這部分主要爲開發人員

2020-06-14 07:07:24

ItermCF的MR並行實現 @(Hadoop) ItermCF的基本思想基於物品相似度的協同過濾推薦的思想大致可分爲兩部分： 1.計算物與物之前的相似度 2.根據用戶的行爲歷史，給出和歷史列表中的物品相似度最高的推

2020-02-23 02:23:46

總結一下在生產環境部署Hadoop+Spark+HBase+Hue等產品遇到的問題、提高效率的方法和相關的配置。集羣規劃假設現在生產環境的信息如下：服務器數量：6 操作系統：Centos7 Master節點數：2 Zoo

2020-02-23 02:23:46

MapReduce中的分佈式緩存使用 @(Hadoop) 簡介 DistributedCache是Hadoop爲MapReduce框架提供的一種分佈式緩存機制，它會將需要緩存的文件分發到各個執行任務的子節點的機器中，各個節點可

2020-02-23 02:23:46

前言 Kafka 是一種分佈式的，基於發佈/訂閱體系的消息隊列系統。能夠以時間複雜度爲 O(1) 的方式提供消息持久化能力，即使對 TB 級以上數據也能保證常數時間複雜度的訪問性能。即使在非常廉價的商用機器上也能做到單機

2020-02-23 02:23:46

前言 Zookeeper 是一個典型的分佈式數據一致性的解決方案，是谷歌 Chubby 的開源實現，在分佈式系統中有非常廣泛的應用。分佈式應用程序可以基於它來實現數據發佈/訂閱、分佈式協調/通知、集羣管理、Master 選

2020-02-23 02:23:46

關於Web界面查看日誌的權限問題 @(Hadoop) 訪問集羣的8088端口，通過web ui查看作業日誌時，發現沒有權限查看，8088主界面右上角顯示Logged in as : dr.who，即匿名用戶。修改core-s

2020-02-23 02:23:46

MapReduce原理要知道怎麼對MapReduce作業進行調優前提條件是需要對Map-Reduce的過程瞭然於胸。 Map-Reduce運行原理圖： Map Side 1.從磁盤讀取數據並分片默認每個block對應一個

2020-02-23 02:23:46

多個Mapper和Reducer的Job @(Hadoop) 對於複雜的mr任務來說，只有一個map和reduce往往是不能夠滿足任務需求的，有可能是需要n個map之後進行reduce，reduce之後又要進行m個map。在

2020-02-23 02:23:46

一、前言近年來，隨着信息技術的快速發展和互聯網應用的普及，越來越多的組織大量收集、使用個人信息。給人們生活帶來便利的同時，也出現了對個人信息的非法收集、濫用、泄露等問題，個人信息安全面臨嚴重威脅。爲了保護公民個人隱私數據不

2020-02-23 02:23:46

Hive配置與操作實踐 @(Hadoop) 安裝hive hive的安裝十分簡單，只需要在一臺服務器上部署即可。上傳hive安裝包，解壓縮，將其配入環境變量。 mysql的設置在要作爲元數據庫的mysql服務器上建立hiv

2020-02-23 02:23:46

前言傳統的批處理擁有巨大吞吐量的優勢，但是隨之而來的是極其高延遲的缺陷。隨着大數據系統的不斷髮展，傳統的批處理已然無法全部滿足對時效性要求愈加嚴苛的業務需求。爲了適應逐漸變得「實時」的年代，大數據系統架構也由

2020-02-23 02:23:46

前言在 Flink最佳實踐（一）流式計算系統概述中，我們詳細討論了流式計算系統中時域、窗口、時間推理與正確性工具等概念。本文將以這些概念爲基礎，逐一介紹 Flink 的發展背景、核心概念、時間推理與正確性工具、安裝部署

2020-02-23 02:23:46

使用rsync進行多服務器同步 @(Others) 當集羣數量很大時，修改配置文件和節點之間的文件同步是一件很麻煩且浪費時間的事情。 rsync是linux上實現不同機器之間文件同步、備份的工具，centos系統中默認已經安裝

2020-02-23 02:23:46