原创 Hadoop 系列(六)—— HDFS 常用 Shell 命令

1. 顯示當前目錄結構 # 顯示當前目錄結構 hadoop fs -ls <path> # 遞歸顯示當前目錄結構 hadoop fs -ls -R <path> # 顯示根目錄下內容 hadoop fs -ls / 2. 創建目錄

原创 Hadoop 系列(二)—— 集羣資源管理器 YARN

一、hadoop yarn 簡介 Apache YARN (Yet Another Resource Negotiator) 是 hadoop 2.0 引入的集羣資源管理系統。用戶可以將各種服務框架部署在 YARN 上,由 YARN 進行

原创 Hadoop 系列(一)—— 分佈式文件系統 HDFS

一、介紹 HDFS (Hadoop Distributed File System)是 Hadoop 下的分佈式文件系統,具有高容錯、高吞吐量等特性,可以部署在低成本的硬件上。 二、HDFS 設計原理 2.1 HDFS 架構 HDFS 遵

原创 Hadoop 系列(三)—— 分佈式計算框架 MapReduce

一、MapReduce概述 Hadoop MapReduce 是一個分佈式計算框架,用於編寫批處理應用程序。編寫好的程序可以提交到 Hadoop 集羣上用於並行處理大規模的數據集。 MapReduce 作業通過將輸入的數據集拆分爲獨立的塊,

原创 Sqoop 的基本使用

一、Sqoop 簡介 Sqoop 是一個常用的數據遷移工具,主要用於在不同存儲系統之間實現數據的導入與導出: 導入數據:從 MySQL,Oracle 等關係型數據庫中導入數據到 HDFS、Hive、HBase 等分佈式文件存儲系統中; 導

原创 HBase 系列(六)——HBase Java API 的基本使用

一、簡述 截至到目前 (2019.04),HBase 有兩個主要的版本,分別是 1.x 和 2.x ,兩個版本的 Java API 有所不同,1.x 中某些方法在 2.x 中被標識爲 @deprecated 過時。所以下面關於 API 的樣

原创 後臺程序員如何進階大數據學習?

一、大數據處理流程 上圖是一個簡化的大數據處理流程圖,大數據處理的主要流程包括數據收集、數據存儲、數據處理、數據應用等主要環節。下面我們逐一對各個環節所需要的技術棧進行講解: 1.1 數據收集 大數據處理的第一步是數據的收集。現在的中

原创 大數據學習路線(詳細)

一、大數據處理流程 上圖是一個簡化的大數據處理流程圖,大數據處理的主要流程包括數據收集、數據存儲、數據處理、數據應用等主要環節。下面我們逐一對各個環節所需要的技術棧進行講解: 1.1 數據收集 大數據處理的第一步是數據的收集。現在的中大型項

原创 大數據學習路線

一、大數據處理流程         1.1 數據收集         1.2 數據存儲         1.3 數據分析         1.4 數據應用         1.5 其他框架 二、學習路線         2.1 語言基礎

原创 大數據學習路線

一、大數據處理流程 上圖是一個簡化的大數據處理流程圖,大數據處理的主要流程包括數據收集、數據存儲、數據處理、數據應用等主要環節。下面我們逐一對各個環節所需要的技術棧進行講解: 1.1 數據收集 大數據處理的第一步是數據的收集。現在的中大型

原创 Java 程序員的大數據入門指南

項目 GitHub 地址:https://github.com/heibaiying/BigData-Notes ✒️ 前 言 大數據常用技術棧思維導圖 大數據常用軟件安裝指南 一、Hadoop 分佈式文件存儲系統——HDFS

原创 深入理解 Kafka 分區副本機制

一、Kafka集羣 Kafka使用Zookeeper來維護集羣成員(brokers)的信息。每個broker都有一個唯一標識broker.id,用於標識自己在集羣中的身份,可以在配置文件server.properties中進行配置,或者由程

原创 Spark —— 高可用集羣搭建

一、集羣規劃 這裏搭建一個3節點的Spark集羣,其中三臺主機上均部署Worker服務。同時爲了保證高可用,除了在hadoop001上部署主Master服務外,還在hadoop002和hadoop003上分別部署備用的Master服務

原创 HBase 協處理器詳解

一、簡述 在使用HBase時,如果你的數據量達到了數十億行或數百萬列,此時能否在查詢中返回大量數據將受制於網絡的帶寬,即便網絡狀況允許,但是客戶端的計算處理也未必能夠滿足要求。在這種情況下,協處理器(Coprocessors)應運而生。它允

原创 基於 ZooKeeper 搭建 Hadoop 高可用集羣

一、高可用簡介 Hadoop 高可用 (High Availability) 分爲 HDFS 高可用和 YARN 高可用,兩者的實現基本類似,但 HDFS NameNode 對數據存儲及其一致性的要求比 YARN ResourceMange