原创 JVM垃圾回收基本原理和實戰系列之一

1、我們寫的Java代碼是怎麼運行起來的? 首先假設咱們寫好了一份Java代碼,那這份Java代碼中會包含很多“.java”爲後綴的代碼文件,比如User.java,OrderService.java,CustomerManage

原创 Hadoop之MapReduce(實踐篇)

1、MapReduce編程模型概述 MapReduce應用廣泛的原因之一在於它的易用性。它提供了一個因高度抽象化而變得異常簡單的編程模型。MapReduce是在總結大量應用的共同特點的基礎上抽象出來的分佈式計算框架,它適用的應用場景往

原创 Hadoop之YARN

1、YARN背景介紹 YARN是在MRv1基礎上演化而來的,它克服了MRv1的各種侷限性。相比於YARN,MRv1的侷限性可概括爲如下幾個方面: 擴展性差。在MRv1中,JobTracker同時兼備了資源管理和作業控制兩個功能,這成爲系

原创 Hadoop 之MapReduce(理論篇)

MapReduce On YARN與MRv1在編程模型和數據處理引擎方面的實現是一樣的,唯一不同的是運行時環境。不同於MRv1中由JobTracker和TaskTracker構成的運行時環境,MapReduce On YARN的運行時環境

原创 大數據基礎:必備Linux操作系統知識

Hadoop通常都是搭建在Linux操作系統之上,故在搭建Hadoop實驗環境之前,首先需要創建Linux系統環境。由於我們只是搭建Hadoop實驗環境,而不是生產環境,因此,爲簡單起見,就採用虛擬機VMware+Linux操作系統Red

原创 大數據技術背景介紹(開號篇)

1、什麼是大數據? 大數據(Big Data),指無法在一定時間範圍內用常規軟件工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。 大數據的5V特點(IB

原创 Hadoop環境安裝篇

1、 Hadoop初識 Hadoop基本架構:Hadoop由兩部分組成,分別是分佈式文件系統HDFS和分佈式計算框架MapReduce。其中,分佈式文件系統主要用於大規模數據的分佈式存儲,而MapReduce則構建在分佈式文件系統之上,對

原创 Hadoop之HDFS(理論篇)

1、初識HDFS HDFS作爲一個分佈式文件系統,具有高容錯的特點,它可以部署在廉價的通用硬件上,提供高吞吐率的數據訪問,適合那些需要處理海量數據集的應用程序。HDFS沒有遵循可移植操作系統接口(Portable Operation Sy

原创 Hadoop之HDFS(實踐篇)

上一篇文章介紹了HDFS的體系結構及基本原理等偏理論性的內容,本文將更多地從命令行操作、Java程序編寫等實踐角度着手,對HDFS的使用進行介紹。 1、HDFS的命令行操作 HDFS是存取數據的分佈式文件系統,對HDFS的操作,就是文件系