原创 HDFS,數據塊,NameNode&DataNode概念及一些原理

分佈式文件系統 ? 管理網絡中跨多臺計算機存儲的文件系統稱爲分佈式文件系統(distributed fileSystem) HDFS ? HDFS 即 Hadoop Distributed FileSystem(Hadoop分佈式

原创 Storm WordCount 代碼

WordCountTopologMain package top.itning.storm; import org.apache.storm.Config; import org.apache.storm.LocalCluste

原创 Storm 集羣安裝&常用操作命令

Apache Storm http://storm.apache.org/ 安裝 備份 mv /export/servers/storm/conf/storm.yaml /export/servers/storm/

原创 Mapreduce中的分區Partitioner

Mapreduce中會將map輸出的kv對,按照相同key分組,然後分發給不同的reducetask 默認的分發規則爲:根據key的hashcode%reducetask數來分發 所以:如果要按照我們自己的需求進行分

原创 Scala 介紹 下載 IntelliJ IDEA 插件安裝 配置

介紹 維基百科: Scala(發音爲/ˈskɑːlə, ˈskeɪlə/)是一門多範式的編程語言,設計初衷是要集成面向對象編程和函數式編程的各種特性。 官方網站 http://www.scala-lang.org/

原创 Hadoop 客戶端 CRUD

package cn.itning.test import org.apache.commons.io.IOUtils import org.apache.hadoop.conf.Configuration import org

原创 MapReduce 另一種寫法

public class Runner extends Configured implements Tool { @Override public int run(String[] args) throws Exc

原创 hadoop集羣安裝 7節點;HA

教程使用版本: hadoop-2.8.1.tar.gz zookeeper-3.4.10.tar.gz Linux: Centos 7 x64 (CentOS-7-x86_64-DVD-1708) 前期

原创 sqoop 安裝

官網:http://sqoop.apache.org/ 下載:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 1 cd SQOOP_HOME/conf $ mv sqoop-env-

原创 Storm 編程模型 核心組件 Stream Grouping 數據分組策略

官網: http://storm.apache.org/ Apache Storm是一個免費的開源分佈式實時計算系統。Storm可以很容易地可靠地處理無限的數據流,從而實時處理Hadoop爲批處理所做的事情。Storm很簡

原创 Hbase API

package cn.itcast_01_hbase; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org.a

原创 MapReduce 自定義outputFormat

寫一個類繼承 FileOutputFormat 泛型爲最終輸出的數據類型 public class MyFileOutputFormat extends FileOutputFormat<Text, NullWritable>

原创 azkaban 編譯使用方法

azkaban github 地址:https://github.com/azkaban/azkaban git clone 地址:https://github.com/azkaban/azkaban.git 編譯 $git

原创 Scala 入門 函數/方法

函數 函數定義需要 => 符號 val fun1 = (x: Int, y: Int) => x + y 方法 def test(f: (Int, Int) => Int): Int = { f(3, 3) }

原创 MapReduce MapTask任務數量,切片大小筆記

MapReduce 運行流程概括 MapTask任務數量的決定因素 每一個split分配一個mapTask並行實例處理 切片實現 由FileInputFormat實現類的getSplits()方法實現切片 默認切片大小就是B