原创 HDFS,數據塊,NameNode&DataNode概念及一些原理
分佈式文件系統 ? 管理網絡中跨多臺計算機存儲的文件系統稱爲分佈式文件系統(distributed fileSystem) HDFS ? HDFS 即 Hadoop Distributed FileSystem(Hadoop分佈式
原创 Storm WordCount 代碼
WordCountTopologMain package top.itning.storm; import org.apache.storm.Config; import org.apache.storm.LocalCluste
原创 Storm 集羣安裝&常用操作命令
Apache Storm http://storm.apache.org/ 安裝 備份 mv /export/servers/storm/conf/storm.yaml /export/servers/storm/
原创 Mapreduce中的分區Partitioner
Mapreduce中會將map輸出的kv對,按照相同key分組,然後分發給不同的reducetask 默認的分發規則爲:根據key的hashcode%reducetask數來分發 所以:如果要按照我們自己的需求進行分
原创 Scala 介紹 下載 IntelliJ IDEA 插件安裝 配置
介紹 維基百科: Scala(發音爲/ˈskɑːlə, ˈskeɪlə/)是一門多範式的編程語言,設計初衷是要集成面向對象編程和函數式編程的各種特性。 官方網站 http://www.scala-lang.org/
原创 Hadoop 客戶端 CRUD
package cn.itning.test import org.apache.commons.io.IOUtils import org.apache.hadoop.conf.Configuration import org
原创 MapReduce 另一種寫法
public class Runner extends Configured implements Tool { @Override public int run(String[] args) throws Exc
原创 hadoop集羣安裝 7節點;HA
教程使用版本: hadoop-2.8.1.tar.gz zookeeper-3.4.10.tar.gz Linux: Centos 7 x64 (CentOS-7-x86_64-DVD-1708) 前期
原创 sqoop 安裝
官網:http://sqoop.apache.org/ 下載:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 1 cd SQOOP_HOME/conf $ mv sqoop-env-
原创 Storm 編程模型 核心組件 Stream Grouping 數據分組策略
官網: http://storm.apache.org/ Apache Storm是一個免費的開源分佈式實時計算系統。Storm可以很容易地可靠地處理無限的數據流,從而實時處理Hadoop爲批處理所做的事情。Storm很簡
原创 Hbase API
package cn.itcast_01_hbase; import java.util.ArrayList; import org.apache.hadoop.conf.Configuration; import org.a
原创 MapReduce 自定義outputFormat
寫一個類繼承 FileOutputFormat 泛型爲最終輸出的數據類型 public class MyFileOutputFormat extends FileOutputFormat<Text, NullWritable>
原创 azkaban 編譯使用方法
azkaban github 地址:https://github.com/azkaban/azkaban git clone 地址:https://github.com/azkaban/azkaban.git 編譯 $git
原创 Scala 入門 函數/方法
函數 函數定義需要 => 符號 val fun1 = (x: Int, y: Int) => x + y 方法 def test(f: (Int, Int) => Int): Int = { f(3, 3) }
原创 MapReduce MapTask任務數量,切片大小筆記
MapReduce 運行流程概括 MapTask任務數量的決定因素 每一個split分配一個mapTask並行實例處理 切片實現 由FileInputFormat實現類的getSplits()方法實現切片 默認切片大小就是B