原创 Java實踐(一)---字符串

在Java中,字符串存放在常量池中,new方法創建的對象存放在heap(堆內存)中。 String a = "abc";//常量池 String b = new String("abc");//heap a==b;//false

原创 Hadoop實踐(三)---MapReduce中的Counter

在Hadoop的MapReduce框架中包括6種Counters,每一種包含若干個Counter,分別對Map和Reduce任務進行統計 Tips:圖片中是Hadoop2.7.3 Counters 略有更新 注意區分

原创 Hadoop實踐(四)---MR作業配置

1、向作業傳遞定製的參數 Hadoop自身使用一個配置對象類存儲所有作業的配置屬性,也可以使用這個對象將參數傳遞到Mapper和Reducer MR的driver類通過屬性來配置JobConf對象,這些屬性包括輸入格式,輸出格式

原创 Maven實踐(十一)---POM文件中各種元素的含義

Maven創建的項目中需要編寫POM.xml文件,其中包含很多的元素,每個元素代表不同的含義,具體如下 一個完整的POM.xml文件的框架: <project xmlns="http://maven.apache.org/POM/

原创 Hadoop實踐(三)---高階MapReduce

1、鏈接多個MapReduce作業 通常會存在這樣的情況,無法把整個流程寫在單個MapReduce作業中。因此,需要將多個MapReduce程序鏈接成更大的作業 數據處理可能涉及多個數據集,因此需要討論多個數據集的各種聯結技術

原创 Hadoop實踐(四)---性能調優

Hadoop的主要吸引力之一就是它的線性可擴展性。許多作業都可以通過添加更多的機器來加速。 Hadoop在性能調優上有一些特定的手段和技巧,總體來說頗有成效。 1、通過Combiner來減少網絡流量 Combiner可以減少在ma

原创 Hadoop實踐(五)---API之HDFS

HDFS是Hadoop主要應用的一個分佈式文件系統。Hadoop中有一個綜合性的文件系統抽象,它提供了文件系統實現的各類接口,HDFS是這個抽象文件系統的一個實例。 Hadoop整合了衆多文件系統,它首先提供了一個高層的文件系統

原创 Hadoop實踐(四)---生成集羣上的監視和調試

成功的在僞分佈集羣中運行作業之後,可以將實際數據放在生產集羣上運行。 僞分佈式和生產集羣的區別: 1- 僞分佈模式下只有一個節點,所以的日誌文件都放在單獨的目錄/logs中,可以在本地訪問 1- 在全分佈集羣中,每個節點都有自己

原创 Maven實踐(十二)---POM參考指南

什麼是POM? POM代表“項目對象模型”。 它是一個名爲pom.xml文件的Maven項目的XML表示形式。 在使用Maven的人面前,說到一個項目是在哲學意義上說的,不僅僅只是收集包含代碼的文件。 一個項目包含配置文件,以及所

原创 Java實踐(四)---java.lang.Math

java.lang Class Math java.lang.Object—>java.lang.Math public final class Math extends Object 類Math包含執行基本數字運算的方法,如基本

原创 Java實踐(四)---進階筆記之一

在循環中檢測2個浮點數是否相等,要格外小心,由於舍入誤差,最終可能得不到精確的值。 類名:字母開頭,後跟字母或數字的任意組合(不能使用保留字)【通常以大寫字母開頭】 定義枚舉類: enum Size{S,M,L,XL} Size

原创 Java實踐(四)----所有類的祖宗Object

java.lang Class Object java.lang.Object 構造器:Object() 所有的方法: 修飾符和類型 方法 描述 protected Object clone() 創建並返回此對象的

原创 Golang相關技術

Golang相關的技術 訪問地址 訪問地址:https://promacanthus.github.io/Golang-Guide/ 歡迎收藏倉庫:https://github.com/Promacanthus/Golang-Gu

原创 Hadoop實踐(三)---新舊API對比

1、構造作業的變化 舊API構造作業: JobConf job = new JobConf(conf,MyJob.class); job.setJobName("MyJob"); 新API構造作業: Job job = new J

原创 GitHub入門指南

https://github.com/Promacanthus/ Git Git是一個版本控制系統。版本控制系統時設計用於跟蹤文件隨時變化狀態的一款軟件。 Git是一個分佈式的版本控制系統,在Git中參與項目的每個人不經能擁有文