原创 Hive的原理架構一

一、首先是概念:大體可以劃分爲七個方面,這樣有利於理解記憶:1、由FaceBook實現並開源;2、基於Hadoop的開源數據倉庫工具,用於存儲結構化的數據;3、可以將結構化的數據映射爲一張數據庫表;4、底層數據存儲在HDFS文件系統上,描

原创 Java8 新特性學習總結

目錄 Lambda表達式初步與函數式接口 深入函數式接口與方法引用 Lambda表達式深入與流初步 Function與BiFunction函數式接口詳解 BiFunction函數式接口實例演示 Predicate函數式接口詳解 Predi

原创 Flume自定義Source之MysqlSource

場景描述:公司項目某一模塊是數據源之間數據遷移,場景之一就是從Mysql中讀取數據寫入到其他的數據源,架構採用的的flume+kafa的形式,Kafka作爲Channel,然後通過自定Source和Sink,將數據在不同的數據源之間遷移,

原创 Spark Core求topN案例

    案例需求: 1、對文本文件內的數字,取最大的前3個。 2、對每個班級內的學生成績,取出前3名。(分組取topN) 實例: Java版本:topN和分組TopN import java.util.List; import org.

原创 共享變量(Broadcast Variable和Accumulator)

共享變量工作原理: Spark一個非常重要的特性就是共享變量。 默認情況下,如果在一個算子的函數中使用到了某個外部的變量,那麼這個變量的值會被拷貝到每個task中。此時每個task只能操作自己的那份變量副本。如果多個task想要共享某個變

原创 Spark Core的二次排序案例

 案例需求: 1、按照文件中的第一列排序。 2、如果第一列相同,則按照第二列排序。 實例: Java版本: import org.apache.spark.SparkConf; import org.apache.spark.api.j

原创 transformation操作開發實戰

1、map:將集合中每個元素乘以2 2、filter:過濾出集合中的偶數 3、flatMap:將行拆分爲單詞 4、groupByKey:將每個班級的成績進行分組 5、reduceByKey:統計每個班級的總分 6、sortByKey:將學

原创 操作RDD

transformation和action介紹 Spark支持兩種RDD操作:transformation和action。transformation操作會針對已有的RDD創建一個新的RDD;而action則主要是對RDD進行最後的操作,

原创 action操作開發實戰

1、reduce: 2、collect: 3、count: 4、take: 5、saveAsTextFile: 6、countByKey: 7、foreach: Java版本: import java.util.Arrays; impo

原创 spark的基本工作原理與RDD

spark的核心編程: RDD: 1、RDD是Spark提供的核心抽象,全稱爲Resillient Distributed Dataset,即彈性分佈式數據集。 2、RDD在抽象上來說是一種元素集合,包含了數據。它是被分區的,分爲多個分

原创 Spark基於排序機制的wordcount程序

案例需求: 1、對文本文件內的每個單詞都統計出其出現的次數。 2、按照每個單詞出現次數的數量,降序排序。 代碼: Java版本: import java.util.Arrays; import org.apache.spark.Spar

原创 Spring中的部分設計模式

目錄: 目錄 設計模式在應用中遵循六大原則: a、開閉原則 b、里氏代換原則 c、依賴倒轉原則 d、接口隔離原則 e、迪米特法則(最少知道原則) f、合成複用原則 設計模式之間的關係圖  1、工廠模式(Factory) 1.1、小作坊模式

原创 awk詳解

簡介awk是一個強大的文本分析工具,相對於grep的查找,sed的編輯,awk在其對數據分析並生成報告時,顯得尤爲強大。簡單來說awk就是把文件逐行的讀入,以空格爲默認分隔符將每行切片,切開的部分再進行各種分析處理。awk有3個不同版本:

原创 Hive面試題一

現有這麼一批數據,現要求出:每個用戶截止到每月爲止的最大單月訪問次數和累計到該月的總訪問次數三個字段的意思:用戶名,月份,訪問次數 A,2015-01

原创 Shell知識點回顧

shell基本的語法: 定義變量:key=value    注意:等號兩邊不能有空格,使用字母數字下劃線命名,但是不能以數字開發頭,系統變量建議全大寫字母撤銷變量使用的是:unset命令聲明靜態變量:readonly 變量   注意:不能