原创 Spark-sql 結合hive使用

1.安裝hive(配置好) 2.將配置好的hive-site.xml放入$SPARK-HOME/conf目錄下 3.將mysql-xxx-connector-xx.jar放到spark集羣中節點的lib目錄下 4.啓動spark-

原创 使用Logstash filter grok過濾日誌文件

Logstash Filter Plugin GrokLogstash提供了一系列filter過濾plugin來處理收集到的log event,根據log event的特徵去切分所需要的字段,方便kibana做visualize和dash

原创 Kafka負載均衡、Kafka自定義Partition、Kafk文件存儲機制

1、Kafka整體結構圖Kafka名詞解釋和工作方式 l Producer :消息生產者,就是向kafkabroker發消息的客戶端。l Consumer :消息消費者,向kafkabroker取消息的客戶端l Topic :咋們可以理解

原创 Spark Streaming中的操作函數分析

  根據Spark官方文檔中的描述,在Spark Streaming應用中,一個DStream對象可以調用多種操作,主要分爲以下幾類TransformationsWindow OperationsJoin OperationsOutput

原创 Zookeeper基本使用

03/ Zookeeper簡介3.1 概念介紹Zookeeper是一個分佈式協調服務;就是爲用戶的分佈式應用程序提供協調服務1、zookeeper是爲別的分佈式程序服務的2、Zookeeper本身就是一個分佈式程序(只要有半數以上節點存活

原创 ELK日誌處理之使用logstash收集log4J日誌

介紹一下如何從Java工程中導出log4J日誌到Logstash。一、log4j基礎不能免俗的官方介紹:Log4j 是一個使用 Java 語言編寫的,可靠、快速、靈活的日誌框架(API),使用 Apache Software Licens

原创 Mysql 存儲過程源碼案例

CREATE DEFINER=`myl`@`192.168.2.%` PROCEDURE `pr_investStatistics`(IN `adminId` bigint) BEGIN declare tota

原创 Flume 使用總結

前言在一個完整的大數據處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要數據採集、結果數據導出、任務調度等不可或缺的輔助系統,而這些輔助工具在hadoop生態體系中都有便捷的開源框架,如圖所示:  1.

原创 ELK 工作棧

ELK技術棧介紹一、 ELK工作棧簡介1. 簡介         ELKStack 是 Elasticsearch、Logstash、Kibana 三個開源軟件的組合。在實時數據檢索和分析場合,三者通常是配合共用,而且又都先後歸於 Ela

原创 Scala 方法參數以及Option

1.可變長度參數Scala 允許你指明函數的最後一個參數可以是重複的。這可以允許客戶向函數傳入可變長度參數列表。想要標註一個重複參數,在參數的類型之後放一個星號。例如:scala> def echo(args: String*) = fo

原创 Flume實戰採集文件內容存入HDFS

1、flume安裝目錄下新建文件夾 example 2、在example下新建文件 log-hdfs.conf內容如下:[plain] view plain copy# Name the components on this agent 

原创 logstash配置文件詳解

Logstash實際應用配置詳解背景業務目的是能夠分析nginx和apache每天產生的日誌,對url、ip、rest接口等信息進行監控,並將數據發送到elasticsearch服務。config輸入從日誌文件中獲取信息file {

原创 Spark【案例】實現黑名單實時過濾

黑名單實時過濾一、實驗介紹1.1 實驗內容本節課主要講解 Spark 的 RDD 操作,讓您對 Spark 算子的特性快速瞭解。通過演示案例實時黑名單過濾,讓您切身體會到 RDD 的強大功能,然後學以致用。1.2 先學課程Spark 系列

原创 Logstash學習3_通過Kafka傳輸數據給logstash-1.4和logstash-1.5

目錄(?)[-]通過kafka傳輸kafka 基本概念小提示插件安裝logstash-14 安裝logstash-15 安裝小貼士插件配置Input 配置示例Input 解釋注意Output 配置Output 解釋消息模式相關小貼士性能隊

原创 Spark 源碼閱讀(4)——Master和Worker的啓動流程

啓動腳本中調用的是Master的main方法,所以我們找到Master的main方法:private[spark] object Master extends Logging {  val systemName = "sparkMast