原创 Spark開發問題集錦1

19/06/04 11:12:00 WARN DFSClient: Slow ReadProcessor read fields took 41999ms (threshold=30000ms); ack: seqno: 38596 r

原创 Spark Security面面觀

一、背景 作爲一款成熟的商業軟件,安全往往鮮少被提及但又不可忽略,大數據軟件也是如此。在生產環境中,對於一款成熟的大數據軟件的考量,不僅需要考慮其功能完備性和性能,同時安全也是不可缺少的一環。爲什麼安全如此重要呢? 首先,商業環境通常是多

原创 Livy:基於Spark的REST服務

一、摘要     Apache Spark是現今最爲流行的開源大數據計算框架,廣泛應用於數據處理和分析應用。它提供的兩種基於命令行的處理交互方式雖然足夠靈活,但在企業應用中面諸如部署、安全等的問題。爲此本文引入Livy這樣一個基於Apac

原创 Spark消費kafka錯誤集錦

一、 19/07/05 00:10:05 ERROR Executor: Exception in task 0.0 in stage 1.0 (TID 2) org.apache.kafka.clients.consumer.Offs

原创 SpringBoot問題集錦:NoSuchBeanDefinitionException

學習SpringBoot的過程中,通過test方法進行測試Bean注入時,報錯如下: Positive matches: ----------------- CodecsAutoConfiguration matched:

原创 Hive通過TEZ引擎執行count

     Hive使用TEZ作爲默認的執行引擎,當表插入完記錄後,count得到的結果爲0,如果使用MR作爲執行引擎來執行count,結果與實際記錄數一致。     使用TEZ執行count十分高效,繞過了MapReduce操作,實際結果

原创 Spark解析binlog日誌,寫入MySQL

1. 背景   由於公司業務線的不斷拓展,創建了很多MySQL實例,爲了安全起見每個實例之間不能直接互相訪問,但是業務部門又需要整合各個業務線的數據進行分析、制定風控策略等。因此需要將不同業務線數據進行歸集。   當然一下方案不是最優的,

原创 Shell腳本給Datax的job文件傳參

  當前有一個需求,讀取HDFS中的分區數據,然後將數據寫入到MongoDB。 由於要求每次導入Mongo的是增量的數據,但HDFS中沒有相應的字段對數據進行標識哪些是新增的。需要依據相應的策略去判斷相應的增量數據。 通過Hive的SQL

原创 自建Binlog訂閱服務 —— Maxwell

1. 介紹 Maxwell 是java語言編寫的能夠讀取、解析MySQL binlog,將行更新以json格式發送到 Kafka、RabbitMQ、AWS Kinesis、Google Cloud Pub/Sub、文件,有了增量的數據流,

原创 gson動態解析json

<!-- java版本 --> public class TestEnty { Map<String,Object> li; } package com.Company.Demo; import android.os.Bundle; i

原创 解決:Linux服務器時間與網絡不同步問題

最近在搞測試的時候,發現服務器在和本地通信的時候,會出現超時的情況,首先排除了網絡帶寬的問題。然後在查看超時的服務器上的時間是發現了問題:有3臺服務器的時間和本地時間相差很多。於是着手開始處理時間差。 安裝: yum install n

原创 MaxWell安裝部署

在開始之前,我們還是需要先看一下Maxwell官網,對Maxwell有一個簡單的瞭解。Maxwell通過canal解析binlog,並將其發送到Kafka,後續我們通過自己的業務邏輯,處理得到的binlog日誌,就OK了。我之前在用的時候

原创 StreamSets數據操作平臺(數據移動及數據清洗強大工具)

 前言:最近在公司接到一個業務:將MySQL的數據實時同步到HBase中,剛接手的時候一臉蒙,在不斷的探索中,也發現其實這條線真的很好走,因爲有很多方案可以選擇。一下就是其中一種,後面我也會分享更多其他相關的方案,供大家參考。這種方式我自

原创 用Scala處理時間和時間戳互換

時間轉換爲時間戳import java.text.SimpleDateFormat object test { def main(args: Array[String]): Unit = { val tm = "2017

原创 Logstash處理json根式日誌文檔的三種方式

假設日誌文件中的每一行記錄格式爲json的,如:{"Method":"JSAPI.JSTicket","Message":"JSTicket:kgt8ON7yVITDhtdwci0qeZg4L-Dj1O5WF42Nog47n_0aGF4W