原创 RocketMQ消費者示例程序

更多大數據技術乾貨,歡迎關注“大數據技術進階”微信公衆號。 本博客實現了一個簡單的RocketMQ消費者的示例,MQ裏存儲的是經過Avro序列化的消息數據,程序讀取數據並反序列化後,將消息從控制檯打印出來。   程序通過stdin.xml

原创 RocketMQ生產者示例程序

本示例展示了一個RocketMQ producer的簡單實現,通過解析文本文件獲取輸入數據,將數據經過Avro序列化後發送到RocketMQ。 程序通過stdin.xml配置文件獲取主要參數值,stdin.xml文件內容如下: <?xml

原创 flume+kafka+smart數據接入實施手冊

1.  概述 本手冊主要介紹了,一個將傳統數據接入到Hadoop集羣的數據接入方案和實施方法。供數據接入和集羣運維人員參考。 1.1.   整體方案           Flume作爲日誌收集工具,監控一個文件目錄或者一個文件,當有新數

原创 基於Spark Grahpx Neo4j 實現用戶社羣發現

上一篇文章《知識圖譜在大數據中的應用》我們介紹了知識圖譜的一些概念和應用場景,今天我們就來看一個具體的應用案例瞭解下知識圖譜的應用。用戶增長對於一個APP的生存起到了至關重要的作用,沒有持續的用戶增長,再好的APP也不會走的長遠,

原创 將存儲在本地的大量分散的小文件,合併並保存在hdfs文件系統中

import java.io.BufferedInputStream; import java.io.File; import java.io.FileInputStream; import java.io.IOException; im

原创 Flume NG之Interceptor簡介

轉載地址:http://www.cnblogs.com/lxf20061900/p/3658172.html 有的時候希望通過Flume將讀取的文件再細分存儲,比如講source的數據按照業務類型分開存儲,具體一點比如類似:將sour

原创 java設定窗口步長,依次統計窗口內數值總和

import java.util.Arrays; public class test2 { public static void main(String[] args) { int winSize = 3; int move

原创 深度好文 | 資深技術Leader曹樂:如何成爲技術大牛

雙生說:曹樂是典型學霸,清華本碩,多年互聯網大廠研發經驗,所以“資深”。我剛到新部門的時候,約各位合作部門的Leader請教,也算幫我做新崗位入職的“平穩降落”。印象最深的,就是作爲技術Leader的曹樂,一點都不像技術——他和我

原创 spark讀hdfs文件實現wordcount並將結果存回hdfs

作者博客遷移至博客園:http://www.cnblogs.com/xiaodf/ package iie.udps.example.operator.spark; import scala.Tuple2; import org.a

原创 延長SparkContext初始化時間

作者博客遷移至博客園:http://www.cnblogs.com/xiaodf/ 有些應用中可能希望先在driver上運行一段java單機程序,然後再初始化SparkContext用集羣模式操作java程序返回值。從而避免過早建立Spa

原创 循環列表的Java實現,解決約瑟夫環問題

import java.util.Scanner; /** * 循環列表的Java實現,解決約瑟夫環問題 * * @author LIU * */ public class LinkedList { // 定義結點,必須是

原创 java生成隨機大數據文件

package iie.udps.test; import java.io.BufferedWriter; import java.io.File; import java.io.FileOutputStream; import jav

原创 Spark Streaming任務延遲監控及告警

概述 StreamingListener 是針對spark streaming的各個階段的事件監聽機制。 StreamingListener接口 //需要監聽spark streaming中各個階段的事件只需實現這個特質中對應的事

原创 大數據風控系統概述

爲什麼要做風控系統 不做的話,會有以下風險: 各種小號、垃圾賬號氾濫 撞庫攻擊、盜號、毀號、拖庫等 拉新 10w 留存率不到 5% 百萬營銷費用,卻增加不了用戶粘性 投票票數差距非常懸殊 各種榜單被垃圾賬號佔領 實物獎勵被機器人

原创 Spark讀取HDFS文件,文件格式爲GB2312,實現WordCount示例

作者博客遷移至博客園:http://www.cnblogs.com/xiaodf/ import scala.Tuple2; import org.apache.hadoop.conf.Configuration; import or