原创 圖數據庫-Neo4j介紹與Cypher入門

1、Neo4j簡介 2、單機安裝和簡單使用(社區版) 3、Cypher Query Language 3.1.基本語法 3.2.模式實踐 3.3.Getting the Results You Want 3.4.Compose

原创 Spark中使用kyro序列化

序列化在分佈式系統中扮演着重要的角色,優化Spark程序時,首當其衝的就是對序列化方式的優化。Spark爲使用者提供兩種序列化方式: Java serialization: 默認的序列化方式。 Kryo serialization:

原创 【Flink】Basic API的核心概念

目錄 1.DataSet and DataStream 2.Anatomy of a Flink Program(Flink程序剖析) 3.Lazy Evaluation(延遲執行) 4.Specifying Keys(key的定義) 1

原创 【Flink】核心概念

目錄 1、Dataflow Programming Model(Dataflow編程模型) 1.1、Levels of Abstraction(抽象層) 1.2、Programs and Dataflows(編程和數據流) 1.3、Par

原创 Storm的默認配置參數

Storm的默認參數配置:在defaults.yaml文件中 https://github.com/apache/storm/blob/v1.0.6/conf/defaults.yaml   java.library.path: "/u

原创 【Flink】Flink集羣部署與YARN集成

1、Standalone 軟件要求: Java 1.8.x or higher ssh JAVA_HOME配置 You can set this variable in conf/flink-conf.yaml via the 

原创 圖數據庫之neo4j-jdbc的使用

1、環境準備 上一篇安裝neo4j時,未說明如何設置訪問的IP地址,只有設置了該選項,才能使用具體的IP地址來訪問數據庫。具體設置如下: neo4j/conf/neo4j-server.properties配置文件。 2、創建Java

原创 Spark源碼分析-以wordcount爲入口進行spark-submit源碼分析

1、以wordcount開始spark源碼分析 1)Standalone模式啓動 啓動Master,start-master.sh輸出: /home/weiw/spark-1.6.3-bin-hadoop2.6/sbin/spar

原创 HBase性能調優

本文就HBase的優化做一些總結,同時也借鑑了網上的一些方法,設計到從表的設計優化,讀寫,系統配置優化等 1、表的設計優化 1.1、預分區 默認情況下,在創建表的時候會自動創建一個region分區,當寫入數據時候,所有的HBase客戶端都

原创 圖數據庫之Cypher語言

1、什麼是Cypher 2、寫(create、merge、set、delete、remove、foreach、import) 3、讀(match、optional match、where、start、聚合) 4、常規(return、or

原创 spark源碼分析(2)-源碼閱讀環境準備

在前面介紹wordcount例子時沒有對spark源碼閱讀環境的準備進行說明,本文就主要介紹Spark源碼閱讀環境的構建 1、環境準備 操作系統採用Ubuntu14.04(案例採用虛擬機中安裝模式,橋接模式可訪問外網) 下載JDK1.7+

原创 【異常】SparkStreaming拋出Listener SQLListener threw an exception異常

問題描述 SparkStreaming在長時間運行時,偶爾會出現下面的異常: 2018-01-08 18:42:03 [ SparkListenerBus:32824468 ] - [ ERROR ] Listener SQLList

原创 【異常】elasticsearch的RestClientAPI請求超時問題:java.lang.RuntimeException: error while performing request

問題描述: 在Spark中使用elasticsearch的RestClient API在讀取es中數據時,出現TimeoutException,在之前的優化的中做下面的超時設置,這個只能解決request retries exceeded

原创 Flume+Kafka+SparkStreaming整合

目錄 1.Flume介紹.2 1.1 Flume數據源以及輸出方式.2 1.2 Flume的核心概念.2 1.3 Flume結構.2 1.4 Flume安裝測試.3 1.5 啓動flume4 2.Kafka介紹.4 2.1 Kafka產生

原创 【異常】使用Elasticsearch的REST Client的An HTTP line is larger than 4096 bytes

問題描述: 在使用Elasticsearch的RestHightClient API 去搜索ES數據,當請求的參數過長的出現下面的異常: {"type":"too_long_frame_exception","reason":"An HT