原创 Kafka:Kafka API(0.10.0.X)總結、Flume 與 kafka 集成

目錄 1、環境準備 2、生產者API 2.1、創建生產者並推送消息 2.2、生產者與分區 2.3、創建生產者帶回調函數 2.4、自定義分區 3、消費者API 3.1、創建消費者 3.2、Producer攔截器(interceptor) 4

原创 Flume:HDFS Sink頻繁生成小文件,不按照設定屬性滾動文件解決方案(源碼)、hdfs.minBlockReplicas作用

比如我們想要通過Flume將數據輸出到HDFS中,並且希望每個文件100K左右,可以這麼設置sink屬性 a1.channels = c1 a1.sinks = k1 a1.sinks.k1.type = hdfs a1.sinks

原创 HBase:客戶端API之CompareFilter過濾器、與MapReduce集成

目錄 過濾器 CompareFilter MapReduce集成           hdfs->hbase           hbase->hdfs           hbase->hbase 過濾器 HBase中可以通過get()

原创 Hadoop集羣配置文件(hadoop-ha、hdfs、zookeeper、hbase、yarn、hive、spark)

host ip master1 192.168.80.120 slave1 192.168.80.121 slave2 192.168.80.122 slave3 192.168.80.123 hdfs namenode:master1,

原创 Hive:基於MySQL的Hive安裝搭建、Hive JDBC訪問(hiverserver2和beeline)

目錄 1、基於MySQL的Hive安裝搭建 1.1、Hive安裝 1.2、MySql安裝 1.2.1、在線模式 1.2.2、離線安裝Mysql 1.3、Hive設置使用MySQL 2、Hive JDBC訪問 2.1、hiverserver

原创 Hive:概述、體系架構、工作流程

目錄 1、Hive概述 1.1、Hive是什麼 1.2、數據倉庫的特點 1.3、Hive優缺點 1.3.1、優點 1.3.2、缺點 1.4、Hive與傳統數據庫對比 1.4.1、讀時模式與寫時模式 1.4.2、更新 1.4.3、索引 1.

原创 HBase簡介、數據模型

目錄 HBase簡介 HBase數據模型 自動分區 HBase數據操作的實現 HBase體系結構 HBase簡介 HBase是一個在HDFS上開發的高可靠、高性能、面向列、可伸縮的分佈式數據庫。HBase適用於實時地隨意訪問超大規模數據集

原创 Kafka:概述、體系架構、Kafka集羣部署、命令行操作、工作流程

目錄 1、Kafka(0.10.0.1)概述 1.1、消息隊列JMS 1.2、消息隊列的優點 1.3、Kafka是什麼 2、Kafka體系架構 1)消息 / 鍵 / 批次       2)Topic 3)Producer         

原创 Cython:.py目錄轉換.so文件腳本(python轉so動態庫)

此腳本能夠編譯整個目錄下的python文件,並且會將存在錯誤的.py文件和__init__.py複製到build對應目錄下,同時刪除編譯過程生成的.c和.o文件 # coding:utf-8 import sys, os, time,

原创 HBase與MapReduce整合:TableMapper與TableReducer部分源碼分析

目錄 關於TableMapper和TableReducer TableMapReduceUtil initTableMapperJob initTableReducerJob TableInputFormat TableRecordRea

原创 Python 部分魔術方法Magit Method

魔術方法不過是一種特殊的方法,它不需要人工調用,在特定的時刻會自動執行。 比如像a-b其實"魔術"般地執行了a.__sub__(b),像__sub__這樣的以"__"雙下劃線包起來的方法,都統稱魔術方法。 魔術方法的分類 魔法方法

原创 Hive知識點總結(面試)

         目錄 Hive元數據爲何不存放在內置的derby數據庫中? Hive中的四種排序? Hive與MySQL數據庫區別? HQL的執行流程? Hive 工作原理? 內部表與外部表? Hive分組排序的方式? Hive中的文件

原创 HBase知識點總結(面試)

閱讀摘記,更新中... 目錄 LSM-Tree是什麼? 爲何HBase速度很快? HBase與Hive區別? HBase與傳統關係型數據庫區別? HBase的讀寫流程? Rolling WAL? Hbase memstore 的刷寫時

原创 Spark:Spark Streaming概述、DStream離散流、flume+kafka+Spark Streaming

目錄 1、Spark Streaming概述 1.1、Spark Streaming是什麼 1.2、Spark Streaming特點 1.3、與其他流處理產品對比 2、Spark Streaming 快速開始 3、DStream離散流

原创 Flink:standalone模式下start-cluster.sh之後taskmanager沒起來

我的版本:Flink1.7.2、jdk1.8.0_201 下午照着Flink官網部署了一下standalone模式,通過start-cluster.sh命令啓動Flink集羣后發現只有StandaloneSessionClusterEnt