原创 關於Kylin結果緩存的思考

由來 Apache Kylin定位是大數據量的秒級SQL查詢引擎,原理是通過預計算所有可能的維度組合存儲在Hbase中,查詢時解析SQL獲取維度和度量信息,然後再從hbase中掃描獲取數據返回,個人認爲Kylin最強大的地方在於實現了

原创 tez0.8在hadoop2.7.1上的應用

一、配置 1、tez的編譯在我的另外一篇文章中,在這裏不再敘述 2、將生成的war包拷貝到hadoop的/apps/tez目錄,這個目錄自己定義 3、在hadoop的conf目錄新建一個tez-site.xml 配置文件,內容如下: <

原创 其他技術人員播客地址整理

一、bi工具 1、https://highcharts.com.cn/highcharts    兼容 IE6+、完美支持移動端、圖表類型豐富、方便快捷的 HTML5 交互性圖表庫; 成熟穩定的商業軟件,72 個全球 100 強企業共同

原创 flume1.7.0 常用配置

一、source 爲spooling dir a1.sources = r1 a1.channels = c1 a1.sinks = k1 a1.sources.r1.type = spooldir a1.sources.r1.sp

原创 Presto 來自Facebook的開源分佈式查詢引擎

PrestoDB 來自Facebook的開源分佈式查詢引擎 Presto是一個分佈式SQL查詢引擎, 它被設計爲用來專門進行高速、實時的數據分析。它支持標準的ANSI SQL,包括複雜查詢、聚合(aggregation)、連接(jo

原创 hadoop開源工具大集合

弗雷斯特調研公司的分析師Mike Gualtieri最近預測,在接下來幾年,“100%的大公司”會採用Hadoop。Market Research的一份報告預測,到2011年,Hadoop市場會以58%的年複合增長率(CAGR)高速增長

原创 kylin與superset集成實現數據可視化

Apache kylin是一個開源分佈式引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據。而superset是airbnb開源的一款數據可視化工具。 kylin在超大數據規模下仍然可以提供秒級甚至

原创 Presto安裝與配置

     Presto是一個運行在多臺服務器上的分佈式系統。 完整安裝包括一個coordinator(調度節點)和多個worker。 由客戶端提交查詢,從Presto命令行CLI提交到coordinator。 coordinator進行

原创 使用JDBC向MySQL數據庫批次插入10W條數據測試效率

使用JDBC連接MySQL數據庫進行數據插入的時候,特別是大批量數據連續插入(100000),如何提高效率呢?在JDBC編程接口中Statement 有兩個方法特別值得注意:通過使用addBatch()和executeBatch()這一對

原创 ldap服務器搭建

1、linux 環境參考: 通過運行 lsb_release -a LSB Version: :core-4.0-amd64:core-4.0-noarch:graphics-4.0-amd64:graphics-4.0-noarc

原创 Spark on YARN配置日誌Web UI

Spark部署在YARN之後,從Standalone模式下的Spark Web UI直接無法看到執行過的application日誌,不利於性能分析。得益於實驗室師弟的幫忙,本文記錄如何配置history UI。 修改spark-de