原创 Cloudera-manager(CDH6.3.0)大數據平臺搭建一指禪(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue)

Cloudera-manager(CDH6.3.0)大數據平臺搭建一指禪指南(impala,kudu,hdfs,hive,kafka,yarn,spark,hbase,hue) CHD6,大量hadoop生態的重大更新升級,果斷把現有系統升

原创 帆軟FineBI5.1集羣模式踩坑指南

帆軟FineBI5.1集羣模式踩坑指南 安裝之前,貌似沒做任何準備,centos7.7 [hadoop@master ~]$ lsb_release -a LSB Version: :core-4.1-amd64:core-4.1-n

原创 來自俄羅斯的ClickHouse列式數據在CentOS7配置和基礎性能測試

來自俄羅斯的ClickHouse列式數據在CentOS7配置和基礎性能測試 確認當前CPU是否支持安裝 [root@master ~]# grep -q sse4_2 /proc/cpuinfo && echo "SSE 4.2 suppo

原创 如何在Hive中創建自定義函數UDF及如何直接通過Impala的同步元數據重用UDF的jar文件

如何在Hive中創建自定義函數UDF及使用 如何在Impala中使用Hive的自定義函數 UDF函數開發 使用Intellij工具開發Hive的UDF函數,進行編譯;1.使用Intellij工具通過Maven創建一個Java工程,並添加po

原创 CentOS7中搭建nodejs10(VUE)開發環境踩坑指南

Centos7安裝npm|nodejs的步驟 阿里的nodejs網站 https://npm.taobao.org/ 安裝一些必要的庫 [root@master ~]# yum install gcc gcc-c++ [hadoop@m

原创 深入淺出:Hadoop的start-balancer.sh與hdfs balancer分佈式數據均衡

Hadoop的HDFS集羣非常容易出現機器與機器之間磁盤利用率不平衡的情況,比如集羣中添加新的數據節點。當HDFS出現不平衡狀況的時候,將引發很多問題,比如:1、MR程序無法很好地利用本地計算的優勢2、機器之間無法達到更好的網絡帶寬使用率,

原创 hadoop日常運維白皮書

hadoop日常運維與升級總結 ▲進程管理由於配置文件的更改,需要重啓生效,或者是進程自己因某種致命原因終止,或者發現進程工作出現異常等情況下,需要進行手動進程的關閉或啓動,或者是增刪節點過程中的需要,進程的關閉與啓動,使用hadoop-d

原创 Hadoop機架感知(rack-aware)配置指南

Hadoop機架感知(rack-aware)配置 副本的存放策略又是HDFS實現高可靠性和搞性能的關鍵,優化的副本存放策略也正是HDFS區分於其他大部分分佈式文件系統的重要特性。HDFS採用一種稱爲機架感知(rack-aware)的策略來改

原创 通過Datax將CSV文件導入Hbase,導入之前的CSV文件大小和導入之後的Hadoop分佈式文件大小對比引入的思考

由於項目需要做系統之間的離線數據同步,因爲實時性要求不高,因此考慮採用了阿里的datax來進行同步。在同步之前,將數據導出未csv文件,因爲需要估算將來的hbase運行的hadoop的分佈式文件系統需要佔用多少磁盤空間,因此想到了需要做幾組

原创 Spring Boot2中整合atomikos來實現不同類型數據庫的分佈式事務一致性

由於需要重構一個老的系統(Oracle),業務側要求老系統和新系統(Mysql)並行運行半年,證明重構系統的穩定性才能上線,在這半年期間,新系統用來查詢,全文檢索,圖數據庫查詢,老系依然辦理業務,因此就存在在一個事務提交中,同時寫Mysql