原创 centos7系統安裝python3.6.2版本

目前Python存在兩個版本Python2和Python3系列,且這兩個版本同時在更新與維護。到底是選擇Python2還是選擇Python3,取決於當前要使用的庫、框架支持哪個版本。因此一臺電腦上可能需要同時安裝Python2和Pyt

原创 python使用sqlalchemy從mysql獲取數據後調整爲mysql的數據格式

def get_data_from_mysql_table(db_url, is_debug=False): '''pandas>=0.24.0''' engine = create_engine(db_url, ech

原创 基於Kerberos的NIFI集羣安全登陸模式

本文檔旨在說明如何在NIFI集羣模式下中配置kerberos安全登陸模式。 一、版本信息 OS:CentOS7.2 JDK : 1.8.0_65 NIFI : 1.3.0 ZooKeeper: 3.4.6 二、操作系統配置 2.1 配置每

原创 alluxio的適用場景

 最近一直在研究alluxio,希望其能夠和hive,spark,hbase集成在一起,達到更快的運行速度,提高性能;但從目前情況來看,想用alluxio提升某個具體應用的性能,不大現實。從網上查找的資料分析,應用比較廣泛的幾家大公司比

原创 Hive在spark2.0.0啓動時無法訪問spark-assembly-*.jar的解決辦法

1、問題描述        自從spark2.0.0發佈之後,每次啓動hive的時候,總會發現一個小問題,啓動 hive --service metastore的時候,會報一個小BUG: 無法訪問<PathToSpark>/lib/spa

原创 Centos7清理/tmp文件夾

 Centos 6以及6以下的系統使用watchtmp + cron來實現定時清理臨時文件的效果,這點在Centos 7發生了變化。 一.  系統自動清理  在Centos 7下,系統使用systemd管理易變與臨時文件,/tmp目錄

原创 NIFI簡介

一、NiFi是什麼? 任何一個大數據應用分析的軟件,都需要一個強大的數據抽取組件、數據倉儲系統、數據處理引擎、任務調度引擎和流程設計界面。Hadoop和Spark的重點是在數據的存儲和任務調度,R的重點是數據分析引擎。而本文所說的nif

原创 創建HIVE表命令的運行

創建hive表: CREATE EXTERNAL TABLE my_table( id int, ... ) PARTITIONED BY ( dt string)

原创 基於Kerberos的NIFI單節點安全登陸配置

一、操作系統配置 1、配置靜態ip vi /etc/sysconfig/network-scripts/ifcfg-enoXXX(該文件可能會因環境而異)2、配置主機名方法一 hostnamectl set-hostname ***

原创 Centos7.1 安裝測試Alluxio 出現Pseudo-terminal will not be allocated because stdin is not a terminal 錯誤的解決

系統Centos7.1  在安裝測試過程中出現了Pseudo-terminal will not be allocated because stdin is not a terminal  錯誤 解決方法: 修改:${alluxio_ho

原创 WordCount程序中隱藏的祕密

MR具體流程如下:      1)文件拆分成splits,這一步由MapReduce框架自動完成,其中偏移量(即key值)包括了回車所佔的字符數和Linux環境有關。        2)將分割好的對交給用戶定義的map方法進行處理,生成

原创 關於mysql時間類型datetime與timestamp範圍

關於mysql中時間類型datetime與timestamp的有效範圍 datetime   類型取值範圍:1000-01-01 00:00:00 到 9999-12-31 23:59:59 timestamp類型取值範圍:1970-01

原创 newLisp中的Hash排序

newlisp中可以利用Hash functions 來實現某些特定數據出現次數的統計,如 (new Tree 'MyHash) (if (Myhash y) (Myhash y (+ (Myhash y) 1))