台部落Data

目前Python存在兩個版本Python2和Python3系列，且這兩個版本同時在更新與維護。到底是選擇Python2還是選擇Python3，取決於當前要使用的庫、框架支持哪個版本。因此一臺電腦上可能需要同時安裝Python2和Pyt

2020-06-28 16:21:28

def get_data_from_mysql_table(db_url, is_debug=False): '''pandas>=0.24.0''' engine = create_engine(db_url, ech

2020-06-28 16:21:28

本文檔旨在說明如何在NIFI集羣模式下中配置kerberos安全登陸模式。一、版本信息 OS：CentOS7.2 JDK : 1.8.0_65 NIFI : 1.3.0 ZooKeeper: 3.4.6 二、操作系統配置 2.1 配置每

2020-06-28 16:21:28

最近一直在研究alluxio,希望其能夠和hive,spark，hbase集成在一起，達到更快的運行速度，提高性能；但從目前情況來看，想用alluxio提升某個具體應用的性能，不大現實。從網上查找的資料分析，應用比較廣泛的幾家大公司比

2018-08-24 23:20:08

1、問題描述自從spark2.0.0發佈之後，每次啓動hive的時候，總會發現一個小問題，啓動 hive --service metastore的時候，會報一個小BUG: 無法訪問<PathToSpark>/lib/spa

2018-08-24 23:20:08

Centos 6以及6以下的系統使用watchtmp + cron來實現定時清理臨時文件的效果，這點在Centos 7發生了變化。一. 系統自動清理在Centos 7下，系統使用systemd管理易變與臨時文件，/tmp目錄

2018-08-24 23:19:56

一、NiFi是什麼？任何一個大數據應用分析的軟件，都需要一個強大的數據抽取組件、數據倉儲系統、數據處理引擎、任務調度引擎和流程設計界面。Hadoop和Spark的重點是在數據的存儲和任務調度，R的重點是數據分析引擎。而本文所說的nif

2018-08-24 23:19:54

創建hive表： CREATE EXTERNAL TABLE my_table( id int, ... ) PARTITIONED BY ( dt string)

2018-08-24 23:19:53

一、操作系統配置 1、配置靜態ip vi /etc/sysconfig/network-scripts/ifcfg-enoXXX（該文件可能會因環境而異）2、配置主機名方法一 hostnamectl set-hostname ***

2018-08-24 23:19:52

系統Centos7.1 在安裝測試過程中出現了Pseudo-terminal will not be allocated because stdin is not a terminal 錯誤解決方法：修改：${alluxio_ho

2018-08-24 23:19:52

MR具體流程如下： 1）文件拆分成splits，這一步由MapReduce框架自動完成，其中偏移量（即key值）包括了回車所佔的字符數和Linux環境有關。 2）將分割好的對交給用戶定義的map方法進行處理，生成

2018-08-24 23:19:52

關於mysql中時間類型datetime與timestamp的有效範圍 datetime 類型取值範圍：1000-01-01 00:00:00 到 9999-12-31 23:59:59 timestamp類型取值範圍：1970-01

2018-08-24 23:19:52

newlisp中可以利用Hash functions 來實現某些特定數據出現次數的統計，如 (new Tree 'MyHash) (if (Myhash y) (Myhash y (+ (Myhash y) 1))

2018-08-24 23:19:51