原创 spark query hive and save as libsvm

以下示例代碼使用 spark 查詢 hive並把結果存儲爲 libsvm 格式: from pyspark import SparkConf,SparkContext from pyspark.sql import HiveConte

原创 大型系統的Redis性能優化

本文爲轉載: https://blog.csdn.net/vcbin/article/details/53941682   問題描述 系統背景:大型線上Java服務集羣(活躍用戶數上千萬),業務重度使用Redis存儲個管理Session,

原创 OpenWrt 雙s插件 bash代碼研讀

Project git url: https://github.com/ss/openwrt-ss 包含 ss-{local,redir,tunnel} 三個可執行文件  默認啓動 ss-local 建立本地 SOCKS 代理 ss-li

原创 xgboost(1.0) yarn(附CDH 5.14的個人心得)

個人心得(CDH5.14,心得是對下文轉載步驟的補充): CDH5.14的config.mk config.mk的配置要改成如下: USE_HDFS = 1 HDFS_LIB_PATH = /home/user/xgboost/xgbo

原创 Apache Zeppelin 的 shiro.ini 簡單配置說明

shiro 本身也是一個apache項目。 shiro.ini 位於 Zeppelin 的 conf 文件夾下。 [users] segment 配置用戶名密碼和role   [roles] segment 配置roles 如果shiro

原创 企業級大數據的安全方案 & Kerberos 的 expire 及 renew說明

企業級大數據集羣有兩個層面的安全系統: 一個是每一臺服務器的本地有個linux的賬戶系統,這個可以批量處理配置。爲每個服務器建立一個本地的賬號和組。用這個賬號去SSH登錄。 另一個就是大數據集羣,即Hadoop的賬號系統,是Hadoop通

原创 Lambda 架構 Batch Layer & Serving Layer 詳解

前文鏈接: https://blog.csdn.net/rav009/article/details/85690985 繼續介紹 Lambda結構 一些理念: fact-based model 在關係型數據庫的時代,我們通過維度表和事實表

原创 Pentaho Kettle 8.1 使用 Mysql 8.0 開啓 Reposity 模式

Mysql 8.1 驅動放到kettle的lib目錄。 在kettle安裝目錄,simple-jndi目錄下,編輯 jdbc.properties 文件加入mysql的配置項: MYSQL8_DB/type=javax.sql.Data

原创 python2/python3 連接 hive/impala 的問題彙總

'TSocket' object has no attribute 'isOpen bug: https://github.com/cloudera/impyla/issues/268 'TSaslClientTransport' obj

原创 anaconda python 連 impala (選擇正確的anaconda版本, bug修復) & linux python3裝 jupyter

  Windows 上的安裝  截至目前2019/2/20 不要選python3.7版本對應的anaconda, 因爲在python3.7 "async" 變成了一個關鍵詞, 和python訪問impala的庫impyla有衝突, 建議

原创 uwsgi + webpy 部署教程

uwsgi安裝:  yum install uwsgi-plugin-python INI示例: [uwsgi] http-socket=:9090 plugin=python wsgi-file=/home/fr-renjie.we

原创 Zeppelin 實現 iframe 分享的相關問題

Zeppelin製作的圖標可以生成 iframe 進行分享,但是在實踐過程中會遇到幾個坑。 1. X-Frame-Options 參考https://zeppelin.apache.org/docs/0.7.3/security/http

原创 Kubernetes (K8S) 學習筆記

Kubernetes 以下簡稱 k8s,是類似hadoop中yarn的存在,對大規模集羣進行創建、刪除、升級、擴容的一層組件。 微軟Azure官方的教程:鏈接: https://pan.baidu.com/s/1AM6eq80Y72TuV

原创 spark 運行關鍵參數

1.num-executors 參數說明: 該參數用於設置Spark作業總共要用多少個Executor進程來執行。Driver在向YARN集羣管理器申請資源時,YARN集羣管理器會儘可能按照你的設置來在集羣的各個工作節點上,啓動相應數量的

原创 Spark Xgboost 分佈式運行原理

參考xgboost官網文章: https://xgboost.readthedocs.io/en/latest/jvm/xgboost4j_spark_tutorial.html Parallel/Distributed Training