原创 spark DataFrame 基本操作函數
DataFrame 的函數Action 操作 1、 collect() ,返回值是一個數組,返回dataframe集合所有的行 2、 collectAsList() 返回值是一個Java類型的數組,返回dataframe集合所有的行 3、
原创 Auto Machine Learning 自動化機器學習筆記
適讀人羣:有機器學習算法基礎1. auto-sklearn 能 auto 到什麼地步? 在機器學習中的分類模型中: 常規 ML framework 如下圖灰色部分:導入數據-數據清洗-特徵工程-分類器-輸出預測值
原创 model.save(sc,'fname')異常Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError
最近在使用pyspark保存model的時候出現Exception in thread "dag-scheduler-event-loop" java.lang.StackOverflowError報錯, 網上搜索了一下找下如下解決方案,
原创 自動機器學習之auto-sklearn入門
當我們做完了特徵工程之後,就可以代入模型訓練和預測,對於模型的選擇及調參,主要根據分析者的經驗。在具體使用時,經常遇到同一批數據,同一種模型,不同的分析者得出的結果相差很多。 前面學習了幾種常用的機器學習方法原理以及適用場景,對於完全沒有
原创 SuperSet logo修改、導出csv中文亂碼、sql查詢超時問題解決(默認30s)問題處理
一、網頁標題及logo修改 1、網頁標題修改 需要修改兩個文件: vi /root/anaconda3/envs/super/lib/python3.6/site-packages/superset/views/core.py retur
原创 在Linux Centos7 上使用pyspark Notebook
首先安裝anaconda 參考: https://blog.csdn.net/levy_cui/article/details/80898739 https://blog.csdn.net/levy_cui/article/details
原创 xgboost中XGBClassifier()參數
#常規參數 booster gbtree 樹模型做爲基分類器(默認) gbliner 線性模型做爲基分類器 silent silent=0時,輸出中間過程(默認) silent=1時,不輸出中間過程 nt
原创 pyspark提交代碼到yarn模式,報錯ImportError: No module
上一篇:PySpark任務在YARN集羣上運行 關聯python包numpy pandas scipy 等 問題: 在提交ALS.train代碼到yarn模式的時候,會出現如下報錯: import numpy as np Impor
原创 Spark調優:提交job資源參數調優及內存模型調優
【場景】 Spark提交作業job的時候要指定該job可以使用的CPU、內存等資源參數,生產環境中,任務資源分配不足會導致該job執行中斷、失敗等問題,所以對Spark的job資源參數分配調優非常重要。 spark提交作業,yarn-c
原创 Spark ALS 協同過濾(CF)如何將Str類型的userID或itemID轉換爲Rating中要求的int類型
/** * 問題: * 在對數據進行訓練時,Rating要求的是int,int,double,但是現有的數據是long,string,double類 型,使用toInt進行轉換時依然會報錯,這是因爲long類型轉換
原创 使用釘釘機器人對業務異常進行告警(Linux)
添加釘釘機器人 首先使用電腦版操作,目前個人已知的釘釘機器人只能存在於釘釘羣,釘釘羣的建羣需求是至少 3 人,當然,你建羣之後可以把其它人請出去。 【1】首先,我們進入一個釘釘羣創建我們的機器人: 【2】目前釘釘已經存在了一些項目的機
原创 自動機器學習之Auto-Keras入門
對於訓練深度學習,設計神經網絡結構是其中技術含高最高的任務,優秀的網絡架構往往依賴建構模型的經驗,專業領域知識,以及大量的算力試錯。實際應用中往往基於類似功能的神經網絡微調生成新的網絡結構。 Auto-Keras是一個離線使用的開源庫,用
原创 推薦系統排序算法的演進
在分析用戶推薦系統程序排序算法之前,我們先介紹下推薦系統中的數據的特點,排序算法就是針對這種數據特點設計了不同的解決方案,纔有了推薦算法的發展。 首先我們先重點介紹下推薦系統中數據的幾個鮮明特點: 1、數據主要以離散數據爲主,連續數據爲輔
原创 在廣告/搜索/推薦系統中 對展示結果打散的通用魯棒算法
摘要:之所以同時提到廣告/搜索/推薦三個系統,是因爲這三者有一定的相似性,即通過一次請求(基於上下文、用戶場景、關鍵詞等)給用戶呈現一籃子元素,這些元素包括如文章、商品、活動、專輯、音樂、視頻等等。這一籃子需要展示的元素儘管是根據權重進行
原创 superset配置LDAP(MSFT AD)
superset配置ldap這塊調試了好久,一直不能配置通,各種查,網上一些教程都是針對服務器端是openldap的設置,我這邊ldap服務器是微軟的MSFT AD,最後也是結合網上的信息各種嘗試,終於調試通了,特此單獨記錄一下,幫助需要