原创 《快學Scala》 第2章練習解答

注:題目在書上或各PDF版本都有,請自行參考,此答案僅供互相學習和討論。 1,(條件表達式)   def signum(num : Int) : Int = { if(num > 0) 1 else if(num < 0)

原创 Hive運行架構及配置部署

Hive 運行架構 由Facebook開源,最初用於解決海量結構化的日誌數據統計問題:ETL工具;    構建於Hadoop的HDFS和MapReduce智商,用於管理和查詢結構化/非結構化數據的數據倉庫;    設計目的是讓SQL技能良

原创 【Spark1.3官方翻譯】 Spark Submit提交應用程序

英文標題:Submitting Applications 英文原址:http://spark.apache.org/docs/latest/submitting-applications.html Spark Version:1.3.0

原创 PyCharm+PySpark遠程調試的環境配置的方法

今天小編就爲大家分享一篇PyCharm+PySpark遠程調試的環境配置的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧 前言:前兩天準備用 Python 在 Spark 上處理量幾十G的數據

原创 json處理工具jq

@ 2018-03-01 jq工具可以檢查JSON的合法性,並把JSON格式化成更友好更可讀的格式。 將一團亂麻的JSON格式化成個更可讀的形式,原始json文件jsonTest數據如下: {"_location":"(32.121,

原创 【Note】Python入門基礎

基礎語法規則 標識符命名 BIFs自帶電池 Python的標準運算符 循環與判斷 判斷 Python標準數據類型 Pyhon 字符串類型 練習題 此文作爲Python基礎的第一個筆記是對Python基礎語法的一個總括,比較基礎,

原创 多個 Kylin 服務

多個 Kylin 服務 多個 Kylin 服務 Kylin Server modes 設置多Kylin REST服務 1. Kylin Server modes Kylin實例是可以無處不在的,其運行時狀態保存在$KYL

原创 內容推薦-文本與畫像

1. 文本也能用於畫像? 2. 用物品畫像豐富用戶畫像 2.1 結構化文本 2.1.1 TF-IDF 2.1.2 TextRank 2.1.3 內容分類 2.1.4 實體識別 2.1.5 聚類 2.1.6 Embedding 2

原创 Hive與HBase集成實踐

@ 2016-05-30 具體步驟 拷貝jar包 在Hive的類路徑中添加一些這些jar包 Hive集成HBase的原理 Storage Handler 使用 字段映射 示例 多列和列族 Hive的Map字段與HBase列

原创 熵權法

@20171107 熵權法的原理 1 信息熵Information Entropy 2 熵權法 熵權法的計算步驟 1 確定指標體系 2 數據預處理 3 歸一化處理 4 計算指標的熵和權 5 指標加權計算得分 總結 示例

原创 數據預處理——離散化

@ 2018-02-07 什麼是數據離散化 非監督離散化 監督離散化 1. 什麼是數據離散化 有些數據挖掘算法,特別是某些分類算法(如樸素貝葉斯),要求數據是分類屬性形式(類別型屬性)這樣常常需要將連續屬性變換成分類屬性(

原创 數據預處理——抽樣

@ 2018-02-08 有效抽樣 抽樣方法 1 簡單隨機抽樣 3 系統抽樣 2 分層抽樣 3 漸進抽樣 抽樣是一種選擇數據對象子集進行分析的常用方法。在統計學中,抽樣長期用於數據的實現調查和最終的數據分析;在數據挖掘

原创 Hive分區表實戰

@2018-03-13 1. Hive分區表 2. 靜態分區 應用場景1 應用場景2 應用場景3 2. 動態分區 應用場景1 應用場景2 應用場景3 3. 修改分區 1. 添加分區 2. 重命名 3. 交換分區 4. 恢復分

原创 用戶畫像-User Profile

@ 2018-05-27 1. 用戶畫像 1.1 什麼是用戶畫像? 1.2 用戶畫像與推薦系統的關係 2. 用戶畫像的關鍵因素 3. 用戶畫像的構建方法 1. 用戶畫像 1.1 什麼是用戶畫像? 用戶畫像常見對應兩個英文

原创 Python推薦系統庫——Surprise

@ 2018-01-24 Surprise 簡單易用同時支持多種推薦算法 其中基於近鄰的方法協同過濾可以設定不同的度量準則 支持不同的評估準則 使用示例 基本使用方法如下 載入自己的數據集方法 算法調參讓推薦系統有更好的效果