台部落Running

Spark生態圈 Spark是基於scala語言產生的，因此有關spark中的各大編程應用也基本跟scala脫不開關係，但是好在spark的平臺化做的不錯，目前可支持python及R等語言的應用，這些得益於sparkSQL組件

2020-06-14 02:27:52

需求說明目前正在對hive表中的數據做分析，期望從已有的數據中挖掘出類似購物籃的關聯規則，但是單機環境下的關聯規則算法實在是無法勝任大數據環境下的數據挖掘工作，無奈尋求大數據環境下的分佈式挖掘算法，目前可供選用的關聯規則挖掘算法

2020-06-14 02:27:42

sequencefile格式轉text格式這裏僅針對輸入格式爲<\Text, IntWritable>的鍵值對sequencefile文件，可根據實際需要修改，最終輸出文本格式。 package org.apache.hadoo

2020-06-14 02:27:42

python作圖已成爲數據分析中不可或缺的手段，常使用的包爲matplotlib，它被很多其它包所依賴，例如pandas中具有的繪圖功能就是對matplotlib的API的二次封裝使用，今天要說明的seaborn包則提供了一種新的

2020-06-14 02:27:42

Mahout 是 Apache Software Foundation（ASF）旗下的一個開源項目，提供一些可擴展的機器學習領域經典算法的實現，旨在幫助開發人員更加方便快捷地創建智能應用程序。Mahout包含許多實現，包括聚類、

2020-02-23 11:09:46

雖然Hive提供了很多函數，但是有些還是難以滿足我們的需求，因此Hive提供了自定義函數開發，經常用到的主要有兩種類型：UDF(User-Defined-Function)和UDAF（User- Defined Aggregati

2020-02-23 11:09:46

遠程登錄一、什麼是SSH？簡單說，SSH是一種網絡協議，用於計算機之間的加密登錄。如果一個用戶從本地計算機，使用SSH協議登錄另一臺遠程計算機，我們就可以認爲，這種登錄是安全的，即使被中途截獲，密碼也不會泄露。最早的時候

2020-02-23 11:09:46

Python第三方函數庫數據分析函數庫 Numpy：Python的一種開源的數值計算擴展。這種工具可用來存儲和處理大型矩陣，比Python自身的嵌套列表（nested list structure)結構要高效的多（該結構也可以用

2020-02-23 11:09:46

Mahout中主要核心的三大算法爲推薦，聚類及分類算法，今天就最基本的推薦算法做總結，推薦中常用的兩個推薦算法是”user_based”和”item_based”，前者主要通過和你興趣相似的人來發現新的你感興趣的東西，而後者則是發

2020-02-23 11:09:46

spark提供了scala，java及python等腳本作業的功能，但是在實際運行中很容易卡在sc初始化問題上，這裏主要原因在於啓動spark環境後系統會自建sc環境，若用戶在腳本中新建sc將會報錯，但是不使用sc又難以達到腳本的

2020-02-23 11:09:46

sqoop可用於將關係型數據庫與分佈式存儲系統進行數據的轉換存儲，例如可以將mysql中的數據與hive下的存儲數據進行互轉，但實質上仍然是讀取hdfs下的存儲文件。有關sqoop的基本應用語法可以參考以下兩篇sqoop中文手

2020-02-23 11:09:46

Mahout機器學習平臺之聚類算法詳細剖析數據輸入中的格式說明： test類型（seqdirectory函數） sequencefile類型（seq2sparse函數）

2020-02-23 11:09:46

hive中提供了兩種針對json數據格式解析的函數，即get_json_object（…）與json_tuple(…)，理論不多說，直接上效果示意圖：假設存在如下json數據對象，若使用hive環境可這麼設置： set hive

2020-02-23 11:09:46

相似度計算算法 mahout源包中包含了common，hadoop，lucent及mahout核心算法相關的classes，其中，對於mahout中常用的推薦，聚類及分類中的相似度計算，mahout中提供了若干種向量相似度計算的方

2020-02-23 11:09:46

開始詳細系統的學習linux常用命令，堅持每天一個命令，所以這個系列爲每天一個linux命令。學習的主要參考資料爲：　　1.《鳥哥的linux私房菜》　　2.http://codingstandards.iteye.com/b

2020-02-23 11:09:46