台部落moledyzhang

前言本文只介紹hadoop集羣環境的搭建，hadoop單機配置和hadoop僞分佈配置將在hadoop安裝教程中介紹環境本教程使用ubuntu16.04作爲操作系統 hadoop版本爲hadoop-2.8.2（可自行下載其他版本）

2018-08-29 04:13:55

spark算子什麼是算子百度百科上對算子的解釋是這樣的，算子是一個函數空間到函數空間上的映射O：X→X。廣義的講，對任何函數進行某一項操作都可以認爲是一個算子，甚至包括求冪次，開方都可以認爲是一個算子，只是有的算子我們用了一個符號來代

2018-08-29 04:13:55

練習1：有如下的數據，其中第一列爲用戶ID，後面數列爲他的朋友ID A B C D E F B A H C D E I C B E G A J D A B E E H A B C D G F A J G G C E F I H B J

2018-08-29 04:13:55

安裝 jupyter和python 本文使用Anaconda安裝jupyter。 Anaconda可以看做Python的一個集成安裝，安裝它後就默認安裝了python、IPython、集成開發環境Spyder和衆多的包和模塊也可參照h

2018-08-29 04:13:55

108

本文介紹的spark環境搭建是基於hadoop之上的，hadoop集羣環境搭建在之前的文章中已經介紹過，請前往查看。 scala安裝 scala下載 wget https://downloads.lightbend.com/scala/2

2018-08-29 04:13:55

這篇文章將繼續介紹spark算子之Actions算子。 Actions算子算子說明 foreach 對RDD中的每個元素應用f函數。 saveAsTextFile 將RDD保存爲文本文件。路徑path可以是本地路徑或H

2018-08-29 04:13:55

什麼是Spark SQL Spark SQL是Apache Spark用於處理結構化數據的模塊。Spark SQL允許使用SQL或熟悉的DataFrame API查詢Spark程序內的結構化數據。Spark SQL支持多語言編程包括Jav

2018-08-29 04:13:55

在spark算子實戰中介紹了Value型Transformation算子，這裏將繼續介紹Key-Value型Transformation算子，Actions算子將在spark算子實戰（三）中介紹。 Key-Value型的Transform

2018-08-29 04:13:55