原创 hadoop集羣環境搭建

前言 本文只介紹hadoop集羣環境的搭建,hadoop單機配置和hadoop僞分佈配置將在hadoop安裝教程中介紹 環境 本教程使用ubuntu16.04作爲操作系統 hadoop版本爲hadoop-2.8.2(可自行下載其他版本)

原创 spark算子實戰

spark算子 什麼是算子 百度百科上對算子的解釋是這樣的,算子是一個函數空間到函數空間上的映射O:X→X。廣義的講,對任何函數進行某一項操作都可以認爲是一個算子,甚至包括求冪次,開方都可以認爲是一個算子,只是有的算子我們用了一個符號來代

原创 map-reduce練習

練習1:有如下的數據,其中第一列爲用戶ID,後面數列爲他的朋友ID A B C D E F B A H C D E I C B E G A J D A B E E H A B C D G F A J G G C E F I H B J

原创 jupyter安裝及配置scala、spark、pyspark內核

安裝 jupyter和python 本文使用Anaconda安裝jupyter。 Anaconda可以看做Python的一個集成安裝,安裝它後就默認安裝了python、IPython、集成開發環境Spyder和衆多的包和模塊 也可參照h

原创 spark分佈式集羣環境搭建(hadoop之上)

本文介紹的spark環境搭建是基於hadoop之上的,hadoop集羣環境搭建在之前的文章中已經介紹過,請前往查看。 scala安裝 scala下載 wget https://downloads.lightbend.com/scala/2

原创 spark算子實戰(三)

這篇文章將繼續介紹spark算子之Actions算子。 Actions算子 算子 說明 foreach 對RDD中的每個元素應用f函數。 saveAsTextFile 將RDD保存爲文本文件。路徑path可以是本地路徑或H

原创 Spark SQL及實例

什麼是Spark SQL Spark SQL是Apache Spark用於處理結構化數據的模塊。Spark SQL允許使用SQL或熟悉的DataFrame API查詢Spark程序內的結構化數據。Spark SQL支持多語言編程包括Jav

原创 spark算子實戰(二)

在spark算子實戰中介紹了Value型Transformation算子,這裏將繼續介紹Key-Value型Transformation算子,Actions算子將在spark算子實戰(三)中介紹。 Key-Value型的Transform