Spark入門之REPL/CLI/spark shell 快速學習

原文鏈接：https://blog.csdn.net/minge_se/article/details/79130463

一、前言

本章的目的是提供指導，以便讀者熟悉獨立模式下安裝Apache Spark的過程及其依賴關係。然後，我們將開始與Apache Spark的第一次交互，通過使用Spark CLI（稱爲REPL，REPL是Read-Evaluate-Print Loop（讀取-求值-打印循環）的首字母縮寫。）進行一些練習。

/** The Scala interactive shell.  It provides a read-eval-print loop
 *  around the Interpreter class.
 *  After instantiation, clients should call the main() method.
 *
 *  If no in0 is specified, then input will come from the console, and
 *  the class will attempt to provide input editing feature such as
 *  input history.
 *
 *  @author Moez A. Abdel-Gawad
 *  @author  Lex Spoon
 *  @version 1.2
 */
class ILoop(in0: Option[BufferedReader], protected val out: JPrintWriter)
                extends AnyRef
                   with LoopCommands

我們將繼續討論Spark組件以及與Spark相關的常用術語，然後討論集羣環境中Spark工作的生命週期。我們還將從圖形意義上探索Spark作業的執行，從創建DAG到執行Spark Web UI中提供的實用程序的最小任務單元。

最後，我們將通過使用Spark-Submit工具和Rest API討論Spark Job配置和提交的不同方法來結束本章。

快速安裝單機模式spark：

1.下載scala：http://www.scala-lang.org/download/

2.安裝scala：rpm -ivh scala-2.12.4.rpm

3.設置scala環境變量：vim /etc/profile

export SCALA_HOME=/usr/share/scalaexport PATH=$SCALA_HOME/bin:$PATH

4.下載spark：http://spark.apache.org/downloads.html

5.解壓spark：tar -xvf /opt/spark-2.2.1-bin-hadoop2.7.tgz

6.配置spark環境變量：vim /etc/profile

export SPARK_HOME=/opt/spark/export PATH=$PATH:$SPARK_HOME/bin

大功告成！

通過下述命令啓動spark單機模式：

$SPARK_HOME/bin/spark-shell

如果Spark二進制文件已經被加入到環境變量PATH中，我們可以簡單地執行spark-shell命令即可。

可以在http://localhost:4040中獲取spark驅動器用戶界面。稍後會細講

二、開始Spark REPL

Spark REPL或Spark shell（也稱爲Spark CLI）是探索Spark編程的非常有用的工具。 REPL是Read-Evaluate-Print Loop（讀取-求值-打印循環）的首字母縮寫。它是程序員用來與框架進行交互的交互式shell。 Apache Spark也帶有REPL，初學者可以使用它來理解Spark編程模型。

2.1使用Spark shell進行一些基本練習

請注意，Spark shell僅在Scala語言中可用。但是，我們已經讓Java開發人員很容易理解這些例子。

2.1.1確認Spark版本

使用spark shell，通過下面的命令來確認spark腳本：