原创 Scala學習(八)- 類(Class)與繼承(extends)、類型檢查與轉換

類的定義 Scala中類的定義與Java類似,格式如下: [修飾符] class 類名 {    類體 } /** * 定義一個貓類 */ class Cat { var name = "" var age: Int

原创 我的大數據之旅-執行第一個Spark應用:蒙特·卡羅算法求PI

提交任務 [fengling@hadoop129 spark-2.4.4-bin-hadoop2.7]$ bin/spark-submit --class org.apache.spark.examples.SparkPi \ > --

原创 我的大數據之旅-Kafaka啓停腳本

Kafka起動腳本 #!/bin/bash BROKERS="hadoop129 hadoop130 hadoop131" APPHOME="/opt/module/kafka_2.11-2.2.0" APP_NAME="kafka_

原创 我的大數據之旅-Spark集羣環境搭建

    一、環境裝備 兩臺或者兩臺以上安裝了jdk1.8的虛擬機 我準備了三臺:hadoop129/hadoop130/hadoop131 規劃:        Master機:hadoop129        Slaves機:hadoo

原创 Scala學習(九)- 包(package)

相同點: Scala中創建包的方式與Java相同,使用同樣的關鍵字:package /** * @author [email protected] * @date 2019/8/26 */ package com

原创 我的大數據之旅-Hadoop單節點集羣

目錄 軟件清單 解壓到指定目錄 將Hadoop添加到環境變量 運行 Standalone Operation(單機模式),官方grep案例 Pseudo-Distributed Operation(僞分佈式模式) 軟件清單 jdk1.8

原创 windows、linux下flink初體驗

最近在看尚學堂的大數據,學習了scala,閱讀大數據相關的公衆號瞭解了flink,忍不住要體驗一把。 下載 flink下載可以直接到官網下載,選擇合適的鏡像網站下載即可,速度很快,我兩分鐘就下載完了 如果使用scala進行開發,下載的時候

原创 我的大數據之旅-Spark配置Job History Server

目錄 配置文件 提交作業,檢查是否可用 配置文件 進入Spark的conf目錄,spark-defaults.conf.template拷貝一份 [fengling@hadoop129 conf]$ pwd /opt/module/sp

原创 我的大數據之旅-Spark RDD操作

  Spark RDD操作的兩種類型: transformations          在Spark裏所有RDD的轉換都是延遲加載的,不會馬上計算結果,Spark只是記住要應用於基礎數據集的一些轉換操作。 只有當一個動作要求返回給D

原创 Linux配置ssh無密登錄

目錄 切換到root賬戶,執行命令 拷貝公鑰到要免密登錄的目標機子上 測試   切換到root賬戶,執行命令 [root@hadoop129 ~]# ssh-keygen -t rsa 一路回車 /root/.ssh目錄下會生成文件

原创 我的大數據之旅-Spark shell Word Count

目錄 上傳文件到HDFS 運行Spark shell 統計RELEASE文件裏每個單詞的數量 查看Job結果 上傳文件到HDFS #hdfs創建spark目錄: [fengling@hadoop129 spark-2.4.4-bin-h

原创 Linux命令-hostnamectrl重命名主機名

NAME hostnamectl - Control the system hostname SYNOPSIS hostnamectl [OPTIONS...] {COMMAND} DESCRIPTION

原创 我的大數據之旅-Hadoop啓動YARN並運行MapReduce-WordCount

目標 (1)配置集羣在YARN上運行MR (2)啓動、測試集羣 (3)在YARN上運行WordCount案例 執行步驟 (1)配置集羣 (a)配置yarn-env.sh $ vim etc/hadoop/yarn-env.sh (b)配

原创 我的大數據之旅-Spark checkpoint的使用,spark shell演示

主要步驟: 創建RDD 設置sc.setCheckpointDir路徑 調用checkpoint方法 調用一下action操作 scala> sc.setCheckpointDir("hdfs://hadoop129:9000/spar

原创 我的大數據之旅-xsync集羣分發腳本

循環複製文件到所有節點的相同目錄下 集羣機子hadoop129/hadoop130/hadoop131之間同步文件 基本命令 rsync  -rvl     /opt/module                fengling@had