原创 python 中的switch

我們先來看看Java的switch switch(expression){ case value : //語句 break; //可選 case value : //語句

原创 java獲取某天開始:結束

一天的開始時間:我們將(當前輸入時間戳+時間戳的初始值)對一天取餘,然後剪掉餘數就是當天開始時間 public static Long startTime(Long now) { Long startTime = now

原创 python環境分離

環境分離 在開發項目時通常都會有兩個及以上的環境,由於不同環境的配置文件路徑是不相同的,小編這裏就有三個不同的環境,所以如何將環境分離這是關鍵這裏就將線上環境於本地環境分離 首先創建兩個配置文件分別爲 dev 環境和test 環境

原创 spark特點及安裝調試

spark特點 1、快 與Hadoop的MapReduce相比,Spark基於內存的運算要快100倍以上,基於硬盤的運算也要快10倍以上。Apache Spark使用最先進的DAG調度程序,查詢優化器和物理執行引擎,實現批處理和流

原创 Spark On Yarn的執行流程及應用場景

一、driver 運行在集羣中(cluster模式) 1、client 向 yarn 提交一個job 2、ResouceManager 爲該job在某個 NodeManager 上分配一個 ApplicationMaster,NM

原创 MapReduce與Spark的shuffle的比較

對比方向 MapReduce SparkHash collect 在內存中構造了一塊數據結構用於map輸出的緩衝區 沒有環形緩衝 sort map輸出的數據排序 map數據沒有排序 merge 對磁盤上的多個

原创 Java jdk window環境變量配置 win10 win7(以及一下版本適用)完整版

1、安裝完成,右擊“計算機”,點擊“屬性”,選擇“高級系統設置” 2、點擊“高級”選項卡,點擊“環境變量”; 3、設置參數 WIN 10 新建 JAVA_HOME C:\Program Files\Java\jdk1

原创 NoSQL數據庫優缺點

NoSQL優缺點 ** 優點:** 易擴展 NoSQL數據庫種類繁多,但是一個共同的特點都是去掉關係數據庫的關係型特性。數據之間無關係,這樣 就非常容易擴展。也無形之間,在架構的層面上帶來了可擴展的能力。 大數據量,高性能,快速讀

原创 hdfs操作

查看路徑 hadoop fs -ls <目錄> 上傳 hadoop fs -put <目錄> 下載 hadoop fs -get <目錄> 查看文件內容 hadoop fs -cat <完整路徑> 創建目錄 hadoop

原创 hdfs shell命令彙總

FS Shell 調用文件系統(FS)Shell命令應使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路徑作爲參數。URI格式是scheme://authority/path。對HDFS文件系統,

原创 java獲取當天開始:結束:當前時間戳

public class TimeStamp { /** * 一天開始時間戳 * @param timeStamp 輸入一個時間戳(Long) * @return 返回開始時間戳

原创 shell腳本的$的含義

shell腳本的$的含義 ​ $0: 腳本自身的名稱; $1: 傳入腳本的第一個參數; $2: 傳入腳本的第二個參數; $@: 傳入腳本的所有參數; $*:傳入腳本的所有參數; $$: 腳本執行的進程id; $#:傳

原创 Flink之wordcount

小編初學flink,看到各大論壇上有各種不同版本的,有一些還運行不了,小編就參照官網寫了一個 pom文件是這樣的 <dependencies> <!--flink——scala的依賴--> <dependency>

原创 HBase的RowKey設計原則

HBase的RowKey設計原則 Rowkey長度原則 rowkey是一個二進制碼流,可以爲任意字符串,最大長度爲64kb,實際應用中一般爲10-100bytes,它以byte[]形式保存,一般設定成定長。 建議越短越好,不要超過

原创 連接Redis

連接Redis java @Test public void jedisClientTest(){ //創建Jedis //host:redis數據庫的IP地址 //po