原创 kettle配置命名參數

job 內容 作業屬性 設置變量      

原创 【大數據學習】之 用spark-sql和spark-shell操作hive裏面的表數據

SparkSQL與Hive的交互有兩種方式,一種是spark-sql,另一種是spark-shell。要注意,訪問hive前要把$HIVE_HOME/conf/hive-site.xml拷貝到$SPARK_HOME/conf,還有必須要啓

原创 連接mysql8時提示1251的錯誤

錯誤提示 1251-Client does not support authentication protocol requested by server; consider upgrading MySQL client 解決辦法 用管理

原创 sql各種連接:笛卡爾積,inner join,left join,right join,full join等的測試與區別

轉自 https://blog.csdn.net/u014682191/article/details/53009871 首先原數據庫的數據有: TEST_A表:和TEST_B表:   一、笛卡爾積: (1)不帶條件的笛卡爾積:   s

原创 【大數據學習】SparkSQL之 DataFrame與RDD的互操作

根據官網介紹:Spark SQL支持兩種不同的方法將現有的RDDs轉換爲數據集。第一種方法使用反射來推斷包含特定對象類型的RDD的模式。這種基於反射的方法可以生成更簡潔的代碼,並且當您在編寫Spark應用程序時已經知道模式時,這種方法可以

原创 【大數據學習】SparkSQL 之 DataFrame與RDD的區別

DataFrame與RDD的區別 看上圖,左側的RDD[Person]雖然以Person爲類型參數,但Spark框架本身不瞭解Person類的內部結構,而右側的DataFrame就不一樣了,它更像是一個二維表格,在這個二維表格裏面,有行

原创 【大數據學習】之 SparkSQL DataFrame、DataSet的概述

根據官網介紹DataFrame、DataSet: Dataset 是一個分佈式的數據集合。是spark1.6版本纔出來的。它提供RDD中的有點(強類型、lambda表達式、優化SparkSQL執行引擎)。DataFrame中能用的東西大部