原创 Java入門知識總結(1)

1.1 計算機語言發展歷史 計算機語言發展過程 起初計算機只認識1和0;二進制文件。 第一代:打孔機:機器連着一個紙帶:打孔–1 不打孔–0 機器識別這個孔,有孔識別爲高電平(1),無孔識別爲低電平(0) 對程序員的要求非常高:

原创 SparkSql寫hdfs報權限錯誤BUG解決

今天在往hive中寫數據時,使用的save方法直接把數據寫入到hdfs目錄,結果報錯。 場景:在本地使用IDEA開發進行遠程提交,把結果數據寫入到HIVE。 寫入的方法: df.write.mode(SaveMode.Append

原创 Hive Sql常用的時間處理類,都在這裏了

hive 常用日期格式轉換   把固定日期轉換成時間戳 select unix_timestamp('2020-05-29','yyyy-MM-dd') --返回結果 1590681600 select unix_timestamp

原创 Java入門知識總結(2)

Java程序的分類:主要分爲兩種 1.java應用程序,這個程序中包含主類。 2.java小程序。 初學者如何開發第一個java程序呢? 開發java程序首先需要安裝jdk,Java入門知識總結(1)已經有詳細步驟。 需要配置環

原创 大數據Spark面試,distinct去重原理,是如何實現的

最近,有位朋友問我,distinct去重原理是怎麼實現的? “在面試時,面試官問他了解distinct算子嗎?” “瞭解啊,Spark的rdd,一種transFormation去重的算子,主要用來去重的”。 “喲,看來你經常使用disti

原创 數據倉庫,Hive中使用 不等於 符號進行條件過濾時的坑

最近在建設數據倉庫,處理數據的過程中,經常反覆使用hive的HQL語句,儘管HQL和SQL語言有很多相同之處,但也並不是說HQL就能通用SQL的語法。在使用過程中要尤爲注意。事情經過是這樣的,我在把業務系統數據同步到數倉(數據存儲在Hi

原创 大數據,Spark之RDD,RDD詳細講解(二)

一、RDD的特性 Spark之所以成爲目前比較主流的大數據處理技術,其中RDD的特性和機制佔到很大比重,沒有RDD的這些機制,Spark性能會大打折扣。總體而言,Spark採用RDD後能夠實現高效計算的主要原因有以下幾點: 1、高效的容錯