原创 【十八掌●基本功篇】第一掌:Java之IO

這一篇博文是【大數據技術●降龍十八掌】系列文章的其中一篇,點擊查看目錄:大數據技術●降龍十八掌 系列文章: 【十八掌●基本功篇】第一掌:Java之IO 【十八掌●基本功篇】第一掌:Java之多線程–1-一些概念 【十八

原创 【十八掌●武功篇】第十六掌:Spark之RDD簡介

這一篇博文是【大數據技術●降龍十八掌】系列文章的其中一篇,點擊查看目錄:大數據技術●降龍十八掌 系列文章: 【十八掌●武功篇】第十六掌:Spark之Scala安裝和HelloWorld 【十八掌●武功篇】第十六掌:Spark

原创 JAVA程序運行時的內存分配

java程序運行時有哪些內存數據區呢?很多人都將內存分爲堆和棧,大家最關心的也是這兩塊內存數據區,但是這種劃分比較粗糙,實際上在程序運行時,還有其他數據區。 根據《JAVA虛擬機規範Java SE 8版》的描述,分爲以下幾個數據區

原创 Flink DataStream常用算子

Flink中的算子是將一個或多個DataStream轉換爲新的DataStream,可以將多個轉換組合成複雜的數據流拓撲。 在Flink中,有多種不同的DataStream類型,他們之間是使用各種算子進行的。如下圖所示: 以下列舉下

原创 Java8 Stream API

集合在Java中使用的非常多,在對數據處理中,List幾乎是最常用的API,爲了更方便地使用函數式編程對List進行操作,Java8新增了stream。 Stream表示數據流,它不是數據結構,也並不保存數據,在它上面的操作也不會改變

原创 Java8 Lambda 語法結構、方法引用

什麼是Lambda表達式 Lambda表達式可以看做是一個匿名方法。將一個Lambda表達式做爲參數傳遞給方法,行爲參數化,就實現了函數式編程。 在沒有Lambda之前,要實現函數式編程就需要使用匿名類,如果用Lambda會使得代碼更

原创 Java8 Lambda java.util.function下的接口

java.util.function包下的接口 java.util.function包中有很多函數式接口,他們分爲四種類型: 邏輯判斷接口 有輸入輸出的接口 無輸入有輸出的接口 有輸入無輸出的接口 1. 邏輯判斷接口 邏輯判斷接口

原创 Hive2.1函數列表

可以通過以下命令查看hive中函數信息: --顯示所有的可用函數,包括運算符、內置函數、自定義函數 show functions; --顯示指定函數的描述信息,只顯示描述信息value的值 desc function trim; --

原创 大數據技術●降龍十八掌【目錄】

降龍十八掌這門驚世武功在幾百年前銷聲匿跡,時光如箭,歲月如梭,到了21世紀10年代又突然出現在某寶,這勢必將引起武林中的又一輪血雨腥風。 《降龍十八掌》這次重出江湖將不同凡響,因爲它這次用大數據技術進行了加持,並且是以“英格蘭斯基”文字寫

原创 python通過thrift訪問HBase報錯Invalid method name

出現的問題 在準備用python的happybase包通過thrift連接HBase,運行腳本的時候報錯,報錯大體如下: thrift.Thrift.TApplicationException: Invalid method name:'

原创 【十八掌●武功篇】第十掌:HiveSQL中分區篩選條件怎麼寫效率才最高

在寫Hive SQL時,當遇到兩個分區表a 和 b 相Join的時候,分區篩選條件怎麼寫效率才高呢? 有下面三種書寫方式,下面就根據三個語句的執行計劃分析一下,看種寫法的執行效率會更高。 1、將分區篩選條件放入where中 select

原创 AI學習路線圖【目錄】

一、Python 1.1、【AI_Python基本語法】 【AI_Python基本語法】 1.2、【AI_常用Python庫】 【AI_常用Python庫】Numpy庫 【AI_常用Python庫】Pandas庫 【AI_常用Pyt

原创 數據倉庫架構設計的一點概念

1、數據倉庫所處環節 在一個成體系、結構化的數據應用場景下,數據和處理有四個層次: 操作層、數據倉庫層、部門/數據集市層、個體層。 操作層 操作層是指爲具體業務提供實時響應的各個業務系統,比如常見的訂單系統、ERP、用戶中心等等具體業務

原创 hive.map.aggr、hive.groupby.skewindata執行過程

如果設置hive.map.aggr爲true,hive.groupby.skewindata爲true,執行流程如下: 會生成兩個job來執行group by,第一個job中,各個map是平均讀取分片的,在map階段對這個分片中的數據

原创 【十八掌●武功篇】第十一掌:HUE簡介、基本安裝配置

一、 HUE簡介 HUE是Hadoop User Experience的簡稱,是一個Apache Hadoop UI系統,由Cloudera Desktop演化而來,是基於Python Web框架Django實現的,Cloudera公司