原创 spark-submit 參數

Usage: spark-submit [options] <app jar | python file | R file> [app arguments] Usage: spark-submit --kill [submission

原创 大數據技術人常被問的問題

前幾天轉正答辯,我ppt講完後,各部門大佬們來提問,有兩個問題答得不是很好,後來有空了想想,其實要答也不難。 1,技術選型上爲什麼用A技術不用其他技術?      個人觀點:技術選型上用某技術主要考慮 1),該技術的學習成本比較低;  2

原创 Mongodb常用查詢Shell

Mongodb常用查詢Shell 分組查詢:包括過濾,分組,排序等 DBQuery.shellBatchSize = 2000; db.test_data.aggregate([{$group : {_id : "$day", nu

原创 Spark MLlib之協同過濾

Spark MLlib之協同過濾實例:import java.util.List; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaDoub

原创 Hbase命令整理

hbase shell general命令hbase(main):010:0> version 1.2.0-cdh5.8.3, rUnknown, Wed Oct 12 20:33:08 PDT 2016 hbase(main):011

原创 HIVE全部函數詳解

base on hive 2.3.0函數名 含義及實例 abs abs(x) - returns the absolute value of x Example:   > SELECT abs(0) FROM src LIM

原创 [譯] MYSQL索引最佳實踐

   轉自http://www.uoota.com/blog/archives/27218?utm_source=geek你做了一個明智的選擇理解索引對開發和dba來說都是極其重要差勁的索引對產品問題負相當大的一部分責任索引不是多麼高深的

原创 scala基礎

翻譯自《big data analytics with spark》第二章Programming in Scalascala基礎雖然scala包含了面向對象編程和函數式編程的能力,但是他更側重函數式編程。寫spark程序,只會用到一點點s

原创 Hive ORC數據格式的MapReduce Shuffle

1,mr代碼如下package com.test.hadoop; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.

原创 機器學習入門-過擬合欠擬合

機器學習最重要的就是模型訓練訓練結果怎麼反饋,一般有三種叫法,欠擬合,擬合,過擬合。下面介紹下白話介紹下具體含義下面三個圖分別展示的是欠擬合,合適擬合,過擬合針對線性迴歸模型:針對邏輯迴歸模型:解釋:1,形象例子欠擬合:光看書不做題覺得自

原创 10分鐘入門go語言

Go是一種新的語言,一種併發的、帶垃圾回收的、快速編譯的語言,go支持的平臺:LinuxFreeBSDMac OS X(也稱爲 Darwin)Window我們選擇在Windows下載安裝go環境https://golang.org/dl/

原创 數據分析EXCEL入門必備

做數據分析,不光要會編程,基本的excel也得會兩手。這樣可以大大提高工作效率。例如下面:vlookup匹配:=VLOOKUP(A2,I:J,2,FALSE)=VLOOKUP(B2,L:M,2,FALSE)去重求個數=SUMPRODUCT

原创 Spark MLlib之KMeans

Spark MLlib之KMeans實例:import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spa

原创 100行代碼入門Scala

100行代碼入門scala//定義類,傳入變量默認實現get set方法 class People(var name:String, var age:Int) { //默認構造函數 println("get people

原创 Mapreduce實例-JOIN

public class ReduceSideJoin extends Configured implements Tool { public static class UserJoinMapper extends Mapper