原创 Linux awk 使用用例

環境:CentOS 鑑於語句描述蒼白無力,用例子直接說明。 文件內容: zilzhang 19881110 jiangxi 18 film zhagnsan 21321    sichuan 100 card 1. 打印整行 $ awk

原创 Scala-LIST/Tuple/Map

環境: CentOS 6.3   LIST(列表) 代碼: $ cat list.scala var mylist = List(1,2,3) println(mylist) var mylist1 = 0::mylist println

原创 Oracle 術語

1. PCTFREE & PCTUSED PCTFREE建立表時候,注意PCTFREE參數的作用 PCTFREE:爲一個塊保留的空間百分比,表示數據塊在什麼情況下可以被insert,默認是10,表示當數據塊的可用空間低於10%後,就不可以

原创 Scala 數組-Array

環境: CentOS 6.3   1. 定義且同時初始化數組 $ cat array.scala val numNames2 = Array.apply("France","US","china") println(numNames2(0

原创 Scala 類認識

環境: CentOS 6.3, eclipse 定義類: 我們先看如何定義一個實現‘字節校驗和’類定義代碼: package scala impor

原创 Git 使用筆記

1. 生成git 格式的控制文件 $ mkdir gitproject $ cd gitproject [hadoop@localhost gitproject]$ git init Initialized empty Git repos

原创 Hive 優化總結

1. left semi join let semi join 只是hive的一種join。 Left Semi-Join是可以高效實現IN/EXISTS子查詢的語義。Hive本身是不支持exist和in語句的,以下SQL語義: (1)S

原创 Spark 讀取HDFS文件

環境:CentOS 6.3 SPARK 1.0.0   1. 讀取text文件 scala> val distFile = sc.textFile("hdfs://localhost:54310/data/in/log") res1:

原创 深入理解java嵌套類和內部類

一、什麼是嵌套類及內部類   可以在一個類的內部定義另一個類,這種類稱爲嵌套類(nested classes),它有兩種類型:靜態嵌套類和非靜態嵌套類。靜態嵌套類使用很少,最重要的是非靜態嵌套類,也即是被稱作爲內部類(inne

原创 數據倉庫的構件

數據倉庫的構件: 主體呈現:       背後支撐:        1. 產品化的元數據管理中心        2. 產品化的數據質量管控平臺        3. 優秀的調度、作業監控工具       這些背後的支撐,是主體呈現的基石。

原创 數據倉庫的設計目的

數據倉庫設計的目的或者衡量成功的標準: 1. 數據倉庫必須使組織機構的信息變得容易存取。 2. 數據倉庫必須一致地展示組織機構的信息。 3. 數據倉庫必須具有廣泛的適應性和便於修改。 4. 數據倉庫必須在推薦有效決策方面承擔最基本的角色

原创 高聚合 低耦合

這是軟件工程中的概念。 首先要知道一個軟件是由多個子程序組裝而成, 而一個程序由多個模塊(方法)構成! 內聚就是指程序內的各個模塊之間的關係緊密程度。偶合就是各個外部程序(子程序)之間的關係緊密程度.。 所以很易明白,爲什麼要高內聚?模

原创 java 堆棧

java 棧: 指令(程序),類方法的本地變量、實例的引用地址 java 堆: 類實例成員屬性 堆內存中存放的是new出的對象,new出的對象只包含成員變量。 棧內存中:存放的是局部成員變量。對於基本的數據類型存放的是基本變量的值,而對

原创 互聯網術語

1. 信息煙囪 有很多企業遵循傳統的方式建設的數據中心,30年來基本上沒有太多的變化,這樣的數據中心是基於單個項目建設的,其特點爲“煙囪式”,也就是垂直的體系結構,每一個IT系統都有自己的存儲和IT設備,以及獨立的管理工具和數據庫,不同的

原创 Hadoop Map/Reduce 原理

http://blog.sina.com.cn/s/blog_6ff05a2c01016j7n.html Hadoop是Apache 下的一個項目,由HDFS、MapReduce、HBase、Hive 和ZooKeeper等成員組成。其