原创 初識Ubuntu——使用SecureCRT連接Ubuntu&命令行顯示當前路徑

[TOC] #初識Ubuntu——使用SecureCRT連接Ubuntu&命令行顯示當前路徑 一直以來,項目中以及學習中都用CentOS,當然也用過Ubuntu。只是不是特別鍾愛。最近在閱讀專業書籍時,好多書籍都是採用Ubuntu的,所以

原创 Scala基本概念(三)——函數

Scala中定義函數需要給出函數的名稱、參數和函數體。只要函數不是遞歸的,就不需要指定返回類型。 1、默認參數和 帶名參數 scala> def decorate(str: String, left: String ="[",right:

原创 Scala基本概念(一)

1、val定義的值實際上是一個常量。 scala>val answer = 8 * 5 + 2 answer: Int = 42 scala>answer = 0 <console>:6:error:reassignment to val

原创 Scala基本概念(二)——循環

1、Scala擁有與Java與C++相同的while和都循環 while(n > 0){ r = r * n n -= 1 }  2、Scala的for循環 for(i <- 表達式) 說明:在for循環的變量之前並沒有val或var的指

原创 Hadoop 3.0學習筆記(持續更新....)

HDFS聯盟: 爲了水平擴展服務,聯盟使用多個獨立的NamNode。聯盟的NameNode是互相獨立的,不互相協調。每個DataNode與集羣中的所有NameNode註冊,DataNode節點週期性發送的心跳和塊報告和處理命令的節點。 M

原创 HDFS的基本概念(一)

數據存入HDFS中時需要對其進行分片(split)、壓縮等操作。HDFS使用Block(存儲塊)對文件的存儲進行操作,Block是HDFS的基本存儲單元,默認大小是64MB(Block較大的優點:可以減少用戶與節點之間的通信需求;Nam

原创 數據結構--原理論述

一、數據結構簡介 數據:是描述客觀事物的符號,是計算機中可以操作的對象,是能被計算機識別,並輸入給計算機處理的符號集合。 數據元素:是組成數據的、有一定意義的基本單位,在計算機中通常作爲整體處理,也被稱爲記錄。 數據項:一個數據元素可以

原创 樸素貝葉斯從公理到算法推導再到算法實現

github鏈接,使用jupyter實現 覺得幫到您了就在GitHub給個star吧

原创 Hadoop源碼之----hadoop-common-project(一、工程目錄結構)

下圖爲hadoop-common-project結構 在hadoop-common-project中主要研究hadoop-common包裏邊的代碼

原创 概率圖模型之:貝葉斯網絡

1、貝葉斯定理 P(A∣B)=P(A)P(B∣A)P(B) P(A|B)是已知B發生後A的條件概率,也由於得自B的取值而被稱作A的後驗概率。 P(B|A)是已知A發生後B的條件概率,也由於得自A的取值而被稱作B的後驗概率。

原创 線性迴歸從公理到算法推導再到代碼實現

github查看jupyter格式 覺得幫到您了就在GitHub給個star吧

原创 常用Linux命令彙總(持續更新... ..)

1、top命令 top命令是Linux下常用的性能分析工具,能夠實時顯示系統中各個進程的資源佔用狀況,類似於Windows的任務管理器。 top - 01:06:48 up 1:22, 1 user, load average: 0.06

原创 貝葉斯定理在拼寫檢查中的應用

貝葉斯定理 條件概率 通常條件概率表示爲P(A|B) ,表示在給定B條件下A事件發生的概率。 聯合概率 兩個事件同時發生的概率,表示爲P(A,B) ,事件A,B互相獨立時有P(A,B)=P(A)P(B) 通常意義下,聯合概率

原创 pig數據導入性能優化(map端)

導言:衆所周知,MapReduce的數據輸入是以HDFS的數據塊大小爲基本單位的,加入某集羣HDFS的block的大小爲128MB。那麼,當我們要處理的數據大小是在120MB左右,map端就不會出現由於數據分佈不均勻而導致的數據傾斜。

原创 pig數據類型

Pig的數據類型可以分爲兩大類:基本類型和複雜類型。 基本類型: int、long、float(浮點數,一般會丟失精度,要求嚴格可使用int或者long保證不丟失精度)、double(浮點數,一般會丟失精度,要求嚴格可使用int或