原创 大數據面試系列之——Spark

Apache Spark 是專爲大規模數據處理而設計的快速通用的計算引擎。 1.Spark有幾種部署模式,各個模式的特點 1.本地模式 Spark不一定非要跑在hadoop集羣,可以在本地,起多個線程的方式來指定。方便調試,本

原创 Centos7下搭建大數據處理集羣(Hadoop+Spark+Hbase+Hive+Zookeeper+Kafka+Flume)詳細步驟

一.目錄 左側按鈕顯示 二.集羣規劃 準備3臺虛擬機,設置IP地址和hostname,一般的三臺機器的集羣爲了明確表示主從關係,命名master,slave1,slave2,我這邊直接命名爲hp1,hp2,hp3,hp1當主節點使

原创 大數據面試系列之——Hadoop

Hadoop的三個核心: HDFS(分佈式存儲系統) MapReduce(分佈式計算系統) YARN (分佈式資源調度) 1.Hadoop集羣的幾種搭建模式 1.單機模式:直接解壓安裝,不存在分佈式存儲系統 2.僞分佈式:Nam

原创 Hive表存儲格式的介紹和比較

一、四種存儲格式介紹 1、TestFile  TextFile文件不支持塊壓縮,默認格式,數據不做壓縮,磁盤開銷大,數據解析開銷大。這邊不做深入介紹。 2、RCFile  Record Columnar的縮寫。是Hadoop

原创 大數據面試系列之——Hive

Hive是一個數據倉庫基礎工具在Hadoop中用來處理結構化數據 1.Hive與傳統數據庫的區別 1、數據存儲位置:Hive是建立在Hadoop之上的,所有的Hive的數據都是存儲在HDFS中的。而數據庫則可以將數據保存在塊設備

原创 大數據面試系列之——Hbase

Hbase是一個分佈式的列式存儲的數據庫 1.說說Hbase的特點 1.分佈式架構,Hbase通過集羣存儲數據,數據最終會落到HDFS上 2.是一種NoSQL的非關係型數據庫,不符合關係型數據庫的範式 3.面向列存儲,底層基於k

原创 java中next()和nextline()的區別

next()和nextline()都是Scanner類中的方法,都可以用來拾取控制檯輸入。 兩者之間的不同是: next()不能識別空格/tab鍵(當然空格和tab鍵後的內容也不會識別),並且以enter鍵截止; nextline

原创 Linux中su,sudo,sudo -i,sudo su的用法和區別

sudo : 暫時切換到超級用戶模式以執行超級用戶權限,提示輸入密碼時該密碼爲當前用戶的密碼,而不是超級賬戶的密碼。不過有時間限制,Ubuntu默認爲一次時長15分鐘。 su : 切換到某某用戶模式,提示輸入密碼時該密碼爲切換後賬戶的密碼

原创 1024

1024紀念

原创 Windows安裝ElasticSearch和ElasticSearch-head插件

Elasticsearch是一個基於Apache Lucene™的開源搜索引擎。無論在開源還是專有領域,Lucene可以被認爲是迄今爲止最先進、性能最好的、功能最全的搜索引擎庫。 1.安裝ElasticSearch 前提條件電

原创 Hive中日期格式的轉換

yyyy-mm-dd與yyyymmdd日期格式之間的相互轉換: 1.yyyy-mm-dd轉換爲yyyymmdd 1. regexp_replace('yyyy-mm-dd' ,'-','') 2. from_unixtime(un

原创 Centos7設置ntp服務開機自啓動不生效的解決辦法

一般我們設置開機自啓動使用systemctl enable ntpd 這個命令就OK了,但是在設置ntp服務時,執行這個命令後重啓後,ntp並沒有啓動,很奇怪。 後面查找資料發現,是存在服務和ntp衝突導致開機啓動未生效,這個服務是ch

原创 Centos7搭建CDH5.15集羣(完全版)

CDH是Cloudera的100%開源平臺發行版,包括Apache Hadoop,專爲滿足企業需求而構建。CDH提供開箱即用的企業使用所需的一切。通過將Hadoop與十幾個其他關鍵的開源項目集成,Cloudera創建了一個功能先

原创 SELinux的狀態查看及改變

SELinux(Security-Enhanced Linux) 是美國國家安全局(NSA)對於強制訪問控制的實現,是 Linux歷史上最傑出的新安全子系統。在這種訪問控制體系的限制下,進程只能訪問那些在他的任務中所需要文件。S

原创 國內常用的NTP服務器

#server 0.centos.pool.ntp.org iburst國內NTP服務器地址 ntp1.aliyun.com ntp2.aliyun.com ntp3.aliyun.com ntp4.aliyun.com ntp5