原创 從MongoDB導入數據到HDFS方法3

1.背景 公司希望使用MongoDB作爲後端業務數據庫,使用Hadoop平臺作爲數據平臺。最開始是先把數據從MongoDB導出來,然後傳到HDFS,然後用Hive/MR處理。我感覺這也太麻煩了,現在不可能沒有人想到這個問題,於

原创 從MongoDB導入數據到HDFS方法1

從MongoDB導入數據到HDFS本節將使用MongoInputFormat類加載MongoDB中的數據導入HDFS中。準備工作使用Mongo Hadoop適配器最簡單的方法是從GitHub上克隆Mongo-Hadoop工程,並且將該工程

原创 在Yarn上運行spark-shell和spark-sql命令行

關鍵字:spark-shell on yarn、spark-sql on yarn 前面的文章《Spark On Yarn:提交Spark應用程序到Yarn》介紹了將Spark應用程序提交到Yarn上運行。有時候在做開發測試的時

原创 線程池原理

讀完本文你將瞭解: 什麼是線程池 線程池的處理流程 保存待執行任務的阻塞隊列 創建自己的線程池 JDK 提供的線程池及使用場景 1.newFixedThreadPool 2.newSingleThre

原创 CSDN-markdown編輯器

歡迎使用Markdown編輯器寫博客 本Markdown編輯器使用StackEdit修改而來,用它寫博客,將會帶來全新的體驗哦: Markdown和擴展Markdown簡潔的語法 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公

原创 HA 模式下的 Hadoop+ZooKeeper+HBase 啓動順序

一. 背景 1.1 網絡上的大部分教程的順序 1.2 主機規劃 1.3 正確的啓動順序 二. 首次啓動/格式化集羣 三. 開啓與關閉集羣順序 3.1 Hadoop 生態系統集羣的啓動順序概覽 3.2 非首次啓動集羣 3

原创 eclipse mars 安裝python 和 scala

http://download.csdn.net/detail/icaoweiwei/9410708 http://download.csdn.net/detail/a646468568/9377692

原创 hive常用函數

窗口函數與分析函數 應用場景: (1)用於分區排序 (2)動態Group By (3)Top N (4)累計計算 (5)層次查詢 窗口函數 FIRST_VALUE:取分組內排序後,截止到當前行,第一個值 LAST_

原创 從MongoDB導入數據到HDFS方法2

sqoop作爲很常用的數據同步工具,用於RDBMS和HDFS的數據遷移,但是不支持NoSql,比如說MongoDB,那如果我們需要同步mongoDB的數據到hive該怎麼處理呢?下面提供下我的思路: 1.我先去查詢了一下mo

原创 Java學習篇之—Eclipse中運行python程序

Java學習篇之—Eclipse中運行python程序 本文主要介紹在Windows環境下,搭建能在Eclipse中運行python程序的環境: 一、Eclipse 下載與安裝: Eclipse是寫JAVA的IDE,下載地址爲

原创 從MongoDB導入數據到HDFS方法3補充

公司以前的舊數據存放在服務器上面的MongoDB上,現在要使用這些數據進行大數據分析處理,那麼就出現了MongoDB的數據導入到HDFS上的Hive數據表中的需求.現在寫下該博客Mark一下! 實現步驟 1.下載jar文件: 版本

原创 Kafka重複消費和丟失數據問題

Kafka重複消費原因 底層根本原因:已經消費了數據,但是offset沒提交。 原因1:強行kill線程,導致消費後的數據,offset沒有提交。 原因2:設置offset爲自動提交,關閉kafka時,如果在close

原创 MongoDB導入導出以及數據庫備份

1、導出工具:mongoexport    1、概念:        mongoDB中的mongoexport工具可以把一個collection導出成JSON格式或CSV格式的文件。可以通過參數指定導出的數據項,也可以根據指定的條件導出數

原创 Logstash簡單介紹

Logstash入門介紹   大家好,我是一名程序員,我叫迷途的攻城獅,英文名字:Lost Engineer。我是一個有理想、有目標的完美主義者,永遠都不安於現狀。俗話說:不想當裁縫的廚子不是一個好司機,所以我的理想是將來有一天能成

原创 ELK 之 Logstash

ELK 之 Logstash 原創 2017年08月09日 17:27:49 <ul class="article_tags clea