原创 從MongoDB導入數據到HDFS方法3
1.背景 公司希望使用MongoDB作爲後端業務數據庫,使用Hadoop平臺作爲數據平臺。最開始是先把數據從MongoDB導出來,然後傳到HDFS,然後用Hive/MR處理。我感覺這也太麻煩了,現在不可能沒有人想到這個問題,於
原创 從MongoDB導入數據到HDFS方法1
從MongoDB導入數據到HDFS本節將使用MongoInputFormat類加載MongoDB中的數據導入HDFS中。準備工作使用Mongo Hadoop適配器最簡單的方法是從GitHub上克隆Mongo-Hadoop工程,並且將該工程
原创 在Yarn上運行spark-shell和spark-sql命令行
關鍵字:spark-shell on yarn、spark-sql on yarn 前面的文章《Spark On Yarn:提交Spark應用程序到Yarn》介紹了將Spark應用程序提交到Yarn上運行。有時候在做開發測試的時
原创 線程池原理
讀完本文你將瞭解: 什麼是線程池 線程池的處理流程 保存待執行任務的阻塞隊列 創建自己的線程池 JDK 提供的線程池及使用場景 1.newFixedThreadPool 2.newSingleThre
原创 CSDN-markdown編輯器
歡迎使用Markdown編輯器寫博客 本Markdown編輯器使用StackEdit修改而來,用它寫博客,將會帶來全新的體驗哦: Markdown和擴展Markdown簡潔的語法 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公
原创 HA 模式下的 Hadoop+ZooKeeper+HBase 啓動順序
一. 背景 1.1 網絡上的大部分教程的順序 1.2 主機規劃 1.3 正確的啓動順序 二. 首次啓動/格式化集羣 三. 開啓與關閉集羣順序 3.1 Hadoop 生態系統集羣的啓動順序概覽 3.2 非首次啓動集羣 3
原创 eclipse mars 安裝python 和 scala
http://download.csdn.net/detail/icaoweiwei/9410708 http://download.csdn.net/detail/a646468568/9377692
原创 hive常用函數
窗口函數與分析函數 應用場景: (1)用於分區排序 (2)動態Group By (3)Top N (4)累計計算 (5)層次查詢 窗口函數 FIRST_VALUE:取分組內排序後,截止到當前行,第一個值 LAST_
原创 從MongoDB導入數據到HDFS方法2
sqoop作爲很常用的數據同步工具,用於RDBMS和HDFS的數據遷移,但是不支持NoSql,比如說MongoDB,那如果我們需要同步mongoDB的數據到hive該怎麼處理呢?下面提供下我的思路: 1.我先去查詢了一下mo
原创 Java學習篇之—Eclipse中運行python程序
Java學習篇之—Eclipse中運行python程序 本文主要介紹在Windows環境下,搭建能在Eclipse中運行python程序的環境: 一、Eclipse 下載與安裝: Eclipse是寫JAVA的IDE,下載地址爲
原创 從MongoDB導入數據到HDFS方法3補充
公司以前的舊數據存放在服務器上面的MongoDB上,現在要使用這些數據進行大數據分析處理,那麼就出現了MongoDB的數據導入到HDFS上的Hive數據表中的需求.現在寫下該博客Mark一下! 實現步驟 1.下載jar文件: 版本
原创 Kafka重複消費和丟失數據問題
Kafka重複消費原因 底層根本原因:已經消費了數據,但是offset沒提交。 原因1:強行kill線程,導致消費後的數據,offset沒有提交。 原因2:設置offset爲自動提交,關閉kafka時,如果在close
原创 MongoDB導入導出以及數據庫備份
1、導出工具:mongoexport 1、概念: mongoDB中的mongoexport工具可以把一個collection導出成JSON格式或CSV格式的文件。可以通過參數指定導出的數據項,也可以根據指定的條件導出數
原创 Logstash簡單介紹
Logstash入門介紹 大家好,我是一名程序員,我叫迷途的攻城獅,英文名字:Lost Engineer。我是一個有理想、有目標的完美主義者,永遠都不安於現狀。俗話說:不想當裁縫的廚子不是一個好司機,所以我的理想是將來有一天能成
原创 ELK 之 Logstash
ELK 之 Logstash 原創 2017年08月09日 17:27:49 <ul class="article_tags clea