原创 mongodb的安裝和使用

二十六、mongodb的安裝和使用 命令行操作 啓動: Windows下和linux下有點區別:以下是linux下的操作 啓動服務的幾種方法: 啓動服務1: mongod --dbpath ./data/db --logpath ./lo

原创 oozie 4.3.0 編譯安裝

Oozie的編譯: 系統需求: Unix box (tested on Mac OS X and Linux) Java JDK 1.7+ Maven 3.0.1+ Hadoop 0.20.2+ Pig 0.7+   JDK comman

原创 python scrapy 的概念、安裝、使用和案例

三十、python scrapy 的概念、安裝、使用和案例 Scrapy介紹 Scrapy,Python開發的一個快速,高層次的屏幕抓取和web抓取框架,用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛,可以用於數據挖掘

原创 centos 6.5 cms 5.3.6 cdh 5.3.6 安裝

Hadoop版本: Apache:開源免費   CDH: Cloudera 只支持64位操作系統 HDP: Hortonworks   企業版本: apache   ->   cdh    |   hdp 面試題: apache與cdh

原创 cms cdh 5.3.x 升級成HA的配置

接着上一篇cms + cdh安裝博客: http://blog.csdn.net/u010839779/article/details/78858936  cms cdh   cms cdh 升級成HA的配置詳解: NameNode的HA

原创 hadoop的日誌詳解

本文部分資料轉自 Hadoop日誌存放路徑詳解 本文部分資料轉自 Hadoop歷史服務器詳解 本文部分資料轉自 董的博客:Hadoop 2.0中作業日誌收集原理以及配置方法一 Hadoop 日誌存放路徑詳解1 Hadoop系統服務輸出的日

原创 python 多進程爬蟲案例

二十九、python多進程爬蟲案例 綜合案例: 1、將前面的網頁爬蟲數據保存到MongoDB數據庫 2、使用多進程(使用生產者消費者模型)   代碼: import requests from lxml import etree impo

原创 oozie 概要

oozie相關概念介紹:   Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Oozie Workflow jobs are Direct

原创 oozie的簡單案例

1、fs的action: ================job.properties的內容如下: nameNode=hdfs://hadoop007:9000 jobTracker=hadoop007:

原创 Hadoop平臺關閉THP解決服務器高負載問題

Ambari和CM管理平臺都提示,建議關閉THP,這是爲什麼?如果不關閉THP,發現Hadoop的系統態CPU使用率很高,原因是RHEL6優化了內存申請的效率,而且在某些場景下對KVM的性能有明顯提升。而Hadoop是個高密集型內存運算系

原创 大數據面試一些問題

1、給你海量數據(大到內存遠不能滿足計算)的場景,讓你統計過濾排序等計算? http://blog.csdn.net/v_july_v/article/details/7382693 2、關於數據結構和數據算法的面試題? http://

原创 log4j.properties配置詳解與實例

轉自:http://blog.sina.com.cn/s/blog_5ed94d710101go3u.html        最近使用log4j寫log時候發現網上的寫的都是千篇一律,寫的好的嘛不全,寫的全一點的嘛沒有一點格式,看着累

原创 hadoop job 日誌的查看

一般有幾個地方可以查看:1、通過本地日誌目錄查看對應container日誌文件,默認在hadoop的安裝目錄下的/logs/userlogs/:直接用查看文件命令查看即可該地方的應用運行日誌不一定最全,因爲任務運行日誌由每一個NM產生在本

原创 hadoop hdfs存儲原理

來源url:http://www.36dsj.com/archives/41391 根據Maneesh Varshney的漫畫改編,以簡潔易懂的漫畫形式講解HDFS存儲機制與運行原理。 一、角色出演 如上圖所示,HD

原创 python的多線程和多進程網絡編程

二十八、python的多線程和多進程網絡編程 線程和進程關係: 進程是具有獨立功能的程序,進程是系統進行資源分配和調度的一個獨立單位 線程是進程的一個實體,是cpu調度的基本單位,它是比進程更小的能獨立運行的基本單位   國家是系統,企業