原创 Ambari架構

Ambari是hadoop分佈式集羣配置管理工具,是由hortonworks主導的開源項目。它已經成爲apache基金會的孵化器項目,已經成爲hadoop運維繫統中的得力助手,引起了業界和學術界的關注。現在我們將深入學習Ambari原理及其

原创 Kafka 之 入門

一、入門1.    簡介Kafka is a distributed, partitioned, replicated commit log service。它提供了類似於JMS的特性,但是在設計實現上完全不同,此外它並不是JMS規範的實現

原创 海量數據處理面試題

前言   一般而言,標題含有“秒殺”,“99%”,“史上最全/最強”等詞彙的往往都脫不了譁衆取寵之嫌,但進一步來講,如果讀者讀罷此文,卻無任何收穫,那麼,我也甘願揹負這樣的罪名,:-),同時,此文可以看做是對這篇文章:十道海量數據處理面試題

原创 開源大數據查詢分析引擎現狀

    【按:此文是與我的《基於大數據分析的安全管理平臺技術研究及應用》同期發表在內刊上的我的同事們的作品,轉載於此。這些基礎性的研究和測試對比分析,對於我們的BDSA技術路線選定大有幫助。】引言 大數據查詢分析是雲計算中核心問題之一,自

原创 Hadoop-2.0命令手冊

1.FS Shell 1.1簡介 調用文件系統(FS)Shell命令應使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路徑作爲參數。URI格式是scheme://authority/path。對

原创 十七道海量數據處理面試題與Bit-map詳解

前言    本博客內曾經整理過有關海量數據處理的10道面試題(十道海量數據處理面試題與十個方法大總結),此次除了重複了之前的10道面試題之後,重新多整理了7道。僅作各位參考,不作它用。    同時,程序員編程藝術系列將重新開始創作,第十一章

原创 數據導入HBase最常用的三種方式及實踐分析

    要使用Hadoop,數據合併至關重要,HBase應用甚廣。一般而言,需要針對不同情景模式將現有的各種類型的數據庫或數據文件中的數據轉入至HBase中。    常見方式爲:1.使用HBase的API中的Put方法;          

原创 我的友情鏈接

51CTO博客開發實踐檢驗真理

原创 海量數據處理之Bloom Filter詳解

前言    本博客內曾已經整理過十道海量數據處理面試題與十個方法大總結。接下來,本博客內會重點分析那些海量數據處理的方法,並重寫十道海量數據處理的面試題。如果有任何問題,歡迎不吝指正。謝謝。一、什麼是Bloom Filter    Bloo

原创 海量數據處理:十道面試題與十個海量數據處理方法總結

第一部分、十道海量數據處理面試題1、海量日誌數據,提取出某日訪問百度次數最多的那個IP。      首先是這一天,並且是訪問百度的日誌中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以採用映射

原创 如何在windows下的Python開發工具IDLE裏安裝其他模塊?

以安裝Httplib2模塊爲例1 下載模塊   到 https://github.com/jcgregorio/httplib2下載一款適合你的壓縮包httplib2-master2 解壓下載的壓縮包httplib2-master到某目錄下

原创 如何開始使用Hadoop和自己喜歡的數據庫

Hadoop 家族有多個組件,本文將深入探討演示各功能的具體代碼示例。如果您在自己的 PC 上嘗試這些示例,是不會造成系統混亂的。關於大數據,有很多令人興奮的事情,但使用它也帶來了很多困惑。本文將提供一個可行的大數據定義,然後完成一系列示例

原创 開源大數據查詢分析引擎現狀

    【按:此文是與我的《基於大數據分析的安全管理平臺技術研究及應用》同期發表在內刊上的我的同事們的作品,轉載於此。這些基礎性的研究和測試對比分析,對於我們的BDSA技術路線選定大有幫助。】引言 大數據查詢分析是雲計算中核心問題之一,自

原创 hadoop+hive使用中遇到的問題彙總

問題排查方式一般的錯誤,查看錯誤輸出,按照關鍵字google異常錯誤(如namenode、datanode莫名其妙掛了):查看hadoop($HADOOP_HOME/logs)或hive日誌hadoop錯誤1.datanode無法正常啓動添

原创 Hadoop-2.0命令手冊

1.FS Shell 1.1簡介 調用文件系統(FS)Shell命令應使用 bin/hadoop fs <args>的形式。 所有的的FS shell命令使用URI路徑作爲參數。URI格式是scheme://authority/path。對