原创 hadoop2.0之HDFS集羣管理:HeartbeatManager及其報告週期問題

心跳管理器主要用於管理DataNode的心跳,如果某DataNode在一段時間內(10分30秒)停止與NameNode發生心跳,則會將該DataNode直接標記爲死亡節點,而不是先退役,因爲可能該DN真的已經死亡了,而不用經歷退役階段。爲

原创 Facebook Haystack圖片存儲架構

OSDI 10中有一篇Facebook圖片存儲系統Haystack的論文,名稱爲”Finding a needle in Haystack: Facebook’s photo storage”。從這篇論文可以看出,數據量大的應用有時也並

原创 Facebook的圖片存儲

爲了減少對昂貴的存儲解決方案(諸如NetApp和Akamai,我所在的單位用了一套NetApp,性能和穩定性都不錯,價格當然也不菲),Facebook在2009年4月的時候推出了一套新的,名爲Haystack的圖片存儲系統,來一個對每個

原创 hadoop2.0之HDFS集羣管理:PendingReplicationMonitor

            如果一個數據塊需要冗餘,會將其加入pendingReplications集合,如果塊副本冗餘完畢到某DataNode節點,該DN節點會報告給NameNode,然後NameNode從pendingReplicatio

原创 HDFS塊分配策略

HDFS塊分配策略                                                                                                塊分配策略流程圖 注:

原创 ZooKeeper典型應用場景

ZooKeeper是一個高可用的分佈式數據管理與系統協調框架。基於對Paxos算法的實現,使該框架保證了分佈式環境中數據的強一致性,也正是基於這樣的特性,使得ZooKeeper解決很多分佈式問題。網上對ZK的應用場景也有不少介紹,本文將

原创 Eucalyptus和OpenStack對比分析報告

Eucalyptus和OpenStack對比分析報告 一.授權、許可證、商業模式比較 名稱 授權協議 許可證管理 商業模式 Eucalyptus 社區版採用GPLv3;企業版使用自定義的商業授權協議。 社區版不

原创 Facebook圖片存儲架構的學習

分享照片是Facebook上最流行的的功能之一。截至目前,用戶已經上傳超過15億張照片,這使得Facebook成爲最大的照片共享網站。對於每一個上傳的照片,Facebook都生成並存儲四個大小不同的圖像,從而轉化爲共60億張照片,總容量

原创 數據庫索引的實現原理

強烈建議參閱鏈接:http://www.linezing.com/blog/?p=798#nav-1 說白了,索引問題就是一個查找問題。。。 數據庫索引,是數據庫管理系統中一個排序的數據結構,以協助快速查詢、更新數據庫表中數

原创 JVM(Java虛擬機)優化大全和案例實戰

堆內存設置 原理 JVM堆內存分爲2塊:Permanent Space 和 Heap Space。 Permanent 即 持久代(Permanent Generation),主要存放的是Java類定義信息,與垃圾收集器要收集的J

原创 glusterfs操作指南

nfs協議: 1、在客戶端安裝nfs相關軟件包:yum install nfs*; 2、客戶端啓動服務:service rpcbind start;

原创 HDFS 單點改造方案對比

HDFS 單點改造方案對比 1背景 目前,HDFS集羣的架構包括了單個Name Node和若干個DataNode。Name Node負責兩方面的事情:一方面是存儲和管理整個命名空間,包括創建、修改、刪除和列舉文件目錄等文件系統級別的操作

原创 hadoop之HDFS:數據塊恢復與文件上傳測試

1.數據塊恢復 當某臺機器上的一個DataNode進程down掉,HDFS爲了保證文件的副本滿足設定的副本數,會進行數據塊的恢復操作。塊恢復操作主要受兩個參數影響: a)dfs.namenode.replication.work.mul

原创 GlusterFS:分佈式(Distribute )源碼分析

1.概述 在glusterfs中,文件的定位採用彈性hash算法進行定位。集羣中的任何服務器和 客戶端只需根據路徑和文件名就可以對數據進行定位和讀寫訪問。換句話說,GlusterFS不需要將元數據與數據進行分離,因爲文件定位可獨立並行化進

原创 京東自主研發Hadoop高可用解決方案

原文地址:http://net.chinabyte.com/110/12476610.shtml  記者近日獲悉,京東商城在Hadoop高可用方面的研究,取得了重大成果。在Hadoop集羣運維方面,一直以來都有這樣一個難題困擾着業界: