原创 轉:分佈式日誌分析系統:Dapper

轉載出處:http://bigbully.github.io/Dapper-translation/  同時看到了 淘寶的日誌分析系統:鷹眼 ,CSDN上收PPT 概述 當代的互聯網的服務,通常都是用複雜的、大規模分佈式集羣來實現的。互聯

原创 Facebook : Corona的Reduce延時啓動

在MR的計算模型中,過早啓動Reduce,reduce會空等map的完成,這是資源浪費,這個資源完全可以用來執行真正需要執行的任務。 Corona的實現中,同樣考慮了Reduce的延時啓動。主要是下面三個單數來進行判斷: # 當前job的

原创 hadoop datanode 啓動失敗,沒有任何報錯的解決

datanode的log日誌僅有如下信息,沒有報錯,但是進程沒有起來: 2013-11-25 09:57:01,466 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: START

原创 Facebook : Corona中的推測執行

大任務通常有成百上千個task,在任務即將執行完成時,總有幾個task會拖後腿,corona的實現中,也考慮了備份執行,對執行慢的任務,啓動一個他的clone,誰先執行完,kill掉另外一個。 首先計算門限,後續判斷是否達到門限   

原创 修改文件句柄:ulimit 系統設置腳本(避免設置不徹底而無效)

(一下腳本非本人所寫,從同事那裏得來,代他開源了^_^,請勿用作其他商業用途。僅供技術人員臨時查閱之用) #!/bin/bash TEXT="ulimit -HSn" FILE="/etc/rc.d/ssh2" # the defaul

原创 Java多線程執行,主程序等待其他線程執行完成

import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbas

原创 ssh 建立信任關係免密碼登錄(同構及異構系統)

1. 如果是相同的操作系統,則使用相同的版本的ssh (一代或二代);     使用 ssh-keygen -t rsa 生成的文件,生成 authorization、identification 文件,進行所有機器同步到響應目錄下即可(

原创 android新手學習筆記(1)安裝及基本程序框架

參考google的指引:http://developer.android.com/training/index.html 環境安裝配置(略,以上指引中很明白) 應用的整體框架:(主要是MVC模式) 1. activity交換過程中

原创 呼喚專業精神

本人窮屌絲,對物質的追求一直一個理念:將就就行 爲了彌補曾經的無知,求知慾望突然的強烈,想買一個kindle,後來發現不如fire,後來發現還是ipad mini 吧(二代已出,一代將就吧) 曾經用過雜牌androidPad ,三星pad

原创 好用的集羣管理工具dsh(分佈式shell)

對於集羣的管理,經常是ssh登錄到很多臺機器上,然後執行相同的命令,再退出來, 分佈式shell  dsh 可以減少以上麻煩,而且比自己手工寫的腳本好用一些。 dsh 也比 python寫的分佈式shell 好用,--- 個人感覺。 安

原创 ganglia之gmetad響應慢及數據延遲的控制和緩解(hadoop相關監控)

hadoop 相關監控,通常在幾百個監控指標,在ganglia上進行監控的話,建議Master和Slave分開收集,最好使用兩套ganglia來監控。 對於一個ganglia的gmetad,每個節點的監控指標不要超過200個。gangli

原创 【測試度量】水到渠成 還是 造渠灌水

       無論是版本進度,缺陷情況,測試覆蓋度,自動化覆蓋度 還是 測試分析,測試評估,如果能統計彙總成直觀圖表,那確實是測試能力的直觀展現,給領導也是大大的好看。        所有的度量數據,來自規範化的運作;沒有需求評審,隨便寫

原创 【測試理論】軟件缺陷的本質

    我才疏學淺,很少引經據典。當然,就我感覺而言,軟件行業,尤其是軟件測試,談的上經典的,屈指可數。     我從網上查閱到,計算機硬件的錯誤率是:對 1Mbit 進行10億小時操作,突發異常 778 – 25,000 次(參考Goo

原创 HDFS2.0 NameNode HA 切換失敗後的恢復(元數據寫壞)(2014.10.1編輯)

在測試 HDFS2.0 的 NameNode HA 的時候,併發put 700M的文件,然後 Kill 主 NN ;發現備 NN 切換後進程退出。 2014-09-03 11:34:27,221 FATAL org.apache.had

原创 測試監控系統框架構想

測試監控系統框架構想 測試監控系統框架構想: 1. 主要工具:ganglia 和 nagios 2. 結合各自工具的特點,ganglia實現指標收集,nagios實現告警 Ganglia:實現完備的、面向測試任務的指標體系(