原创 Zookeeper常見問題整理

ZK選舉過程 當leader崩潰或者leader失去大多數的follower,這時候zk進入恢復模式,恢復模式需要重新選舉出一個新的leader,讓所有的Server都恢復到一個正確的狀態。Zk的選舉算法使用ZAB協議: 選舉線

原创 修改Hadoop源碼的搜索技巧

以前在小米基礎架構組實習時,修改過部分Hadoop的源碼。其中一個很有用的技巧是根據要查找的關鍵字,搜索源碼中所有和該關鍵字有關的代碼 1. find . -name “*.java” | xargs grep main.py

原创 bloom filter

場景 在做廣告定向投放時,我們選出了一批用戶,用設備ID來標識他們。如果我們定向出了1000萬個用戶。用戶獲取服務時,我們需要判斷是否在該集合中,如果在的話,將廣告一起返回。如何判斷呢? 存入數據庫中,比如redis。優點是實現

原创 關聯分析

關聯規則用於分析,往往無處不在。舉舉一些小小事例吧。 女生心裏分析 如何分析女生的心裏呢?如果和一個女生相處久了,那麼從她的一個動作、一個眼神,可以分析出她此刻的想法。 人生哲學 人生有三個境界。“看山是山,看水是水”,“看山不是

原创 《情商》摘抄

情緒智力:瞭解自身情緒,管理自身情緒,自我激勵,認識他人情緒,處理人際關係 這種力量表明瞭社會生活的一個基本準則:情緒可以感染別人 應該在塞西小時候教會他什麼?別人和他說話,要直接應答,要主動與別人交往,不要總是等待別人;要使談話

原创 A Note on Distributed Computing

Local computing means programs that are confined to a single address space. 本地計算即只有一個地址空間的程序 Distributed computing

原创 python製作報表

背景 隨着報表不斷的變化,我們決定採用python進行開發。使用的庫主要是mako.render 開發流程 設計模板Template 準備數據Data 通過mako.render將數據render到模板中 發送郵件:指定html

原创 DistributtedShell的container在所有節點上僅執行一次

問題 在上Hadoop2培訓課的時候,老師出了這麼一道題 修改Distributedshell的源代碼,使得用戶提供的命令(由“–shell_command”參數指定)可以在所有節點上僅執行一次。(目前的實現是,如果該命令由N個

原创 maven依賴某工程確定的版本

背景 maven項目中,可能存在依賴的多個工程中同時依賴某個工程,而該工程被依賴的版本卻不一樣。比如工程demo依賴工程A,工程B。工程A和工程B依賴的thrift的版本如下 A <-- org.apache.thrift:thr

原创 Android常用概念

網絡類型 WIFI:走的路由通道 GPRS(2.5G):以前2G手機所使用的網絡制式 edge(2.75G):改良版的2G網絡,介於2G和3G之間 3G:第3代移動網絡 4G (或者 LTE/WiMax 2) :第

原创 Reduce內存不足的解決方案

MapReduce作業運行時,任務可能會失敗,報out of memory錯誤。這個時候可以採用以下幾個過程調優 簡單粗暴: 加大內存 哪個階段報錯就增加那個階段的內存。以reduce階段爲例,map階段的類似 mapreduce

原创 pandas行轉列

需求 原始文件 Year Country medal no of medals 1896 Afghanistan Gold 5 1896 Afghanistan Silver 4 1896 Af

原创 進程間通信(IPC)

前幾天面試官問你知道IPC麼?平時沒接觸這個,面試回來之後,惡補其中的知識。進程間存在很多通信方式,本文將介紹幾種常用的。 套接字socket 傳輸快且穩定,可用於不同機器間進程的通信。 共享內存shared memory 映射一

原创 MySQL常用技巧

建表 每個表都有一個id字段,最好爲UNSIGNED,如 INT(9) UNSIGNED NOT NULL 在表使用一段時間後,使用PROCEDURE ANALYSE得到建議,如select * from log_ta

原创 如何挑選老師

看老師以前的學生在做什麼 我做一個選擇的時候,一定找最穩妥的路徑。我認爲在老師的學生中只能排在中等水平,這樣,只要一半以上師兄師姐的出路好的話,我的出路也不會很差 教師主頁 如果老師不在主頁上掛自己學生的出處,不要選 看文章的署名