大牛書單 | 大數據存儲方向好書分享

導語:讀書是一生的功課,技術人通過讀書實現自我提升,學習優秀知識沉澱。TEG書知道本期特邀騰訊雲數倉數據湖產品負責人堵俊平、騰訊雲數據庫負責人林曉斌、騰訊TEG雲架構平臺部數據塊中心高級工程師王銀虎,騰訊TEG計費平臺部賬戶中心專家工程師潘安羣爲大家帶來大數據方向好書推薦。來看看技術大牛在讀什麼,收藏優質內容,願本期書單助您更專業。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

堵俊平,騰訊雲數倉數據湖產品負責人, T4專家工程師,騰訊開源聯盟(TOSA)現任主席,Apache開源基金會Member, Apache Hadoop項目Committer和PMC。


《Hadoop: The Definitive Guide: Storage and Analysis at Internet Scale》

作者:Tom White

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語: 這本”Hadoop Definitive Guide”是由Hadoop之父Doug Cutting親自推薦的,作者Tom White也是Hadoop開源項目最早期的開發者。本書深入淺出的討論了大數據Hadoop生態系統裏各種技術Hadoop, HBase, Hive, Spark等的基本原理,設計原則和使用細節。不僅對大數據領域的業者,也對於從事分佈式系統,存儲系統等研發的技術人員也有很強的參考價值。這本書指導了一代大數據開發者的成長,也被早期的Hadoop業者稱爲大數據領域的紅寶書。


《Learning Spark: Lightning-Fast Big Data Analysis》

作者:Holden Karau, Andy Kowinski, Mark Hamstra, Matei Zaharia

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:這本“Learning Spark”是由Apache Spark項目的創始團隊寫給數據工程師和數據科學家的關於如何基於Spark做數據分析,全書通過豐富的例子,展現了Spark如何應用於數據的SQL查詢,流計算,機器學習等常用的數據分析場景以及優化。全書實例豐富,邏輯嚴謹,是數據分析師和數據科學家採用Spark技術的必備工具書。


《Data Architecture: A Primer for the Data Scientist: Big Data, Data Warehouse and Data Vault》

作者:W.H. Inmon, Daniel Linstedt 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語: 這本書是被譽爲數據倉庫之父的Bill Inmon撰寫的關於企業全局數據架構的書, 該書詳細分析了大數據趨勢,並結合歷史上已有的數據倉庫系統探討了如何在企業數據架構上實現兩者的連接與統一。全書脈絡清楚,通俗易懂,反映了作者多年的企業數據服務與治理的經驗沉澱。適合試圖在架構層面上理解企業數據架構以及數據規劃的資深從業人員來閱讀。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

林曉斌,網名丁奇,騰訊雲數據產品中心總監,雲數據庫負責人。擅長數據庫性能優化和架構優化,活躍的社區開發者。著有專欄《MySQL實戰45講》,超過3萬人已學習。


《SQL反模式》

作者:Bill Karwin

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:對於一個運維和開發人員來說,出了錯就改並不太難,而如何識別潛在的問題就是一個進階的能力。《SQL反模式》這本書,比較系統地介紹瞭如何識別潛在風險、歸納錯誤的用法、總結面對問題時正確的解決手段,除了解決實際問題,對運維人員的系統化思維提升也很有幫助。


《事務處理:概念與技術》

作者:Jim Gray, Andreas Reuter 

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:這是一本奠定了關係數據庫理論的書,在現在主流的數據庫實現中,還可以看到其中一些概念的原型。這本著作詳細闡述了各種可能發生的問題,以及解決這些問題的實際的技術。直到今天,書裏的理論仍然能夠用於指導現在的數據庫設計和開發實踐。
這是一本”大部頭“,也是值得放在牀頭細讀的書。


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

王銀虎,TEG雲架構平臺部數據塊中心雲硬盤組T3-3高級工程師,負責雲硬盤的開發和維護工作,混跡存儲圈10年有餘,爲騰訊雲高性能、低成本、高可用性和持久性的海量存儲平臺提供技術支持。


《失控:機器、社會與經濟的新生物學》

作者:Kevin Kelly

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:凱文凱利的這本書,主題是控制論、自我組織、複雜系統和混沌理論等。《失控》的中心理論是當代科學與哲學擁有共通之處:智慧不再被集中組織,而是更像蜂巢中的一個個蜂窩。此作成書於1994年的書,書中預言式的提到今天正在興起或大熱的概念包括: 大衆智慧、雲計算、物聯網、虛擬現實、敏捷開發、協作、雙贏、共生、共同進化、網絡社區、網絡經濟等等。對於計算機科學和工程,有很多指導意義,在CBS的分佈式設計方面也借鑑了《失控》的很多理論和思想。


《重構:改善既有代碼的設計》

作者:Martin Fowler

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:程序員寫代碼無非是在做兩件事情,實現新功能,重構已有代碼,而《重構》正是指導代碼重構的一本工具書,它解釋重構的原理和最佳實踐方式,並指出何時何地你應該開始挖掘你的代碼以求改善,它揭示了重構過程並整理了具體的方法和案例。同時《重構》有很多理念也是程序員應該學習的:推倒重來不是重構,安全、小步的重構應有的方法;穩定的軟件不是設計出來的,是演進而來的......


640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1

潘安羣,TEG計費平臺部賬戶中心專家工程師,超過10年分佈式計算和存儲系統研發經驗,目前負責分佈式NoSQL系統厚德(Hold)、騰訊分佈式數據庫(TDSQL),以及騰訊雲區塊鏈(TBaaS)底層平臺的技術研發工作。


《Designing Data-Intensive Applications》

作者:Martin Kleppmann

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:這是一本數據處理領域(SQL、NoSQL、NewSQL、Batch Processing、Stream Processing)的入門之作,也可以說是集大成之作,領域從業者必讀,深入淺出,可以讓你系統性的瞭解到各類型數據處理系統所需要考慮的問題,如可靠性、擴展性、可維護性、數據模型、複製、一致性、分佈式、事務等等。同時通過對各種解決方案的來龍去脈以及優劣對比講述,更能讓大家加深對問題的理解。因爲本書在具體細節上沒有特別深入,所以無論是否從事數據存儲處理系統領域的研發工作,都可以,也應該讀讀此書,對工作中的技術選型會非常有指導意義。此外,該書裏面提供的大量引用文獻,對於進一步深入細分領域非常有價值。


《Streaming Systems》

作者:Tyler Akidau, Slava Chernyak, Reuven Lax

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:源自Google內部大數據處理的思考與經驗,雖然書名是Streaming Systems,但是內容遠不止於此,作者希望用一個大統一理論來統一去過大數據處理的歷程,包括批處理、流式計算、數據庫表等概念,這可以充分加深大家對大數據處理系統的系統性理解。當然也有對當前各種Streaming System的對比分析,值得細讀。


《技術的本質》

作者:W.Brian Arthur

640?wx_fmt=jpeg&tp=webp&wxfrom=5&wx_lazy=1&wx_co=1


大牛推薦語:嚴格意義上來說,這不是一本技術書籍,作者是經濟學出身,這裏的技術也不再是某個行業的具體技術,而是人類文明史上的技術總和,作者似乎希望脫離某個具體領域的技術,去思考技術的本質是什麼,如何進行進化,裏面提出很多有意思的觀點,如技術在某種程度上一定是來自此前已有技術的新組合,而技術的最源頭是人類對自然現象的捕獲與利用,技術的模塊化組合進化等,這些觀點不能說一定無懈可擊,但是不失爲我們看待技術以及創新的一種參考。此外,因爲技術本身是一個很抽象的概念,所以這本書讀起來會有些生澀,可能容易睡着。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章