原创 ORC事務表與Hyperbase表的區別

今天有客戶問了我一下關於ORC事務表與Hyperbase表的區別問題,我回答的不是特別好,所以這裏總結一下他們兩個的區別,以便能掌握得更加深入些。 ORC事務表: 輕量級索引,支持CRUD操作,但是不建議大規模的單條增刪改查

原创 爬蟲大全

爬蟲大全 github項目地址:https://github.com/wpwbb510582246/Spider 爬蟲大全集合了大家常用的爬蟲,爲大家日常的開發提供方便。希望大家能共同努力,讓這個項目變得豐富而充實。 這個項目主要

原创 MapReduce執行原理

MapReduce執行任務一般包括輸入分片、Map、Shuffle、Reduce等階段,其執行原理如下圖所示: 圖片來源於《離線和實時大數據開發實戰》 輸入分片:在進行Map計算之前,MapReduce會根據輸入文件計算

原创 HBase中scan和get的功能以及實現的異同

get: 按照RowKey獲取唯一一條記錄。get的方法處理分兩種:設置了ClosestRowBefore和沒有設置ClosestRowBefore的RowLock。主要用來保證行的事務性,即每個get是以一個row來標記的。

原创 HBase宕機如何處理

HBase宕機分爲HMaster宕機和HRegionServer宕機: HMaster宕機:HMaster沒有單點問題,HBase中可以啓動多個HMaster,通過ZooKeeper的選舉機制保證總有一個HMaster運行及對外

原创 基於Python的影視推薦系統的實現

近日在做一個影視網站時,考慮將推薦系統集成到網站中,所以從網上查閱了一些資料,最終得以實現,下面將自己的實現原理及過程寫下來,以便作爲記錄。 1、影視相似度計算 這個推薦系統的主要是根據用戶的觀看記錄,然後爲其推薦相似的影視,所以

原创 掌上影視

掌上影視 github項目地址:https://github.com/wpwbb510582246/PocketFilm 掌上影視是一個可以在線瀏覽最新影視資源的平臺,分爲PC端、移動端,同時包括一個爬蟲工具,可以自動爬取不同影視

原创 JVM學習:判斷對象是否存活的方法

判斷對象是否存活的方法有兩種,分別是引用計數法、可達性分析算法。 注:如無特殊說明,本文所有圖的來源爲《深入理解Java虛擬機JVM高級特性與最佳實踐》 1、引用計數法 引用計數法是指給對象添加一個引用計數器,每當有一個地方

原创 HBase中compact用途是什麼,分爲哪兩種,它們之間有什麼區別

在HBase中,每當有memstore數據flush到磁盤之後,就會形成一個storefile,當storefile的數量達到一定程度後,就需要將storefile文件來進行compact操作。compact的作用主要包括以下幾個

原创 數據倉庫一般分爲哪幾層

數據倉庫一般分爲ODS層、DWD和DWS層、應用層。 ODS層:數據倉庫源頭系統的數據表通常會原封不動地存儲一份,這成爲ODS(Operation Data Store)層。它們是後續數據倉庫層加工數據的來源,同時也存儲着歷史的

原创 HBase內部實現機制

HBase使用MemStore和StoreFile存儲對錶的更新。數據在更新時首先寫入WAL(Write-Ahead Log,也稱HLog)和MemStore,當這兩個地方的變化信息都寫入並確認後,才認爲寫動作完成。MemStor

原创 MemStore和StoreFile

HBase的一個table中的所有行都按照rowkey的字典序排列,table在行的方向上分割爲多個region,region是按大小分割的(默認爲10G),它是HBase中分佈式存儲和負載均衡的最小單元,不同的region可以分

原创 HBase的特點

大:一個表可以有數十億行,數百萬列; 無模式:每行都有一個可排序的主鍵和任意多的列,列可以根據需要動態的增加,同一張表中不同的行可以有截然不同的列; 面向列:面向列的存儲和權限控制,列獨立檢索; 稀疏:空列並不佔用存儲空間,表可

原创 Spark與MapReduce的區別

MapReduce: 只提供Map和Reduce兩種操作,抽象程度低,但是複雜的計算通常需要很多的操作,而且操作之間有很複雜的依賴關係。 MapReduce的中間處理結果是放在HDFS文件系統中的,每次的落地和讀取都消耗大量

原创 Hive優化方法

1、join無關的優化 Hive SQL的性能問題大部分都和join相關,對於和join無關的問題主要有group by 相關的傾斜和count distinct相關的優化 group by引起的傾斜優化: group b