台部落敢于挑战我可以

今天有客戶問了我一下關於ORC事務表與Hyperbase表的區別問題，我回答的不是特別好，所以這裏總結一下他們兩個的區別，以便能掌握得更加深入些。 ORC事務表：輕量級索引，支持CRUD操作，但是不建議大規模的單條增刪改查

2020-06-19 11:17:13

爬蟲大全 github項目地址：https://github.com/wpwbb510582246/Spider 爬蟲大全集合了大家常用的爬蟲，爲大家日常的開發提供方便。希望大家能共同努力，讓這個項目變得豐富而充實。這個項目主要

2020-06-19 04:01:39

MapReduce執行任務一般包括輸入分片、Map、Shuffle、Reduce等階段，其執行原理如下圖所示：圖片來源於《離線和實時大數據開發實戰》輸入分片：在進行Map計算之前，MapReduce會根據輸入文件計算

2020-06-19 04:01:39

get：按照RowKey獲取唯一一條記錄。get的方法處理分兩種：設置了ClosestRowBefore和沒有設置ClosestRowBefore的RowLock。主要用來保證行的事務性，即每個get是以一個row來標記的。

2020-06-19 04:01:39

HBase宕機分爲HMaster宕機和HRegionServer宕機： HMaster宕機：HMaster沒有單點問題，HBase中可以啓動多個HMaster，通過ZooKeeper的選舉機制保證總有一個HMaster運行及對外

2020-06-19 04:01:39

近日在做一個影視網站時，考慮將推薦系統集成到網站中，所以從網上查閱了一些資料，最終得以實現，下面將自己的實現原理及過程寫下來，以便作爲記錄。 1、影視相似度計算這個推薦系統的主要是根據用戶的觀看記錄，然後爲其推薦相似的影視，所以

2020-06-19 02:41:10

掌上影視 github項目地址：https://github.com/wpwbb510582246/PocketFilm 掌上影視是一個可以在線瀏覽最新影視資源的平臺，分爲PC端、移動端，同時包括一個爬蟲工具，可以自動爬取不同影視

2020-06-19 02:41:10

判斷對象是否存活的方法有兩種，分別是引用計數法、可達性分析算法。注：如無特殊說明，本文所有圖的來源爲《深入理解Java虛擬機JVM高級特性與最佳實踐》 1、引用計數法引用計數法是指給對象添加一個引用計數器，每當有一個地方

2020-06-19 02:41:10

在HBase中，每當有memstore數據flush到磁盤之後，就會形成一個storefile，當storefile的數量達到一定程度後，就需要將storefile文件來進行compact操作。compact的作用主要包括以下幾個

2020-06-19 02:41:10

數據倉庫一般分爲ODS層、DWD和DWS層、應用層。 ODS層：數據倉庫源頭系統的數據表通常會原封不動地存儲一份，這成爲ODS(Operation Data Store)層。它們是後續數據倉庫層加工數據的來源，同時也存儲着歷史的

2020-06-19 02:41:00

HBase使用MemStore和StoreFile存儲對錶的更新。數據在更新時首先寫入WAL(Write-Ahead Log，也稱HLog)和MemStore，當這兩個地方的變化信息都寫入並確認後，才認爲寫動作完成。MemStor

2020-06-19 02:41:00

HBase的一個table中的所有行都按照rowkey的字典序排列，table在行的方向上分割爲多個region，region是按大小分割的(默認爲10G)，它是HBase中分佈式存儲和負載均衡的最小單元，不同的region可以分

2020-03-31 22:08:32

大：一個表可以有數十億行，數百萬列；無模式：每行都有一個可排序的主鍵和任意多的列，列可以根據需要動態的增加，同一張表中不同的行可以有截然不同的列；面向列：面向列的存儲和權限控制，列獨立檢索；稀疏：空列並不佔用存儲空間，表可

2020-03-31 22:08:32

MapReduce：只提供Map和Reduce兩種操作，抽象程度低，但是複雜的計算通常需要很多的操作，而且操作之間有很複雜的依賴關係。 MapReduce的中間處理結果是放在HDFS文件系統中的，每次的落地和讀取都消耗大量

2020-03-12 09:23:08

1、join無關的優化 Hive SQL的性能問題大部分都和join相關，對於和join無關的問題主要有group by 相關的傾斜和count distinct相關的優化 group by引起的傾斜優化： group b

2020-03-12 09:23:08