台部落texture

最近去面試，遇到面試官提到了幾個關於“數據採集”方面的問題。一般大數據處理流程的共識是：大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用（大數據檢索、大數據可視化、大數據應用、大數據安全等）。其中，

2018-12-07 20:41:51

包含spark開發流程和常用技術代碼

2018-12-07 20:41:51

文章目錄0 前言1 語言特性1.1 封裝1.2 繼承1.3 多態1.4 抽象2 集合2.1 Array2.2 List2.3 Map2.4 Set3 錯誤規避和處理3.1 異常3.2 錯誤4 jvm4.1 結構4.2 運行流程5 文件

2018-11-19 23:06:35

hadoop複習

2018-11-19 23:06:35

(2017年11月26日) 最近公司搞一個spark集羣項目,期間會對spark集羣進行調優.雖然調優的建議網上有很多,但是通過具體實踐,發現不同的場景,調節的參數還是有不一樣的地方.現記錄一下最近學到的一些實踐手段吧. (1)要留

2018-11-19 23:06:34

文章目錄1 spark core的重要概念和理解1.1 spark基本概念1.2 容易混淆的 job，stage，task，partition1.3 shuffle 和 result2 spark dataframe的原理和使用2.

2018-11-19 23:06:34

上一篇搭建了hbase的二級索引功能,只要hbase中有寫數據,其就會自動的增量同步索引. 接下來是根據索引查詢hbase中數據. 實測,查詢索引數據,確實相當快,main方法測試,7200條數據,只需要1秒.查詢hbase數據,同樣

2018-09-02 05:57:15

上一篇講了java split的使用弊端，雖是字符串處理中一個很小的操作，不過卻避不開。接下來，主要探討HDFS存儲查詢方面的問題和解決思路。隨着每天的業務運作，每天會生成很多csv文件，目前csv文件存儲在hdfs文件系統裏面。在使

2018-09-02 05:57:15

大數據技術對處理大批量數據和在分佈式計算上，較傳統技術優勢明顯。那麼，借大數據技術在處理航空數據上是否有用武之地？本文接下來討論使用大數據組件來處理航空數據。航空數據有的數據以csv文件格式存儲，統計分析航空數據有很多潛在價值，儘管有可

2018-09-02 05:57:15

接着上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 默認是在內存裏面放一塊數據用來讀取,所

2018-09-02 05:57:15

spark調優是一個頭疼的事，這個疼在什麼地方呢？（1）spark將內部幾乎完全封裝，類似黑箱，不瞭解內部機理。（2）spark 調優參數衆多，參數之間關聯很多,無法清晰知道調優效果。（3）spark運行在集羣上，本地調試功能

2018-09-02 05:57:15

使用Apache atlas api創建血緣關係

2018-09-02 05:57:15

幾個月前折騰了一番jupyter(web 代碼編輯器),感覺jupyter在編寫某些科學文章是比較靈活.不過幾乎是單機版的,在生產環境應用有限.之前因爲需要在集羣上執行編輯的代碼,遂查找資料,又折騰了一番,使得jupyter可以應用於集羣

2018-09-02 05:57:13

在工作中，會有處理很多數據的場景。比如，用戶需求：我有大量數據，（1）我想要高效查詢我想要的數據。（2）我想要高效計算出我想要的結果數據。爲了存儲數據，我們使用的數據存儲方式有： mysql，oracle，表； csv文件 e

2018-09-02 05:57:12

筆者最近參加了2場大數據技術開放活動，在技術分享的時候，發現，2場分享活動，有人不約而同的推薦了Apache atlas 組件，所以，就像介紹一下這個組件。Apache atlas 是個什麼樣的工具？它有哪些功能和作用？其實，在本人之前

2018-09-02 05:57:12

166