原创 大數據採集的幾點問題的思考

最近去面試,遇到面試官提到了幾個關於“數據採集”方面的問題。 一般大數據處理流程的共識是: 大數據採集、大數據預處理、大數據存儲及管理、大數據分析及挖掘、大數據展現和應用(大數據檢索、大數據可視化、大數據應用、大數據安全等)。 其中,

原创 spark複習2

包含spark開發流程和常用技術代碼

原创 java複習-高頻技術及應用場景

文章目錄0 前言1 語言特性1.1 封裝1.2 繼承1.3 多態1.4 抽象2 集合2.1 Array2.2 List2.3 Map2.4 Set3 錯誤規避和處理3.1 異常3.2 錯誤4 jvm4.1 結構4.2 運行流程5 文件

原创 hadoop複習

hadoop複習

原创 spark集羣調優心得

(2017年11月26日) 最近公司搞一個spark集羣項目,期間會對spark集羣進行調優.雖然調優的建議網上有很多,但是通過具體實踐,發現不同的場景,調節的參數還是有不一樣的地方.現記錄一下最近學到的一些實踐手段吧. (1)要留

原创 spark複習

文章目錄1 spark core的重要概念和理解1.1 spark基本概念1.2 容易混淆的 job,stage,task,partition1.3 shuffle 和 result2 spark dataframe的原理和使用2.

原创 solr-hbase二級索引及查詢解決方案(二)

上一篇搭建了hbase的二級索引功能,只要hbase中有寫數據,其就會自動的增量同步索引. 接下來是根據索引查詢hbase中數據. 實測,查詢索引數據,確實相當快,main方法測試,7200條數據,只需要1秒.查詢hbase數據,同樣

原创 大量csv數據的查詢和計算的技術實現路徑分析(2)-HDFS存儲查詢探討2

上一篇講了java split的使用弊端,雖是字符串處理中一個很小的操作,不過卻避不開。接下來,主要探討HDFS存儲查詢方面的問題和解決思路。 隨着每天的業務運作,每天會生成很多csv文件,目前csv文件存儲在hdfs文件系統裏面。在使

原创 處理大量csv數據和模型數據有關大數據組件選型的例子分析

大數據技術對處理大批量數據和在分佈式計算上,較傳統技術優勢明顯。那麼,借大數據技術在處理航空數據上是否有用武之地?本文接下來討論使用大數據組件來處理航空數據。 航空數據有的數據以csv文件格式存儲,統計分析航空數據有很多潛在價值,儘管有可

原创 spark常見操作系列(3)--spark讀寫hbase(2)

接着上一篇, 問題(2): scan有 scan.setCaching(10000) scan.setCacheBlocks(true) 等設定.setCaching ,個人感覺不夠用.hbase 默認是在內存裏面放一塊數據用來讀取,所

原创 使用JMC工具對spark 程序調優(一)

spark調優是一個頭疼的事,這個疼在什麼地方呢? (1)spark將內部幾乎完全封裝,類似黑箱,不瞭解內部機理。 (2)spark 調優參數衆多,參數之間關聯很多,無法清晰知道調優效果。 (3)spark運行在集羣上,本地調試功能

原创 使用Apache atlas api創建血緣關係

使用Apache atlas api創建血緣關係

原创 通過jupyter遠程編寫代碼,並遠程提交到spark集羣執行

幾個月前折騰了一番jupyter(web 代碼編輯器),感覺jupyter在編寫某些科學文章是比較靈活.不過幾乎是單機版的,在生產環境應用有限.之前因爲需要在集羣上執行編輯的代碼,遂查找資料,又折騰了一番,使得jupyter可以應用於集羣

原创 大量csv數據的查詢和計算的技術實現路徑分析(1)

在工作中,會有處理很多數據的場景。 比如, 用戶需求: 我有大量數據, (1)我想要高效查詢我想要的數據。 (2)我想要高效計算出我想要的結果數據。 爲了存儲數據,我們使用的數據存儲方式有: mysql,oracle,表; csv文件 e

原创 Apache atlas 的入門教程

筆者最近參加了2場大數據技術開放活動,在技術分享的時候,發現,2場分享活動,有人不約而同的推薦了Apache atlas 組件,所以,就像介紹一下這個組件。Apache atlas 是個什麼樣的工具?它有哪些功能和作用? 其實,在本人之前