原创 spark.mllib源碼閱讀-分類算法4-DecisionTree

        本篇博文主要圍繞Spark上的決策樹來講解,我將分爲2部分來闡述這一塊的知識。第一部分會介紹一些決策樹的基本概念、Spark下決策樹的表示與存儲、結點分類信息的存儲、結點的特徵選擇與分類;第二部分通過一個Spark自帶的示

原创 spark.mllib源碼閱讀-聚類算法1-KMeans

KMeans聚類是聚類分析比較簡單的一種,由於其簡單、高效、易於理解實現等優點被廣泛用於探索性數據分析中。 關於KMeans算法的介紹、分析的相關文章可謂汗牛充棟,留給我能寫的東西並不多了,在這裏,我通過羅列相關文章的方式,將涉及KMea

原创 Hadoop高可用(HA)方案總結

一 、Hadoop1.0時期的NameNode及Secondary NameNode 在早期的hadoop時代,hdfs集羣存在嚴重的單點問題,即集羣只有一個NameNode節點,儘管有SecondaryNameNode,Che

原创 hive自定義函數開發與部署

在利用Hive或者Spark-sql進行數據分析任務時,經常會遇到一些Mysql等傳統數據庫中有的函數而hive中沒有,或者需要自己定義一些複雜的字符串處理、複雜計算計算邏輯的時候,找不到可以用的Hive函數時。儘管可以編寫一些map-r

原创 說說2020經濟寒冬下的感受

2020年的新冠病毒疫情可以說是近年來最大的一隻黑天鵝了,直接導致全球範圍內企業減產停產、社會生活停滯,進而促發供應鏈、消費、金融等一系列的問題。很多企業在一份月初期制定的擴張計劃不得不暫時按下暫停鍵,同時,對於老的項目,則儘量減少人力的

原创 用戶標籤Http接口性能調優

項目背景: 用戶畫像庫有10+億級別用戶的用戶畫像數據,存儲庫爲Hbase rowkey設計爲用戶ID的Hash值並經過域分區設計 使得記錄基本能分佈在各個region上,滿足前端根據用戶ID查詢用戶畫像數據的需求、同時避免Hbase 在

原创 hbase寫ES丟數據參數調優總結

通過ES對百億級hbase數據構建索引,在讀取Hbase至寫入hbase過程中,發現有寫入緩慢及數據丟失的現象,經過本人排查、調優後的一些經驗總結如下,方便遇到相關問題的同學參考: hbase寫ES丟數據總結 1、ES連接池打滿 新

原创 Java中Semaphore(信號量)的使用

Semaphore的作用:在java中,使用了synchronized關鍵字和Lock鎖實現了資源的併發訪問控制,在同一時間只允許唯一了線程進入臨界區訪問資源(讀鎖除外),這樣子控制的主要目的是爲了解決多個線程併發同一資源造成的數據不一致

原创 hadoop入門級總結一:HDFS

雖然hadoop經歷了多年的發展,作爲技術人員都或多或少的使用過或者瞭解過。這裏還是做一個簡單的總結,主要原因是之前主要是做hadoop的開發,對hadoop的運維知之甚少,但真正的接觸到hadoop運維的工作的時候,其實會發現,對had

原创 初識Spark2.0之Spark SQL

內存計算平臺spark在今年6月份的時候正式發佈了spark2.0,相比上一版本的spark1.6版本,在內存優化,數據組織,流計算等方面都做出了較大的改變,同時更加註重基於DataFrame數據組織的MLlib,更加註重機器學習整個過程

原创 人體呼吸信號的數據挖掘

生理信號中的呼吸信號是一類典型的時間序列信號,可以從移動設備檢測到的心電信號中提取得到或者採用其它方式獲取,對呼吸信號進行分析並挖掘其中的異常呼吸事件 對研究人體睡眠質量及其他心腦血管疾病有極大的幫助。通常這一類信號的處理會包括兩大類過程

原创 聊聊機器學習中的無監督學習

機器學習分爲監督式機器學習、無監督式機器學習和半監督式機器學習。其劃分的標準是訓練樣本是否包含人爲標註的結果。(1)監督式機器學習:從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括

原创 synchronized與條件同步

在併發編程中,有這樣的需求:當滿足某個條件時線程執行同步塊中的代碼,條件不滿足時,讓線程在此等待,直至條件滿足再執行同步代碼塊。java的Object類即提供了一類這樣的方法wait(),notifyAll()/notify(),調用wa

原创 CNN在中文文本分類的應用

深度學習近一段時間以來在圖像處理和NLP任務上都取得了不俗的成績。通常,圖像處理的任務是藉助CNN來完成的,其特有的卷積、池化結構能夠提取圖像中各種不同程度的紋理、結構,並最終結合全連接網絡實現信息的彙總和輸出。RNN由於其記憶功能爲處

原创 JDBC線程池創建與DBCP源碼閱讀

創建數據庫連接是一個比較消耗性能的操作,同時在併發量較大的情況下創建過多的連接對服務器形成巨大的壓力。對於資源的頻繁分配﹑釋放所造成的問題,使用連接池技術是一種比較好的解決方式。在Java中,連接池已經有很多開源實現了,在這裏使用comm