原创 java調用python程序

豐富的第三方庫使得python非常適合用於進行數據分析,最近在項目中就涉及到java調用python實現的算法。目前,java調用python主要包括三種方法:1、利用runtime在本地運行python腳本;2、通過jython調用;3、

原创 基於spark隨機森林的水質預測

根據水質監測信息預測水質變化趨勢,對水環境的有效防範治理具有重要意義。目前水質預測方法主要分爲兩類,一類爲基於污染物在水環境中的理化過程建立的數值模型,主要包括WASP、QUAL、MIKE等;另一類爲基於數據驅動的機器學習方法及深度學習方法

原创 spark統一內存管理器UnifiedMemoryManager

在1.6版本之前spark採用靜態內存管理器StaticMemoryManager進行內存管理,而在之後spark採用統一內存管理器UnifiedMemoryManager進行內存管理,可以對內存進行動態管理,提高了內存的利用率。 1、sp

原创 spark源碼解析之partitioner 一、HashPartitioner 二、RangePartitioner

spark中stage的劃分依據action算子進行,每一次action(reduceByKey等)算子都會觸發一次shuffle過程,該過程涉及到數據的重新分區。spark中的分區器包括HashPartitioner及RangeParti

原创 GeoMan模型數據預處理

geoman模型基於編解碼網絡及分層注意力機制設計而成,可以對多源時間序列進行預測。在編碼端,引入局部及全局注意力,並將傳感器之間的距離作爲全局注意力的一部分;在解碼端,引入時間注意力,用於挖掘時間上的依賴關係。該模型相關代碼可以在gith

原创 spark源碼解析之partitioner

spark中stage的劃分依據action算子進行,每一次action(reduceByKey等)算子都會觸發一次shuffle過程,該過程涉及到數據的重新分區。spark中的分區器包括HashPartitioner及RangeParti

原创 spark讀寫數據倉庫

1、使用場景  隨着業務及數據量的增長,數據庫中的數據大致可以分爲兩類,一類爲操作型數據,另一類爲分析型數據。其中,操作型數據通常與日常業務緊密相關且可進行增刪改查,而分析型數據通常爲歷史數據,用於統計分析,僅能查詢不可增刪改。此外,分析型

原创 rdd實現wordcount

1、rdd實現wordcount rdd調用flatMap方法將rdd中每一個元素按空格分割並鋪平,再通過map方法組成元組,最後通過reduceByKey進行詞頻統計,需要注意的是flatMap方法是先執行map方法在執行flat方法,代

原创 基於spark實現emd算法

emd(empirical mode decomposition)算法廣泛用於非平穩時間序列的平穩性處理,其基本原理是將原始序列分解爲一系列本徵模函數(IMFs)。在數據量比較大的情形下,單機難以處理,可以藉助spark分佈式計算框架將時間

原创 基於EMD分解與LSTM的空氣質量預測

作爲RNN的一種變體,LSTM廣泛用於時間序列的預測。本文結合EMD(empirical mode decomposition)算法及LSTM提出了EMD-LSTM算法用於空氣質量預測。結果表明,僅使用LSTM算法時,預測結果具有滯後性,與

原创 fetch函數設置timeout

使用react-native開發app時,通常使用fetch函數與後臺進行交互。請求後臺接口時,爲了防止用戶等待太長時間需要設置timeout,但是原生的fetch並沒有設置timeout的地方。本文介紹一種設置timeout的方法。 一、

原创 react-navigation動態顯示/隱藏底部導航欄

今天在項目中遇到一個問題,使用createBottomTabNavigator和createStackNavigator構建頁面導航。如圖1所示,底部導航欄每一個Tab都是一個stackNavigator,當我點擊圖中GIS地圖時,切換到其