原创 千萬級別數據實時複雜統計效率優化

  有個業務需求:千萬級別數據,要根據位置、白天出現時間、晚上不出現時間,出現次數大於某個範圍的複雜組合統計。 mysql在千萬級別的數據時,查詢效率就有明細的下降。而時間數據從上千萬級上升到上億級,查詢效率很慢,等待很久。 除了加索引等

原创 springboot如何多線程異步執行定時任務

在後臺開發時,經常需要執行後臺任務,相比使用quartz等複雜定時框架,使用springboot自帶定時框架,能簡單輕鬆滿足大部分定時任務。 工具/原料 已經配置好springboot依賴 方法/步驟 創建一個後臺定時任務的類,並標明@C

原创 Android adb LOGCAT顯示中文

Android LOGCAT輸出是UTF-8編碼,要想正確顯示中文,需要設置在WINDOWS CMD窗口的編碼設置,以下爲設置步驟。 1、打開CMD.exe命令行窗口 2、通過 chcp命令改變代碼頁,UTF-8的代碼頁爲65001 F:

原创 Sql Server 2005 與Sql Server Mobile(Sql server 2005 mobile Edition)數據同步步驟以及問題解決方案

  目前很多軟件廠商針對移動設備的數據庫同步解決方案,這些方案主要分爲兩種:第一種,是針對某種特定數據庫提供的數據同步方案,比如SQL Sever的RDA和Replication、Oracle Lite和Sybase SQL Anywhe

原创 Android實現3個圓圈的動畫

實現了一個類似Windows進度條效果,界面上有三個圓圈,依次有一個圓圈顯示白色,其它的圓圈顯示藍色。   畫圓圈的View import android.content.Context;import android.graphics.C

原创 Android的gallery實現無限循環和降低選擇頻率

  gallery是一個很好用的控件,可以實現很炫的效果。不過有的時候要對gallery進行改造,使其效果更完美。   Gallery組件主要用於橫向顯示圖像列表,不過按常規做法。Gallery組件只能有限地顯示指定的圖像。也就是說,如果

原创 Fuchsia開發指南

  本文檔是與開發Fuchsia和在Fuchsia上運行的軟件相關的所有Fuchsia文檔的頂級入口點。   開發工作流程   本節介紹用於構建,運行,測試和調試Fuchsia以及在Fuchsia上運行的程序的工作流程和工具。   Get

原创 Fuchsia系統搶新體驗

Fuchsia OS官方已經悄悄上線,其域名是Fuchsia.dev。然而該官網並非面向消費者而是開發者,谷歌推出這個網站的目的,是讓開發者能夠更好地參與到系統的開發之中。 換言之,現階段Fuchsia OS依然在緊張開發中,暫時還沒有

原创 Spark讀取文本或CSV文件中文亂碼的解決方案

使用Spark的默認方法,spark.read.option("header","true").csv(path)讀取CSV文件或spark.read.textFile(path)讀取文本文件,由於這2個方法默認是UTF-8編碼,如果源數

原创 Spark ML機器學習:連續型數據處理之給定邊界離散化-Bucketizer

  Bucketizer將連續的特徵列轉換成特徵桶(buckets)列。這些桶由用戶指定。它擁有一個splits參數。 例如商城的人羣,覺得把人分爲50以上和50以下太不精準了,應該分爲20歲以下,20-30歲,30-40歲,36-50歲

原创 Spark ML機器學習:歸一化之最小最大值標準化-MinMaxScaler

MinMaxScaler轉換由向量行組成的數據集,將每個特徵調整到一個特定的範圍(通常是[0,1])。它有下面兩個參數: min:默認是0。轉換的下界,被所有的特徵共享。 max:默認是1。轉換的上界,被所有特徵共享。   MinMaxS

原创 Spark ML機器學習:多項式轉化-PolynomialExpansion

  Polynomial expansion是一個將特徵展開到多元空間的處理過程,  運用於特徵值進行一些多項式的轉化,比如平方啊,三次方 。 它通過n-degree結合原始的維度來定義。比如設置degree爲2就可以將(x, y)轉化爲

原创 Spark ML機器學習:標準化-StandardScaler

1 動機     對於同一個特徵,不同的樣本中的取值可能會相差非常大,一些異常小或異常大的數據會誤導模型的正確訓練;另外,如果數據的分佈很分散也會影響訓練結果。以上兩種方式都體現在方差會非常大。此時,我們可以將特徵中的值進行標準差標準化,

原创 Spark ML機器學習:連續型數據處理之給定分位數離散化-QuantileDiscretizer

QuantileDiscretizer輸入連續的特徵列,輸出分箱的類別特徵。分箱數是通過參數numBuckets來指定的。 箱的範圍是通過使用近似算法(見approxQuantile )來得到的。 近似的精度可以通過relativeErr

原创 Spark ML機器學習:Tokenizer分詞器

當我們的輸入數據爲文本(句子)的時候,我們會想把他們切分爲單詞再進行數據處理,這時候就要用到Tokenizer類了。  Tokenization是一個將文本(如一個句子)轉換爲個體單元(如詞)的處理過程。 一個簡單的Tokenizer類就