OpentTsdb官方文檔中文版----降採樣

  降採樣(或在信號處理中,抽取)是降低數據採樣率或分辨率的處理過程。例如,假設溫度傳感器每秒鐘都向OpenTSDB系統發送數據。如果用戶在一小時內查詢數據,他們將獲得3,600個數據點,這些數據點可以相當容易地繪製出來。但是現在,如果用戶要求整整一週的數據,他們將獲得604,800個數據點,並且突然間圖形可能變得非常混亂。使用降採樣器,單個時間序列在一個時間範圍內的多個數據點在一個對齊的時間戳中與數學函數一起聚合成單個值。這樣我們可以將數量從604,800減少到168。

  降採樣器至少需要兩個組件:

  • 時間間隔(interval)- 一個時間範圍(或存儲桶),用於聚合這些值。例如:我們可以將1分鐘或1小時甚至整整一天的多個值聚合。間隔以<Size><Units>格式指定,例如1h爲1小時或30m爲30分鐘。從2.3開始,現在可以用“all”將時間範圍內的所有結果縮減爲一個值。例如,0all-sum將從查詢開始到結束總結所有值。請注意,數值仍然是必需的,但它可以是零或任意其他值。
  • 聚合函數- 確定如何合併區間中的值的數學函數。與前述的聚合器一致。

  舉例說明:如下時間序列A和B。數據點覆蓋70秒的時間範圍,每10秒一個值。假設我們希望縮減到30秒,因爲用戶正在查看更寬時間跨度範圍的圖。此外,我們使用sum聚合器將這兩個序列分組爲一個。我們可以指定一個降採樣器30s-sum,它將創建30秒的桶並累計每個桶中的所有數據點。這將爲我們提供每個序列的三個數據點:

時間序列 T0 T0+10s T0+20s T0+30s T0+40s T0+50s T0+60s
A 5 5 10 15 20 5 1
A sum降採樣 5+5+10=20 15+20+5=40 1
B 10 5 20 15 10 0 5
B sum降採樣 10+5+20=35 15+10+0=25 5
sum聚合結果 55 65 6

  正如你所看到的,對於每一個時間序列,我們會生成標準化的間隔邊界(每30秒),這樣我們就必須在時間戳t0,t0+30s和t0+60s合併序列的值。每個間隔或存儲桶將包含包含存儲桶時間戳(start)的數據點,並且不包括以下存儲桶的時間戳(end),即[start, end)半開半閉區間。在這種情況下,第一個桶將從 t0延伸到t0+29.9999s,使用提供的聚合器,將所有值合併爲一個新值。例如,對於序列A,我們對t0,t0+10s並t0+20s的值求和得到新的值20在t0。最後,查詢使用sum進行分組,以便我們累加兩個合成的時間序列。此時,OpenTSDB總是在降採樣執行後再執行分組聚合。

注意:
  對於早期版本的OpenTSDB,新數據點的實際時間戳將是時間間隔範圍中每個數據點的時間戳的平均值。從2.1和更高版本開始,每個點的時間戳與基於當前時間的模和降採樣間隔的時間桶的開始對齊。

  降採樣時間戳基於原始數據點時間戳的剩餘部分(差值)除以下采樣間隔(以毫秒爲單位,即模數)進行歸一化。在Java中代碼是:timestamp - (timestamp % interval_ms)。例如,給定時間戳1388550980000或1/1/2014 04:36:20 UTC,1小時間隔(相當於3600000毫秒),結果時間戳將舍入爲1388548800000。在4至5 UTC之間的所有數據點將在4 AM桶中收尾。如果以1小時的間隔查詢一天的數據降採樣,則將會收到24個數據點(假設所有24小時都有數據)。
  使用“0all-”間隔時,查詢的開始時間將成爲結果的時間戳。
  歸一化(標準化)對於常見查詢非常有效,例如將一天的數據降採樣到1分鐘或1小時。但是,如果嘗試以奇數間隔(如36分鐘)降採樣,則由於模數計算的性質,時間戳可能看起來有點奇怪。給定36分鐘的時間間隔以及我們上面的示例,時間間隔爲2160000毫秒,結果爲時間戳1388549520或04:12:00 UTC。所有在04:12與04:48之間的數據點將收尾在一個桶中。

日曆邊界

  從OpenTSDB 2.3開始,用戶可以指定基於日曆的降採樣而不是快速取模的方法。這對於報告目的更爲有用,例如查看與人類可讀時間相關的值,例如數月,數週或數天。此外,降採樣可以考慮時區,並納入夏時制時間偏移和時區偏移。
  要使用日曆邊界,請查看正在查詢的接口文檔。例如,V2版本的 URI接口具有指定要使用的特定時區的參數,例如&timezone=Asia/Kabul,基於日曆的降採樣可通過將附加c到間隔時間單位中來啓用如&m=sum:1dc-sum:my.metric。對於JSON查詢,在頂層使用單獨的字段timezone以及useCalendar布爾標識。如果未提供時區,則日曆將使用UTC時間。
  通過日曆降採樣,第一個時間間隔在指定時區的查詢年份捕捉到1月1日的00:00:00。從那裏開始計算間隔桶直到查詢的結束時間。每個存儲桶都標有存儲桶開始的時間戳(包含,閉區間),幷包括所有的值,直到下一個存儲桶開始爲止。

填充策略

  降採樣通常用於對齊(調整)時間戳,以避免在執行分組時進行插值。由於OpenTSDB不會對時間對齊或值存在時施加約束,因此必須在查詢時指定這些約束。使用降採樣執行分組聚合時,如果所有序列都缺少預期間隔的值,則不會發出任何數據。例如,如果一個序列的以間隔每分鐘從t0到t0+6m寫入數據,但由於某種原因源在t0+3m未能寫入數據,只有5個值將被序列化時,用戶可能希望有6個值。在2.2及更高版本的填充策略中,您現在可以選擇任意值在t0+3m發出,用戶(或應用程序)將看到的值特定時間戳缺少的值,而不必找出缺少哪個時間戳。只要降採樣桶爲空,填充策略就會簡單地發出預定義的值。
  可用的策略包括:

  • None(none) –默認行爲,在序列化過程中不會發出缺失值,並在聚合序列時執行線性插值(或其他指定的插值)。
  • NaN(nan) –當序列中所有值都缺失時,在序列化輸出中發出NaN 。當值缺失時跳過聚合中的序列,而不是將整個組計算轉換爲NaN組。
  • Null(null) – 除了在序列化過程中它發出的是一個null而不是NaN,與NaN有相同的行爲。
  • Zero(zero) – 當缺少時間戳時以0替換。零值將被合併到聚合結果中。
      要使用填充策略,請將策略名稱(括號中的術語)附加到由連字符分隔的降採樣聚合函數的末尾。例如1h-sum-nan或1m-avg-zero。
      在這個例子中,我們每10秒鐘報告一次數據,並且我們希望通過每10秒降採樣並通過NaN填充缺失值來執行10秒報告的查詢 - 時間策略10s-sum-nan:
時間序列 T0 T0+10s T0+20s T0+30s T0+40s T0+50s T0+60s
A 15 5
B 10 20 15 20
A sum 降採樣 NaN NaN NaN 15 NaN 5 NaN
B sum 降採樣 10 NaN 20 15 NaN NaN 20
sum 聚合結果 10 NaN   20 15 NaN  5 20

  如果我們在沒有填充策略的情況下要求輸出,則在t0+20s或t0+40s將會沒有值或時間戳被髮出。另外,B序列中在t0+30s和t0+50s的值將被線性插值,以填充要與序列A相加的值。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章