5G對未來數據科學發展趨勢的影響

# 1 大數據的特點 大數據的大並非只是代表數據的體量巨大,事實上在大數據這個概念的出現前,數據的體量就已經隨着人類社會的發展而增加到了一定的程度。通常所認爲“大”的定義爲以下4個方面: (1) 數據體量巨大 (2) 數據類型繁多 (3) 數據價值密度低 (4) 數據處理速度快 在雲計算出現前,因爲系統的處理能力有很大的侷限性,因此對於體量巨大、類型繁多並且價值密度低的數據無法進行有效處理,大量的數據因無法處理而未被收集或是已經收集了但過了留存期限而被銷燬。按照傳統IT架構方式下的數據分析方式,從價值密度低而數量龐大的數據中去挖掘需要的信息所需要的成本大、效率低,因此往往按照經驗來總結出一套理論來分析較小體量的數據並在此基礎上對未來的同類型問題進行預測,統計學和概率論即在解決這個問題的過程中不斷的完善。雲計算技術應用後,計算力得到大規模提升,統一的數據倉庫形成,同樣的統計學算法和概率算法在輸入數據爆發性增加後輸出值的精確度無限接近於真實情況,大幅度減小了原來基於小規模數據得出的結果的誤差。此外,因爲雲平臺降低了計算的成本,所以對於存量數據和增量數據都能夠進行反覆迭代計算,機器學習由此誕生,其原理是通過對於現有的大量數據進行有監督學習(根據現有數據訓練得出規律預測未來)和無監督學習(在海量數據中尋找規律),根據訓練的結果總結出模型並預測未來的情況。 # 2 移動互聯網數據特徵 互聯網時代到來之後,提升了人和人之間的溝通效率,目前通常將人人通過PC機溝通的時代定義爲互聯網的初級階段,智能終端的崛起則將互聯網推動到了移動互聯時代,整個技術發展的趨勢就是人類在不斷向在線化靠攏。 PC機初步解決了人人在線的問題,雖然在實時程度上還不夠但和傳統書信、電報及電話相比已經大幅度的增加了人類溝通的便捷性,移動互聯則是在此基礎上進一步提高人與人之間的在線化程度,移動互聯網和PC時代的互聯網從溝通效率相比有兩個顯著的提升是: (1)終端從固定向移動發展 (2)多人使用一臺終端到各人使用一臺終端 前者使人能夠擺脫原先空間上的限制,保持時刻在線狀態,這爲電子商務、即時通信和移動支付業務等提供了技術基礎,表象體現出來的便捷性提高的背後是整個社會的扁平化以及解決了許多領域信息不對稱的問題。後者是各類個性化服務的基礎,在PC機時代因爲往往多人使用同一臺終端並且有空間限制,因此在數據採集方面一是由於非完全實時的因素導致數據採集非連續性,另一個是對個體特徵值的提取很不方便,無法精確的根據提取出的數據來判斷個體的各項特徵並用於未來行爲的預測。移動互聯網的發展解決了這兩個問題,突破了空間的限制並且縮小了用戶羣體的顆粒度,同時,也在這個過程中帶來了大量原先不需要、沒能力進行處理和無法取得的數據,而真正改變整個社會消費習慣、生活習慣並創造出數字經濟這種經濟形態的正是這些海量的數據。因此在技術體系中,雲計算、大數據和移動互聯網的協同發展和運作是缺一不可的,雲計算提供計算力的保障,移動互聯網作爲數據的源頭提供已被現代社會視爲重要資源的數據和數據的傳輸通道,大數據在前兩者基礎上分析和挖掘數據資源的價值。 # 3 物聯網數據特徵 如果說移動互聯網提供的還是人與人之間的溝通媒介則近年來開始蓬勃發展的物聯網則將人的在線化進一步擴展到物的在線化,根據通常的定義,物聯網就是物物相聯的互聯網,這使數據的來源和預期的數量變成幾乎無限,因爲如果人還是有個總數的概念則物的總數根本沒有辦法去統計,因此在雲計算未誕生前物聯網雖然已經有文獻提出過這個概念但是根本沒有技術支撐和計算力保證。傳統方式下將物與物相聯和物與人的相聯的方式稱爲自動控制,即並非傳統模式下物與物之間或物與人之間就一點互動也沒有,其特點是有明確的邊界範圍並且提供的數據量非常有限,各個子系統之間既沒法互通也沒有爲以後的互通做好預留接口,更不可能將互通範圍擴大到不同領域和不同行業。自動控制與物聯網的區別就如同統計學與大數據的區別,其核心的方法沒有太大的差異但是因爲數據量的提升和對數據利用率要求的提高,造成原來的體系不再適用於如今幾乎沒有邊界的範圍。和移動互聯網一樣,物聯網同樣是技術協同體系中數據的源頭和傳輸通道,需要雲計算提供計算力支撐和大數據對於收集的數據進行分析挖掘。 # 4 產業互聯網數據特徵 從生產上各類設備的運行數據屬於典型的低價值密度數據因爲這些設備在大部分情況下工作是正常的,在原先缺乏計算力的情況下沒有辦法能夠挖掘這些數據,判斷設備的故障採用的是安裝測量儀表的方式,明顯的缺陷是測量儀表只有在故障發生時才能通知運行人員並進行保護動作,而大數據應用後,能夠通過歷史數據和同類型設備運行數據特別是故障情況下的特徵進行挖掘和提取,通過預判來做到在設備可能會發生故障時就通知運行人員處理而不必等到故障真正發生,顯而易見,這種預測的模式對於生產效率的提升非常顯著。 # 5 5G對數據科學發展趨勢的影響 結合以上幾個領域的數據特徵和5G的特點,可以判斷一下5G對數據科學發展趨勢的影響。5G的顯著特點就是傳輸速度快並且時延低,從雲管端三個層面來分析,5G處於網絡層,傳輸速度的提高代表非結構化數據(視頻、圖像、語音等)的大規模接入會是未來的趨勢,並且這個發展趨勢會同時出現在移動互聯網、物聯網和產業互聯網領域,跟隨而來的是對於非結構化數據處理和計算的要求變高,雲計算方面各領域對於GPU服務器的需求度將會顯著上升。 從數據算法方面面向結構化數據的機器學習算法目前已經在不斷向面向非結構化數據和異構數據計算的方向靠近,這個趨勢從阿里雲天池比賽的賽題設置可以明顯的感受到。在5G出現以前,雲端其實已經有能力針對大量的非結構化數據進行大規模計算,但是由於傳輸通道受限,海量單體文件較大的非結構化數據傳輸是個很大的問題,傳輸速度的限制導致了實時性也一併降低因此阻礙了很多應用場景的落地。5G使無線傳輸速度大幅度提升後解決了傳輸限制,以神經網絡爲代表的非結構化數據算法才能夠大規模在實際中採用,特別是在無人駕駛、醫療、視頻監控等數據量大並且實時性要求極高的場景,傳輸速度直接影響這些場景下數據的有效性(數據價值隨時間下降)。網絡層限制解決後,平臺層方面流計算的應用程度將會提高以確保數據處理和計算迭代速度不會成爲新的瓶頸。 產業互聯網的典型特徵是數據的傳輸都是雙向的,將數據分爲反饋信息和控制信息分析,反饋信息進入邊緣端或者雲端後,通過規則引擎(參見ALIOS IOT平臺)計算得出需要發送給感知層的控制指令,對感知層控制設備進行操作。這使網絡層的時延必須非常低並且傳輸非常穩定,由於工業生產過程中各類參數往往在實時波動,因此高延遲不但會造成平臺層收到的反饋信息滯後於實際生產過程,更會由於控制信息的返回再次被網絡層延遲而造成控制效果變差甚至毫無意義,嚴重者會干擾工業生產過程的安全運行。5G的低延時性(約爲4G的10分之1左右,15ms)從實時性角度看直接關係到產業互聯網整個業態的發展,當然在5G實際運用到實時性要求較高的生產場景時,是否真的在可靠性上能夠做到和有線傳輸同等水平比如面對生產環境干擾較多的情況能否不受影響還需要根據其實際落地後並試驗後才能驗證。
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章