拿什麼拯救AI時代的數據科學家?

微軟小冰寫詩,騰訊的DreamWriter在奧運會期間寫了800篇新聞報道,今日頭條的AI算法實現了千人千面的推薦,AlphaGo、騰訊絕藝等實現了人工智能在單一領域的人類超越,隨着算力與算法的突破,人工智能無處不在,也越來越無所不能。而這一切,都依賴於海量數據的餵養訓練和數據科學家的算法算力,爲了獲取準確的結果,需要這些海量數據準確且更加貼近業務。但是你可曾想過,這些基礎數據的整理和歸類正在消耗數據科學家分析洞察的精力和熱情?

 

數據需要 AI,AI 需要數據管理。如何應對AI的數據挑戰?如何利用數據工程解決方案來拯救數據科學家們,讓他們專注於機器學習算法,解決複雜問題從而影響商業決策?

 

本期Informatica網絡研討會

資深技術顧問——曹順波

聚焦Informatica數據工程解決方案

(Informatica Data Engineering)

邀您一起從容應對AI時代數據挑戰

 

 

 

無數據、不AI

▉ 企業的AI數據挑戰有哪些?

從支持特定單一業務應用的數據1.0時代,到支持業務流程的數據2.0時代,再到今天,數據驅動企業數字化轉型的數據3.0時代,我們不難發現:

● 數據量越來越大,激速增加

● 新用戶持續迅猛增長

● 來自移動、社交、物聯網等新的數據類型不斷增加

● 雲端數據和邊緣數據成爲關注點

● 人工智能、機器學習等新技術被更多地用於數據處理和分析

 

數據管理越來越難,如何處理海量數據,發現數據價值?這是如今企業普遍面臨的問題和挑戰。

 

如同爲了航行,人類發明了輪船和飛機,但可靠的能源纔是支持遠行的動力。爲了高效的管理數據,AI應運而生。數據需要AI,AI需要數據,兩者相輔相成,相互影響。我們需要有充分的準確的數據,才能讓AI更加透明,更懂業務。

 

而對於人工智能而言,它不是孤立存在的,要想取得一個項目的成功,我們需要了解和掌握數據科學、機器學習和人工智能等不同的技術手段。假設我們正在製造一輛無人駕駛汽車,並且正在研究如何在停車標記處自動停車的具體問題。那麼我們將需要使用這三個領域的技能。

 

機器學習:汽車必須能夠通過攝像頭識別停車標誌、交通標識等。我們構建了數據集集,其中包含數以百萬計的街邊對象的照片,並訓練一種算法來預測哪些有停止標誌。

 

人工智能:一旦我們的汽車能夠識別停車標誌了,就需要決定什麼時候執行剎車動作。太早太晚都非常危險,而且我們需要它能應對不同的路況。

 

數據科學:測試中我們發現在某些特定場景下發現車輛性能不夠好,因爲總會略過一些停車標誌。這些是由夜間行車光線不足、前後車有遠光燈等原因導致識別率降低,可能需要構建一些特定場景和條件,又重新回到機器學習步驟進行研究測試。

 

▲數據科學,機器學習和人工智能三者相輔相成

 

 

 

無管理、不智能

▉ Informatica數據工程軟件助力AI成功

AI項目的成功並非一蹴而就,AI的應用前景取決於幾個核心因素:乾淨、有代表性和數量龐大,由於許多企業缺乏AI所必需的數據基礎,很難收集足夠的歷史數據支撐AI進行深度學習,因此願景實現的過程就變得抽象起來。

 

▲ AI團隊的工作流程,摘自《數據科學實戰》

 

AI項目的數據工程相當複雜,很多人認爲AI項目的難點在於有不同的機器學習算法、人工智能算法等。但是在數據分析人員、算法工程師、科學家等的眼中,反而是收集原始數據、處理數據、清理數據等,纔是難點,才叫挑戰。爲了使AI項目進展順利,AI項目團隊需要進行大量的準備工作,首當其衝的是如何進行原始數據的收集。而從收集原始數據到處理數據,數據建模、解決數據質量問題、清理數據這塊,這幾乎已經佔據項目全部工作量的80%了。

 

如何充分節省數據分析師/數據科學家整理數據的重複勞動的時間成本,使他們更加專注於商業價值提煉,從而加速企業的數字化轉型之路。Informatica重磅打造Data Engineering數據工程解決方案,通過“數據工程集成管理,數據工程流數據管理,數據工程質量管理和數據工程脫敏管理”,幫助數據科學家們擺脫繁重的數據整理重複工作,從容應對AI數據的挑戰,取得AI/分析成功的祕訣。

 

 

● 數據工程集成管理:幫助企業從不同的數據源(結構化或非結構化)集成數據,利用Informatica平臺進行數據處理後,將數據寫入目標端。

 

● 數據工程流數據管理:支持結構化或非結構化的流數據集成。

 

● 數據工程質量管理:進行數據質量探查,發現數據質量問題,重新定義數據質量規則,從而解決數據問題。

 

● 數據工程脫敏管理:屏蔽數據信息,脫敏關鍵數據,減少數據泄露的風險

 

時間就是金錢,要想取得AI項目的成功,完整的集合4大功能的Informatica數據工程解決方案可以幫助企業快速解決挑戰,且其具備以下核心優勢:

● Cloud-Ready雲就緒:

▷ 雲端就緒,幫助企業節省大量的時間去做硬件、軟件、環境等準備工作,讓企業更輕鬆地對數據進行流處理、攝取、加工、清洗、保護和治理

▷ 支持混合及多雲環境的機器學習能力,加快自助式分析過程

▷ 支持AWS、Azure和谷歌雲平臺

▷ 幫助企業治理和管理流入或流經企業內部部署及雲端數據湖環境的海量數據流

 

● No Code無需編碼:

▷ 圖形化的易於使用的開發界面,減少任務開發難度。

▷ 自動解析非結構化數據,消除數據定義和加速訪問企業數據。

 

● No Ops智能運維:

▷ 圖形化操作,減輕企業數據運維的壓力。

▷ 支持Azure Databricks,進行海量數據處理。

▷ 支持Spark高級特性,利用最新的創新、性能和規模效益進行數據治理。

▷ 利用Operational Insights,實現對數據工程環境的預測性洞察。

 

● No Limits On Data無需受限數據大小:

▷ 實時或者批量的獲取數據:流數據,IoT數據, 文件和數據庫數據。

▷ 批量生成開發任務,易於使用、快速和可伸縮的方法——無需手工編碼。

▷ 支持Spark Structured Streaming,根據事件時間而不是處理時間來處理流數據。

 

● AI/ML就緒的數據:

▷ 提供先進的數據準備。

▷ 豐富的數據準備函數。

▷ 提供數據集推薦和數據分類。

▷ 支持動態脫敏。

▷ 集成了對於AI/ML算法的支持

 

憑藉Informatica由AI賦能的數據工程解決方案,結合Informatica的數據目錄、數據準備等產品,從雲端或本地實現數據收集、數據分類、數據處理、數據質量效驗,自動掃描整個企業數據資產,加快企業AI項目進程,從而使數據科學家重新迴歸正軌,專注於挖掘數據資產的巨大潛力,實現數據資產價值的最大化。

 

想了解更多相信信息,請關注Informatica數據管理(微信號:InformaticaChina)

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章