William McKnight關於數據平臺和創建現代數據架構的見解

在上週舉行的數據架構2018年峯會上,William McKnight就使用不同的數據平臺創建現代數據架構做了主旨演講

他以討論組織的數據成熟度和業務成功之間的高度相關性開始了他的演講。組織的數據架構越成熟,業務就越成功。成熟度較低的組織往往會把數據分散於不同的信息孤島中。他分享了一些來自2018年“互聯網分鐘(Internet Minute)”中所發生的事情的統計數據,在互聯網上每分鐘發送1億8700萬封電子郵件和1800萬條短信,進行370萬次搜索查詢等等。

人工智能(AI)是一股顛覆性的力量,而數據則是這場革命的基石。行業中出現了新的數據集:生物數據(Bio Data)。如果將生物數據和環境數據(如位置等)結合在一起,那麼你將擁有進行數據分析的所有信息。

他談到了數據培養和像數據倉庫(data warehouse)和數據湖(Data Lake)這樣的解決方案如何幫助完成數據工作。數據架構師也需要在HDFS和雲存儲之間做出選擇。HDFS具有更好的查詢性能,而云存儲的擴展性、持久性和可用性更好,並且成本更低。

通過比較關係數據庫和nosql數據庫的數據大小和工作負載複雜性,McKnight討論了即可使用的大數據平臺的選擇。

另外,他也談到了NewSQL數據庫,該數據庫可擴展、兼容ACID並支持分片。這些數據庫正被用於資本市場數據輸入、金融交易、電信記錄流和欺詐檢測。

數據庫的雲部署提供了一些好處,包括按需和自助服務數據管理、廣泛的網絡訪問、資源彙集、快速彈性和可測量的服務。

傳統的ETL技術不足以用於企業範圍內運行的數據平臺。有各種各樣的數據源,並且數據是實時流式傳輸的。數據架構應該考慮這些需求的流處理

企業數據虛擬化提供了對所有結構化和半結構化數據持續及時的訪問,這些數據來自組織內不同的數據源,如數據倉庫、市場、多維數據集、操作數據存儲(operational data stores,簡稱ODS)、事務源和文件系統。

他建議,數據專業人員在這次數據架構轉型旅程中進行他們的挑戰,應該做好進行長期戰役的準備,可能會失敗幾次才能最終獲得成功。將您的數據體系結構工作與應用程序預算和路線圖項目結合起來,以便在數據架構實施方面取得進展。

McKnight對其演講進行了總結,建議數據專業人員在需要高性能的數據管理解決方案的地方考慮使用內存數據庫,並考慮未來使用GPU數據庫和混合數據庫。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章