看Kunpeng BoostKit 使能套件如何實現大數據場景倍級性能提升

原創

华为云开发者社区

2021-06-09 11:03

{"type":"doc","content":[{"type":"blockquote","content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"摘要：本次鯤鵬 BoostKit 訓練營爲開發者介紹如何基於鯤鵬 BoostKit 使能套件實現應用性能的加速，並重點剖析性能優化技術和關鍵能力。","attrs":{}}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"本文分享自華爲雲社區","attrs":{}},{"type":"link","attrs":{"href":"https://bbs.huaweicloud.com/blogs/277062?utm_source=infoq&utm_medium=bbs-ex&utm_campaign=other&utm_content=content","title":"","type":null},"content":[{"type":"text","text":"《【雲駐共創】“大鵬一日同風起”KunpengBoostKit 使能套件如何實現大數據場景倍級性能提升？》","attrs":{}}]},{"type":"text","text":"，原文作者：白鹿第一帥。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"前言","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在數據和經濟時代，業務和數據的多樣性需要新的計算架構，海量的數據增長也帶來了更高的計算需求。那麼在這個過程中，鯤鵬計算產業也正在成爲更多計算場景的新一代 IP 基座。基於華爲鯤鵬處理器構建的鯤鵬全棧 IT 技術實施設施行業應用以及服務，致力於爲智能世界持續提供我們的先進算力支持，使得各個行業可以實現數字化轉型。應用軟件的遷移與優化一直是鯤鵬軟件生態的難點和關鍵。本次鯤鵬 BoostKit 訓練營爲開發者介紹如何基於鯤鵬 BoostKit 使能套件實現應用性能的加速，並重點剖析性能優化技術和關鍵能力。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/b9/b9f46536759d2dfb74525b5b1f333bf2.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"一、開源大數據與鯤鵬多核結構淵源","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"1.1、海量數據處理的難題","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"隨着科技的發展，越來越多的行業需要採集更多的數據，如何","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"對海量數據進行分析並得出我們想要的結果就成爲了我們所面臨的難題","attrs":{}},{"type":"text","text":"，而大數據技術的迅速發展使得這個問題迎刃而解。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"1.2、大數據並行計算特點天然匹配鯤鵬多核架構","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"海量數據需要更高的併發度來加速數據處理，在數據集非常大的情況下，如果我們跑在單核（或者是順序化）的執行場景下，可能執行過程無法進行或者是效率極其低下，這是我們無法接受的，所以海量的數據需要更高的併發度來處理，那麼","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"鯤鵬多核計算的特點就可以完美匹配這個需求，加速大數據的計算性能，提升大數據任務的併發度。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們以 MapReduce 模型爲例進行處理和計算，如下圖所示，我們所採集的源數據是一段英文，我們需要計算這段話中每一個單詞所出現的次數。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/eb/ebf5b769e8d8cdceb088b08ae2e2d7b6.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"運行過程","attrs":{}},{"type":"text","text":"：首先我們對源數據進行拆分，然後 Map 映射到每一個節點上進行運算，之後進行 Sort 排序，Merge 合併，最後進行結果彙總 Reduce 以形成最終的結果。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"可以看到，我們將大量的計算分發到各個節點之上，這就是分佈式計算，也是我們所謂的“併發度”的概念。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"如果我們的併發度提高了，理論上來講，我們整個模型的執行時間也會相應縮短。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"二、開源大數據整體與組件介紹","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"上面我們介紹了開源大數據的概念以及相應的華爲鯤鵬多核計算的特點，下面介紹我們在大數據開發中經常會使用到的一些組件。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.1、大數據組件：Hadoop-HDFS 模塊","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"HDFS 是 Hadoop 生態的三個核心模塊組成之一，負責分佈式存儲。具體結構如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/5d/5d2b98a8c13df25e26601653bf722575.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"HDFS：是一種分佈式存儲系統，採用 Master 和 Slave 的主從結構，主要由 NameNode 和 DataNode 組成。HDFS 會將文件按固定大小切成若干塊，分佈式存儲在所有 DataNode 中，每個文件可以有多個副本，默認副本數爲 3。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"NameNode：Master 節點，負責源數據的管理，處理客戶端請求。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"DataNode：Slave 節點，負責數據的存儲和讀寫操作。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"使用流程","attrs":{}},{"type":"text","text":"：用戶如果想要讀取存儲在 HDFS 中的數據，需要先找到 NameNode，通過 NameNode 來得知我們的數據存放在哪個 DataNode 之上，當 NameNode 找到具體的數據之後，將數據返回給用戶。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.2、大數據組件：Hadoop-Yarn 模塊","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Yarn 是 Hadoop 生態的三個核心模塊組成之一，負責資源分配和管理。具體結構如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/bb/bbc16fe0a38e78a294c4d8cca8791786.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Yarn：是一種分佈式資源調度框架，採用 Master 和 Slave 的主從結構，主要由主節點ResourceManager、ApplicationMaster和從節點 NodeManager 組成，負責整個集羣的資源管理和調度。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ResourceManager：是一個全局的資源管理器，負責整個集羣的資源管理和分配。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"NodeManager：運行在 Slave 節點，負責該節點的資源管理和使用。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"ApplicationMaster：當用戶提交應用程序時啓動，負責向ResourceManager 申請資源和應用程序的管理，與NodeManager 進行互動。用戶在使用的情況下可以通過ApplicationMaster 得知當前任務的進度、已經執行到哪些 Job。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Container：Yarn 的資源抽象，是執行具體應用的基本單位，任何一個 Job 或應用程序必須運行在一個或多個 Container 中。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.3、大數據組件：Hadoop-MapReduce 模塊","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"MapReduce 是 Hadoop 生態的三個核心模塊組成之一，負責分佈式計算。具體結構如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/ca/ca46d413c794e5f4a8ab2ed6467b57c3.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"MapReduce：是一種分佈式計算框架，主要由 Map 和 Reduce 兩個階段組成。支持將一個計算任務劃分爲多個子任務，分散到各集羣節點並行計算。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Map 階段：將初始數據分成多份，由多個 Map 任務並行處理。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Reduce 階段：收集多個 Map 任務的輸出結果並進行合併，最終形成一個文件作爲 Reduce 階段的結果。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"2.4、大數據組件：Spark 平臺","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Apache Spark 是用於大規模數據處理的統一分析引擎，具有可伸縮性、基於內存計算等特點，已經成爲輕量級大數據快速處理的統一平臺，各種不同的應用，如實時信息流處理、機器學習、交互式查詢等，都可以通過 Spark 建立在不同的存儲和運行系統上。具體結構如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/94/94e3e65c836866829198ca0480edb3e2.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Apache Spark 核心：Spark Core 是 Spark 平臺的基礎通用執行引擎，其所有其他功能都是基於該平臺執行的。它提供了內存計算和外部存儲系統中的參考數據集。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Spark SQL：Spark SQL 是 Spark Core 之上的一個組件，它引入了一種名爲 SchemaRDD 的新數據抽象，他提供了對結構化和半結構化數據的支持。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Spark Streaming：SparkStreaming 利用 Spark Core的快速調度功能來執行流式分析。它採用小批量採集數據，並對這些小批量數據執行 RDD（彈性分佈式數據集）轉換。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"MLlib：MLlib 是 Spark 上面的分佈式機器學習框架，因爲它是基於分佈式內存的 Spark 體系結構。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Graphx：Graphx 是 Spark 頂部的分佈式圖形處理框架。它提供了一個用於表達圖形計算的 API，可以使用 Pregel 抽象 API 對用戶定義的圖形進行建模。它還爲此抽象提供了優化的運行時。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"三、鯤鵬 BoostKit 使能套件介紹","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"3.1、鯤鵬 BoostKit 是什麼？","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"BoostKit 是一個應用使能套件，並不只是由一個軟件包構成，而是由很多軟件包組成的。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"BoostKit 是","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"部署在鯤鵬整機（服務器）環境之上，往上搭建的一個全棧優化的使能套件","attrs":{}},{"type":"text","text":"。具體結構如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/b4/b442c524da4400398e2c6679aadb029a.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"鯤鵬應用使能套件 BoostKit，釋放倍級性能優勢，提供八大場景化應用使能套件：大數據、分佈式存儲、數據庫、虛擬化、ARM 原生、Web/CDN、NFV 和 HPC。在接下來的過程中，我們將其分爲三個部分依次介紹。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/0c/0c60605d0e9edc36a2f92f50fa7b4730.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"3.2、開源使能：開源軟件可用、好用","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/7c/7cba160cc07d0f56f3a22f7b81f622fe.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"華爲：貢獻開源、主導開源，使能主流開源軟件支持鯤鵬高性能。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"夥伴：從開源社區、鯤鵬社區獲取高性能開源組件，直接編譯/部署。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們以 Hadoop 爲例，首先需要讓 Hadoop 運行在鯤鵬服務器上，然而這遠遠不夠，還需要根據需求開發相關特性，以促使 Hadoop 在鯤鵬之上可以運行得更加完美、便捷，同時我們將研發的產品新特性合入、貢獻到開源社區。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"3.3、基礎加速：超越業界水平的應用性能","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"這一塊之所以被稱爲基礎，是因爲很多應用都會使用到該加速包，比如：NUMA 優化、KAE 加速庫、IO 智能預取等。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/38/38b41dc50166d1349b26772614d52027.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"華爲：提供基礎性能優化、基礎加速庫和加速算法等基礎加速軟件包和文檔，並對如何使用作出指導。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"夥伴：從鯤鵬社區獲取基礎加速軟件包，在鯤鵬創新中心指導下進行編譯、部署和性能優化。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"我們以 KAE 加速庫爲例，在使用過程中所使用到的如壓縮、加解密等相關功能，我們會加速這個功能，如果我們的上層應用有使用到壓縮、加解密等相關功能就都會有大幅的性能提升。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"3.4、應用加速：極致事務倍級應用性能","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/3f/3f167b0573d6490b6b46977e8eb74e45.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"華爲：提供應用創新加速組件、算法創新組件等應用加速軟件包和文檔。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"夥伴：夥伴與華爲開展聯合方案設計、開發和商業實踐。合作方式的變化隨加速功能而變。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"四、BoostKit 在開源使能上的結果","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"BoostKit 在開源社區中做了大量的投入，主要針對如下兩個方面，全面支持開源大數據組件，並實現了 ARM CI 在社區版本上的運行。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"4.1、全面支持開源大數據","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/3e/3ea2f72220450be71213b7d3396886c1.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"","attrs":{}}]},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"支持開源 Apache 大數據組件。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"支持開源 HDP 大數據組件及管理組件 Ambari。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"支持開源 CDH 大數據組件（注：CDH Manager 管理組件是閉源版本，當前不支持）。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"4.2、開源社區接納 ARM 生態","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/57/57b211b481b8c5770e5e8f742cab36b0.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"Hadoop、Hive、Hbase、Spark 和 Flink、ElasticSearch、Kudu 等核心組件的開源社區支持 ARM（注：Hadoop、ElasticSearch 開源社區已經提供官方版本的 ARM 軟件包）。推動了 ARM 開源軟件生態的發展。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"五、鯤鵬 BoostKit 如何應對大數據關鍵挑戰？","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"聚焦大數據關鍵挑戰，對於存在的痛點給出解決方案，讓數據處理更快、更簡單。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/fb/fbf096df8ce67d0c8710630928154120.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"5.1、遇到的問題","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"1. 多樣化查詢無法統一，效率低。Spark SQL、Hive 等查詢方式的不統一，導致查詢的效率降低。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"2. IO 密集型組件性能無法滿足要求。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"3. 磁盤 IO 存在瓶頸，HDFS 性能提升困難。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"4. 在數據採集過程中，由於數據是多種多樣的，多樣化數據格式，導致跨數據源讀取數據難。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"5. 數據非共享，跨數據中心取數難。在數據讀取的過程中，數據多存儲在不同的數據中心，無法實現共享，跨數據中心讀取數據就是一個難題。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"5.2、如何應對關鍵挑戰？","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"針對問題 1、4、5。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"採用跨源跨域查詢加速","attrs":{}},{"type":"text","text":"。採用openLooKeng 虛擬化引擎統一數據入口，支持跨源、跨域分析，查詢性能倍級提升。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"針對問題 2。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"採用 Spark 性能加速","attrs":{}},{"type":"text","text":"。原生機器學習/圖算法深度優化，Spark 性能倍級提升。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"針對問題 3。","attrs":{}},{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"採用 HDFS 性能加速","attrs":{}},{"type":"text","text":"。IO 智能預取，高效取數，Spark/Hbase性能提升 20%。","attrs":{}}]}]}],"attrs":{}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"六、BoostKit 機器學習/圖算法的深度優化","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"6.1、算法深度優化實例","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"BoostKit 機器學習/圖算法基於原生算法深度優化，促使 Spark 性能得到倍級提升，現在已經被應用到華爲的夥伴業務之中，如下圖所示的兩個實際場景，在海量的數據集中，分別使用機器學習和圖分析的算法進行建模，我們可以看到模型訓練時長有大幅度的縮短，性能得到極大提升。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/f8/f8a591a62ec6475fe6bafd6070e927cb.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"BoostKit 機器學習/圖算法的優化使得在實際應用場景中，計算性能平均提升 5 倍，而上層應用無需修改！","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"6.2、鯤鵬算法庫","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"包括上面所提到和使用的機器學習 GBDT 算法、圖分析 PageRank 算法在內，鯤鵬算法庫已交付 20+ 算法，涵蓋常用算法類型。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/07/07b19b3d822f185966c681cd2454c7f1.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"保持與原生 Spark 算法完全一致的類和接口定義，無需上層應用做任何修改，只需要在提交任務時加入算法包即可。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"採用網絡公開的多維度多規模數據集算法性能提升 50%~10 倍以上。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/70/7022c2f42bd5703bc376a29251084f6f.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"七、BoostKit 做了哪些深度優化？","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"7.1、鯤鵬親和性優化效果","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"關鍵優化點：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"Communication-avoid","attrs":{}},{"type":"text","text":"，減少了不必要節點之間的數據通信。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","marks":[{"type":"strong","attrs":{}}],"text":"多核並行計算","attrs":{}},{"type":"text","text":"。利用鯤鵬自身優勢，提高了算法多核並行度，提高數據並行度與模型並行度，降低了通信 Shuffle 的瓶頸，以實現訓練速度的提升。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/71/71d68d8b71475342b379e2c937af54e7.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在同等計算精度，不同的數據集下，支撐機器學習算法（Covariance、Pearson、Spearman），性能提升超過 50+%，如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/4a/4ac5177b3e341ba21f6be7b783fb0288.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"7.2、機器學習算法優化方案：分佈式 SVD 算法","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"SVD 算法即奇異值分解算法，是線性代數中常用的的矩陣分解算法。SVD 算法不光可以用於降維算法中的特徵分解，還可以用於推薦系統，以及自然語言處理等領域，是很多機器學習算法的基石。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/cf/cfe51744beadd819eb4fc4ebd1dee78f.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/70/709f11724ad1da275f5051827140cf05.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對於傳統的 SVD 算法，我們也在之上進行了創新，如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/42/42dc2e22cbbdc263fae8d45e4d1c813c.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"7.3、圖分析算法優化方案：分佈式 PageRank 算法","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"PageRank 算法，即網頁排名算法，又稱網頁級別算法、Google 左側排名算法或佩奇排名算法。該算法是對搜索引擎搜索出來的結果、網頁進行排名的一種算法，本質上是一種以網頁之間的超鏈接的個數和質量作爲主要因素粗略地分析網頁重要性的算法。即更重要的網頁會被更多其他的網頁所引用，根據引用的鏈接計算出每個網頁的 PR 值。網頁的PR值越高則說明該網頁越重要。PageRank 是 Google 用於用來標識網頁的等級/重要性的一種方法，是 Google 用來衡量一個網站的好壞的唯一標準。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/2a/2a81af73f88c19d5fc1fa8db425f6f2d.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如上圖所示，我們將每一個網頁看做一個點，網頁與網頁之間的連接看成一條邊，如此，便構成了圖的數據結構。我們就將對這個圖的數據結構進行處理。那麼我們如何進行優化呢？","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"bulletedlist","content":[{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"內存佔用優化：基於稀疏壓縮的數據表示，使得算法的內存佔用下降 30%，有效解決大數據規模下的內存瓶頸問題。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"收斂檢測優化：簡化收斂檢測過程，使整體任務量減少 5%~10%。","attrs":{}}]}]},{"type":"listitem","attrs":{"listStyle":null},"content":[{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"全量迭代+殘差迭代組合優化：有效降低前期數據膨脹帶來的 shuffle 瓶頸，整體性能可提升 0.5X~2X。","attrs":{}}]}]}],"attrs":{}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/1c/1c3f15db7b15898e2046aa4392e410bb.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"如上圖所示，在優化之後，通過算法計算模式的自適應切換，整體 shuffle 量減少 50%，性能較優化前平均提升 50%+。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"八、鯤鵬 BoostKit 機器學習&圖算法的 Spark 性能加速實踐","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"鯤鵬 BoostKit 機器學習&圖算法的 Spark 性能加速實踐可以在華爲雲平臺上的“沙箱實驗室”進行。","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"8.1、環境準備","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在實驗進行之前，首先會預製環境，如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/a5/a5ece05ac08a3eb7fd01204aaf774dbe.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"8.2、環境配置","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"由於我們的本算法是運行在 4 節點的集羣上上，即運行在 4 臺 ECS上，所以預製環境的過程可能較長，需要在雲服務器上完成某些組件的配置，時間大概爲三分鐘左右。如下圖所示，我們可以看到一個主節點和三個從節點。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/d7/d776840a5edce6c665df3f09402ec390.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"8.3、部署 Hadoop、Spark 等組件","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"在預製環境的過程中，已經完成了部分 Zookeeper 的相關配置，我們只需要登陸每一個 agent 節點並進行少量的配置即可啓動 Zookeeper，具體流程如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/79/794dfe0b5831d08581c86d3f443b16a0.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對於 Hadoop 同理，預製環境時，已經完成 Hadoop 的安裝與 Hadoop 在 server 節點的配置，對於 agent 節點，我們只需要在計算節點上少量配置，在 agent 端啓動 JournalNode，在 server 端啓動 Hadoop 其他組件即可，具體流程如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/f7/f77f21eea381f5940ce38539eab24671.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"對於 Spark，系統並沒有作相關的部署，僅僅是把 Spark 下載到了集羣上，之後需要我們添加 Spark 環境變量、修改 Spark 配置文件，同步到其他節點並進行任務提交，具體流程如下圖所示：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/8d/8d6ac30815169f479085a4f2946920c2.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"8.4、算法庫優化效果運行實踐","attrs":{}}]},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"8.4.1、運行 SVD 算法","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"調用算法庫，代碼如下：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"text"},"content":[{"type":"text","text":"sh bin/ml/svd_run.sh D10M1k","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不調用算法庫，代碼如下：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"text"},"content":[{"type":"text","text":"sh bin/ml/svd_run_raw.sh D10M1k","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":2},"content":[{"type":"text","text":"8.4.2、運行 PageRank 算法","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"調用算法庫，代碼如下：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"text"},"content":[{"type":"text","text":"sh bin/graph/pr_run.sh cit_patents run","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"不調用算法庫，代碼如下：","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"codeblock","attrs":{"lang":"text"},"content":[{"type":"text","text":"sh bin/graph/pr_run_raw.sh cit_patents run","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"由於算法當前的默認參數沒有完全利用 ECS 集羣的資源，所以需要對 Spark 層的參數進行調優。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"image","attrs":{"src":"https://static001.geekbang.org/infoq/1b/1bf40a3d05078d420562b14292aa8865.jpeg","alt":null,"title":null,"style":[{"key":"width","value":"75%"},{"key":"bordertype","value":"none"}],"href":null,"fromPaste":true,"pastePass":true}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"heading","attrs":{"align":null,"level":1},"content":[{"type":"text","text":"總結","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"text","text":"面向多樣性計算時代，華爲全面開放鯤鵬全棧能力，分享多樣性計算工具套件：鯤鵬應用使能套件 KunpengBoostKit 和鯤鵬開發套件 KunpengDevKit，加速產業創新，使能極簡開發，攜手夥伴一起構建鯤鵬計算產業生態。本系列課程主要針對鯤鵬開發者及 ISV 合作伙伴，幫助您快速瞭解 BoostKit 鯤鵬應用使能套件支持下的 8 大場景的最佳能力和實踐、鯤鵬全研發作業流程工具套件 KunpengDevKit 和鯤鵬基礎軟件開源等相關內容，與全球開發者一起共同點亮多樣性計算新時代。","attrs":{}}]},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null}},{"type":"paragraph","attrs":{"indent":0,"number":0,"align":null,"origin":null},"content":[{"type":"link","attrs":{"href":"https://bbs.huaweicloud.com/blogs?utm_source=infoq&utm_medium=bbs-ex&utm_campaign=other&utm_content=content","title":"","type":null},"content":[{"type":"text","text":"點擊關注，第一時間瞭解華爲雲新鮮技術~","attrs":{}}]}]}]}

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

BlackHat ASIA 議題解讀 | 安卓Netlink內核模塊中隱藏的“傳送門”

作者：百度安全-AIoT安全團隊 Chao Ma, Han Yan, Tim Xia 隨着安卓系統的流行，Netlink作爲Linux內核與用戶態進程之間的一種通信機制，被廣泛應用在安卓操作系統內核模塊中，但其使用的安全性卻未得到足夠

2024-05-13 21:42:48

TiDB + ES：轉轉業財系統億級數據存儲優化實踐

以下文章來源於轉轉技術，作者戴美琪導讀本文詳細介紹了轉轉業財系統億級數據存儲優化的實踐。面對系統數據量大、慢查詢多等挑戰，轉轉業財採取了 TiDB 方案優化數據量問題，同時引入 Elasticsearch（ES）解決慢查詢難題。實踐表

2024-05-13 11:16:34

2024 開源之夏｜報名 NebulaGraph 項目，領取你的 ¥12,000 獎金

滴滴滴~ NebulaGraph 今年再次參與由中科院軟件所“開源軟件供應鏈點亮計劃”發起的開源之夏啦！關於開源之夏 “開源之夏”（簡稱 OSPP）是中國科學院軟件研究所發起的“開源軟件供應鏈點亮計劃系列”暑期活動，旨

2024-05-13 03:51:52

開源敏捷開發項目管理軟件有哪些？對比8款敏捷開發工具

無論是從國內的敏捷調研開發調研報告還是從國外的敏捷狀態調查，工具支持一直是決定敏捷成功的關鍵因素之一，它們可以幫助團隊提高軟件開發的效率、質量、協作和滿意度。選擇合適的敏捷開發管理工具，並正確地使用它們，是每個敏捷團隊的必備技能。下面我們

2024-05-13 02:37:02

Spring AOP 中被代理的對象一定是單例嗎？

今天我們來思考這樣一個問題：在 Spring AOP 中，被代理的對象是單例的嗎？當我們每次獲取到代理對象的時候，都會重新獲取一個新的被代理對象嗎？還是被代理的對象始終是同一個？爲什麼要思考這個問題，因爲在松哥接下來要講的 @Scope

2024-05-13 02:20:48

使用NPS自建內網穿透服務器教程，帶WEB管理

自帶WEB管理的輕量級內網穿透工具NPS的各種搭建方式和使用教程，支持X86、ARM、MIPS平臺。 NPS介紹 nps是一款輕量級、高性能、功能強大的內網穿透代理服務器。目前支持TCP、UDP流量轉發，可支持任何tcp、udp上層協議（訪

2024-05-13 02:05:53

輕鬆掌握ArkTS！鴻蒙新作《鴻蒙HarmonyOS應用開發入門》簡介

《鴻蒙HarmonyOS應用開發入門》由清華大學出版社出版，已於近期上市。該書基於HarmonyOS 3.1 ArkTS編寫，所有示例採用了比較新的API 9，可謂是目前市面上最新的鴻蒙力作。本文對《鴻蒙HarmonyOS應用開發入門》一

2024-05-13 00:24:45

外行也能讀懂的網絡硬件設備功能原理速成

本文由黃工首先發表於strongerHuang公號，原題“網絡硬件的發展史”，本文有修訂。 1、引言本文是《網絡編程懶人入門》系列文章的第 15 篇，本篇將繼續以通俗易懂的文字，幫你無腦理解各種基礎網絡硬件設備的功能原理。本文不羅列複

2024-05-12 23:49:34

Impala數據文件的碎碎念

Impala目前支持Hadoop中幾種常見的文件格式 Parquet 、 ORC 、 Text 、 Avro 、 RCFile 和 SequenceFile 。下面簡要說明各種格式的使用、限制和一些注意事項。不同的文件格式有着不同的適用場

2024-05-12 21:38:18

一文了解基於 ITIL 的運維管理體系框架

ITIL（Information Technology Infrastructure Library）是全球最廣泛使用的 IT 服務管理方法，旨在幫助組織充分利用其技術基礎設施和雲服務來實現增長和轉型。優化 IT 運維，作爲企業運營的關鍵環

2024-05-12 00:51:06

IPD是什麼？如何組建IPD（集成產品開發）團隊？

IPD（集成產品開發）模式一大特點是，項目不是由某一個，或某幾個部門推動完成的，而是由項目各主要參與方共同組建成爲新的團隊來協作完成。成員間首先通過多方協議的形式確立合作關係，爲參與方指定統一的目標，將各參與成員的利益與項目目標和結果強關聯

2024-05-11 15:24:55

Java程序員5面阿里終獲offer，感慨：原來阿里面試這麼嚴

坊間傳言的阿里P6招聘需求感覺面試還是主要圍繞簡歷來問的，所以不熟悉的東西最好不要隨便寫上去。項目和基礎都很重要，項目中最好有難點，能夠體現自己解決問題的過程和思路。電話面：自我介紹事務的特性 ACID ，

2024-05-11 14:54:29

詳解GaussDB(DWS)中的行執行引擎

本文分享自華爲雲社區《GaussDB(DWS)行執行引擎詳解》，作者：yd_227398895。 1.前言 GaussDB（DWS）包含三大引擎，一是SQL執行引擎，用來解析用戶輸入的SQL語句，生成執行計劃，供執行引擎來執行；二是執行引

2024-05-11 11:30:53

帶你熟悉CCE集羣增強型CPU管理策略enhanced-static

本文分享自華爲雲社區《華爲雲CCE集羣增強型CPU管理策略enhanced-static》，作者：可以交個朋友。背景開源Kubernetes默認提供的CPU管理策略有none和static兩種： none：不開啓CPU管理策略，

2024-05-11 11:30:50

淺析MySQL代價模型：告別盲目使用EXPLAIN，提前預知索引優化策略| 京東零售技術團隊

背景在 MySQL 中，當我們爲表創建了一個或多個索引後，通常需要在索引定義完成後，根據具體的數據情況執行 EXPLAIN 命令，才能觀察到數據庫實際使用哪個索引、是否使用索引。這使得我們在添加新索引之前，無法提前預知數據庫是否能使用期望

2024-05-10 12:41:34

24小時熱門文章

最新文章

最新評論文章