圖書簡介:Greenplum從大數據戰略到實現

Greenplum:從大數據戰略到實現
在這裏插入圖片描述
作者: 馮雷 / 姚延棟 / 高小明 / 楊瑜
出版社: 機械工業出版社
出版年: 2019-7
頁數: 407
定價: 119
裝幀: 平裝
叢書: 大數據技術叢書
ISBN: 9787111632160

數字原生
2010年11月,在Greenplum創始人的支持下,我們在北京建立了Greenplum中國研發體系。2013年4月,隨着Pivotal公司的建立,我們在Greenplum中國研發的基礎上合併了部分VMWare中國研發集團的P層雲資產,建立了Pivotal中國辦公室。截至本書完稿的時候,我們的中國核心研發團隊和全球研發團隊一起奮鬥了8年,打造的Cloud Foundry產品和Greenplum產品成爲Pivotal公司在紐約證券交易所上市榮登PaaS第一股的基礎。作爲Pivotal中國辦公室的創始團隊,我們一直在審視和提升Pivotal中國辦公室的使命和願景。高尚的使命和願景是促使一個機構達到世界一流水平的必要條件,因爲使命和願景比戰略更高一層。一個機構在前進的過程中,其戰略不可避免地需要調整。在面對戰略調整時,如果組織成員缺乏共同的使命和願景,就很難在變化中存活下來。以PC行業爲例,蘋果公司由最初的蘋果電腦公司(Apple Computers)發展到今天蘋果(Apple)公司,業務也從以PC爲重心遷移到以移動和雲服務爲重心。蘋果公司的轉型一路顛簸但最終成功,這與它們堅持藝術和科技的融合並提供一流的用戶體驗的使命是分不開的。對於不少沒有完成轉型的PC企業,仔細觀察一下,會發現它們通常不能清楚地表達自己的使命。
那麼Pivotal中國辦公室的使命是什麼?簡單地說,是支持全球Pivotal產品和商業戰略的成功。但是,這個回答顯然不能說服和召集一批學霸把Pivotal中國辦公室變成世界一流的創新機構。作者有幸參與Pivotal公司在EMC和VMWare內部的啓動倡議(Pivotal Initiative),聆聽到董事長Paul Maritz先生對Pivotal宣言(Manifesto)的解讀。中國讀者可能還不熟悉Maritz先生,根據維基百科的介紹,他是微軟Windows平臺的主要執行團隊成員,負責過Windows 95和Windows NT等關鍵產品。在創建Pivotal之前,Maritz先生是VMWare公司的CEO,奠定了VMWare在虛擬化和I層雲的行業領導地位。鑑於Maritz先生在業內的聲望,作者仔仔細細閱讀了他撰寫的三頁紙篇幅的Pivotal宣言,並且思考了Pivotal中國辦公室如何既能擁抱Pivotal宣言又能在自己專注的領域成爲國內意見領袖。今天,Pivotal的使命用一句話描述就是“The Way The Future Gets Built”,用中文直接翻譯過來就是“構建未來的方式”。這句話顯得有些抽象,所以在Pivotal中國辦公室的日常事務中,我們會針對不同的團隊來細化這句話:對於面向數字化轉型客戶的Pivotal Lab團隊,這句話被表述爲“交付一流的數字化轉型體驗”;對於雲研發團隊,這句話被表達爲“通過Cloud Foundry雲平臺成爲雲原生平臺的行業標杆”;對於數據庫研發團隊,這句話被闡述爲“通過Greenplum成爲大數據平臺和機器學習的意見領袖”。這些使命背後的共同願景就是提供“數字原生”世界的新產能,以及企業建立數字化所需要的軟件平臺和方法論。
數字原生就是從由物理世界爲重心向數字世界爲中心遷移時思考問題的方式。數字計算機發明之前,我們幾乎沒有什麼數字資產和技術。數字計算機發明至今,我們對於數字資產的積累呈指數級增長,在我國更是呈現出跨越式發展的態勢。舉個例子,今天,如果我們出門不帶手機,就會感覺寸步難行,本質上是因爲手機已經成爲我們進入數字世界的入口。通過手機,我們可以向數字世界發出各種請求,調度物理世界的資源爲我們所用。Pivotal公司喜歡以“ask+綜合部門@pivotal.io”的郵件方式來獲得綜合部門的支持。早期行政部門的同事剛加入Pivotal公司的時候常問我:“爲什麼不面對面請求,或者打個電話,又或者開個單子?”我的回答是這幾種方式看似差別不大,但反映了思考問題方式的差別。Pivotal公司作爲數字化的領導者,把軟件和數據平臺看作數字世界的入口。我們獲取資源的方式是向這個數字世界發出請求。數字世界可能通過它的計算找到最優執行路徑。有些工作的執行可能還需要轉發給人進行人工處理,例如安裝一臺打印機。但是,有些請求則可以直接通過軟件方式解決,例如申請一臺雲服務器。對於某些請求,雖然我們今天還無法完全以全數字化、無人干預的方式完成,但是,我們可以先把數字原生的框架奠定起來,爲以後的進一步對接和持續改進做好準備。在作者看來,數字原生的持續改進過程分爲三個階段:
1)軟件公司:通過數字應用實現數字世界和物理世界的無縫交互。
2)數據公司:通過大數據平臺實現數據積累和數學模型運行支撐。
3)數學公司:通過數學模型的持續改進來最優化數字世界和物理世界資源。
因此,作者和團隊希望能夠以三部對應的著作(下面簡稱爲“數字化三部曲”)在數字原生的征程上爲讀者提供戰略參考和對應的軟件平臺及工具指導。
第一部曲:《Cloud Foundry:從數字化戰略到實現》—這本書的主要目標是闡述企業如何實現數字原生第一階段:實現數字化應用。該書討論了雲計算作爲第三代技術平臺帶來的商業模式變更。在雲計算的技術棧中,P層雲帶動了企業數字化浪潮。傳統企業通過P層雲可以迅速獲得頂級互聯網公司的軟件迭代和發佈速度,把與客戶的交互通過消費級的應用數字化。書中例舉福特公司通過FordPass建立了以汽車實體產品爲核心的一系列用戶數字化體驗:汽車金融、遠程監控車輛、停車位預留、旅途產品和服務推薦等。這個階段也是一個持續改進的過程。以共享出行爲例,今天用戶通過手機平臺進入數字世界,在打車應用中發送訂單。打車平臺通過選擇最優執行路徑,把訂單發送給打車平臺的司機。然後,司機在物理世界中驅車到達用戶起點。隨着有輔助的無人駕駛技術的成熟,這個數字世界的運行鏈條會繼續延長,數字平臺可以直接把無人車派送到用戶起點。在其他的行業,數字應用的鏈條同樣也在持續延長。
第二部曲:《Greenplum:從大數據戰略到實現》(也就是本書)—我們的主要目的是闡述企業如何實現數字原生的第二階段:大數據平臺。隨着數字應用的鏈條不斷延長,企業需要一個大數據平臺來積累應用生成的數據。這個工作聽上去很容易,因爲人們很早以前就使用磁帶來存儲數據,之後,存儲媒介發生了巨大的變化,能夠便捷地存儲大量數據。那麼爲何還需要Greenplum這樣一個大數據和機器學習平臺?原因有兩個:1)量大;2)快速計算。說到大,當數據量達到PB級別(相當於16000個64GB的iPhone中存儲的數據)時,企業利用廉價但是可靠的存儲來備份和管理是非常困難的。說到快,想象讓用戶從16000個iPhone的數據中尋找一張5年前的照片就可以感受到大海撈針般的困難;更何況企業的數據平臺要支撐的機器學習和人工智能的數學模型的複雜度要比尋找一張照片的複雜度高几十到幾萬倍。可見,要想用極快的速度處理如此海量的數據是極其困難的。這也是企業在構建大數據平臺時步履維艱的原因。Greenplum團隊的優秀專家用企業積累了15年的知識和創新來解決這些難題:如何利用低價的存儲設備來實現高可靠的數據存儲?數據的存儲如何爲今天模型的計算做準備?如何給模型提供簡單但又標準的接口?數據管理如何在“便於存儲”和“便於日後查找”之間取得平衡?如何利用現在的I層雲計算資源?如何訪問文本和地理位置信息等各種數據源?如何訪問和計算存儲在其他系統(例如Hadoop)的數據?如何支撐今天主流的人工智能和機器學習模型?我們在創新過程中觸碰到了很多計算機科學本身的極限。希望這本著作能給讀者呈現一個解決了上述問題並可以實操的大數據平臺和戰略。
我們還在醞釀的第三部著作希望能幫助讀者更好地實現數字原生的第三階段:機器學習和人工智能。企業通過第一階段和第二階段的努力捕獲和存儲了大量的數據。爲了更好地理解用戶的需求,不少企業進入了更高階的數字化戰略:大數據驅動的機器學習和人工智能。在這個階段的競爭中,企業會增設一個新的崗位:數據科學家。數據科學家會在大數據平臺上創造和優化數學模型,以期待改進數字世界和物理世界的運作來更好地爲人服務。前兩部曲提供了軟件工具和方法論以幫助企業成爲基於大數據的人工智能和機器學習戰略的數學公司,不少企業在實踐過程中希望作者能夠分享實踐案例並就企業領導力轉變提供諮詢。考慮到這樣一本著作的出版需要兩年以上的時間,碰巧出版社和作者看到了頂級大數據諮詢公司Booz Allen Hamilton的兩位高管收集了大量實際案例的著作《The Mathematical Corporation: Where Machine Intelligence and Human Ingenuity Achieve the Impossible》,其中關於“數學公司”的提法和作者的觀點不謀而合。通過出版社的努力,作者和團隊把這部著作翻譯成中文著作,可以作爲第二部曲的伴侶著作來閱讀。
雖然數字原生第三階段的探討還在創新者和早期用戶者羣體中進行,但是第二階段大數據平臺的建設已經在中國如火如荼地展開。大數據平臺在數字原生三部曲中扮演了承上啓下的關鍵角色,中大型的公司已經將大數據納入信息平臺的建設方案中。Greenplum因爲開源生態和傑出的創新能力被列爲方案的候選技術選項,這也使Pivotal中國辦公室的同事們倍感欣慰。伴隨Greenplum生態的持續發展壯大,希望這部著作能給企業高層制定戰略提供建議和參考,既幫助工程團隊開發應用,又能指導運營團隊運維和保障。

本書內容組織方式
Greenplum經過15年的精心打磨,成爲出色的開源MPP數據庫和數據處理基礎平臺,已應用於銀行、保險、證券、電信、物流、安保、零售、能源和廣告等行業。我們希望本書能給已經建立或者準備建立大數據平臺的企業決策者、架構師、開發人員、數據工程師、數據科學家和數據庫管理員帶來幫助,也希望從事大數據科研工作的教育工作者和學生能從中受益。
本書分爲四個部分。
第一部分介紹大數據戰略。其中,第1章將分享作者對於ABC(人工智能、大數據和雲計算)之間關係的理解以及對人和人工智能的思考。第2章將介紹進取型企業爲什麼需要大數據戰略以及如何建立大數據戰略。
第二部分介紹大數據平臺。其中,第3章將以數據平臺演進歷史和未來趨勢爲主題,描述三次整合的背景及影響,介紹選擇大數據平臺需要考慮的因素,以及爲什麼Greenplum是理想的大數據平臺。第4章爲Greenplum數據庫快速入門指南。第5章將介紹Greenplum架構的主要特點和核心引擎。第6章將介紹數據加載、數據聯邦和數據虛擬化。第7章將介紹Greenplum的資源管理以及對混合負載的支持。
第三部分介紹機器學習與數據分析。其中,第8章介紹Greenplum的各種過程化編程語言(用戶自定義函數),用戶可以使用Python、R、Java等語言實現用戶自定義函數,還可以通過容器化技術實現自定義函數的安全性和隔離性。第9章將介紹Greenplum內建的機器學習庫MADlib,數據科學家可以使用內建的50多種機器學習算法基於SQL對數據進行高級分析,並介紹如何擴展MADlib以實現新算法。第10章和第11章將分別介紹Greenplum如何對文本數據和時空數據(GIS)進行存儲、計算和分析。第12章將介紹Greenplum豐富的圖計算能力。
第四部分介紹運維管理和數據遷移。其中,第13章將介紹各種監控和管理工具及相關企業級產品。第14章介紹數據庫備份、恢復和遷移。第15章和第16章將分別介紹如何從Oracle和Teradata遷移到Greenplum。
限於作者學識,本書難免有疏漏之處,懇請同行和各位讀者批判指正,我們將不勝感激。您可以通過數字化三部曲的官網(DigitX.cn)或Greenplum中文官方社區(greenplum.cn)給我們留言並瞭解Greenplum的技術信息、獲得著作的相關學習資源。

作者簡介 · · · · · ·
馮雷(Ray Feng)
Pivotal中國常務董事(Managing Director)兼研發中心總經理。Pivotal中國成立至今,馮雷主持了近十億人民幣投資的中國運營和研發體系。作爲Pivotal全球產品關鍵領導人,爲Pivotal公司的數字化理念建立及其對應的Cloud Foundry和Greenplum產品提供戰略輸入。馮雷於2010年從美國硅谷歸國,在世界500強公司EMC旗下組建了Pivotal中國。在歸國之前,馮雷曾在500強企業甲骨文(Oracle)總部從事雲計算產品研發。作爲雲計算早的一批從業人員,幫助甲骨文雲計算資源調度領域成爲意見領袖。擁有多項雲計算專利。

姚延棟
Pivotal中國研發中心副總裁,在Pivotal公司全球範圍內爲Greenplum技術發展路線提供戰略輸入。聯合創建了Pivotal中國研發中心,發起了Greenplum中國開源社區,奠定了包括阿里雲、騰訊雲和百度雲在內的廣大開源Greenplum用戶羣。在Pivotal中國招募並建設了Greenplum和HAWQ團隊成爲大數據和機器學習的意見領袖,培養團隊成員同時成爲Apache和Greenplum代碼提交者。在創建Greenplum/Pivotal中國之前, 曾在Sun Microsystem 與 Symantec 系統和存儲部門工作多年。擁有多項國內外雲計算和大數據專利。

高小明
Pivotal中國研發中心Greenplum產品總監,先後參與和負責數據分析協作平臺Chorus、開源PaaS雲平臺Cloud Foundry、MPP數據庫Greenplum等產品的開發、運維和技術推廣。目前着重關注PaaS雲平臺與大數據平臺支撐下的數字化轉型、微服務架構以及容器化與混合負載給數據產品帶來的機遇和挑戰。

楊瑜
Pivotal中國研發中心Greenplum工程技術總監,長期從事 Greenplum 內核的研發和管理工作,先後參與和負責基於Greenplum內核的機器學習庫MADlib的研發、Greenplum 內核和PostgreSQL內核持續歸併等工作,並參與組建Greenplum文本挖掘引擎GPText團隊,有豐富的一線內核研發經驗。

目錄 · · · · · ·

前 言
第一部分 大數據戰略
第1章 ABC:人工智能、大數據和雲計算 2
1.1 再談雲計算 2
1.1.1 雲計算由南向轉爲北向 2
1.1.2 P層雲的精細化發展 3
1.1.3 大數據系統在雲中部署不斷朝南上移 4
1.2 大數據 5
1.2.1 從CRUD到CRAP 5
1.2.2 MPP(大規模並行計算) 7
1.2.3 大數據系統 8
1.2.4 當大數據遇到雲計算 10
1.3 人工智能 11
1.3.1 模型化方法 12
1.3.2 AI的發展史 14
1.3.3 對AI應用的正確預期 15
1.4 ABC之間的關係 16
1.5 AI和人 18
1.5.1 經驗與邏輯 18
1.5.2 公理化的邏輯系統 21
1.5.3 圖靈機和可計算數 25
1.5.4 認知邊界上的考量 28
第2章 建立基於大數據的高階數字化戰略 32
2.1 基於雲原生應用的數字化戰略 32
2.2 大數據和AI:企業未來的終極
競爭點 34
2.3 大數據戰略的落地 36
2.3.1 大數據和AI人才 36
2.3.2 AI驅動的開發方法和文化 37
2.3.3 大數據基礎設施的建設 39
2.4 大數據和AI的展望 41
第二部分 大數據平臺
第3章 數據處理平臺的演進 45
3.1 前數據處理時代 45
3.2 早期的電子數據處理 47
3.2.1 電子計算機的出現 47
3.2.2 軟件 47
3.3 數據庫 49
3.3.1 數據模型 50
3.3.2 數據獨立性和高級數據處理語言 54
3.3.3 數據保護 57
3.3.4 數據庫早期發展過程中的困境 57
3.4 NoSQL數據庫 58
3.4.1 NoSQL出現的背景 58
3.4.2 NoSQL產品的共性 60
3.4.3 NoSQL的分類 61
3.5 SQL數據庫的迴歸 62
3.5.1 NoSQL與SQL的融合 62
3.5.2 Hadoop不等於大數據 63
3.5.3 SQL從未離開 64
3.6 集成數據處理和分析平臺 65
3.6.1 數據類型 65
3.6.2 業務場景 66
3.6.3 集中還是分散 67
3.7 數據平臺的選型 68
3.8 小結 69
第4章 Greenplum數據庫快速入門 72
4.1 Greenplum數據庫的發展和現狀 72
4.2 Greenplum數據庫的特性 73
4.3 Greenplum數據庫的組成 75
4.4 Greenplum數據庫的安裝與部署 76
4.4.1 準備工作 76
4.4.2 安裝Greenplum 77
4.4.3 初始化Greenplum數據庫 80
4.5 Greenplum數據庫的常用操作 82
4.6 Greenplum數據庫的常用命令 83
4.6.1 gpstart 83
4.6.2 gpstop 83
4.6.3 gpstate 83
4.6.4 gpactivatestandby 84
4.6.5 gpconfig 84
4.6.6 gpdeletesystem 84
4.7 小結 85
第5章 Greenplum的架構和核心引擎 86
5.1 Greenplum的架構 86
5.1.1 Greenplum Master 87
5.1.2 Greenplum Segment 87
5.1.3 Greenplum Interconnect 87
5.1.4 Greenplum Standby Master 87
5.1.5 Greenplum Mirror Segment 88
5.2 Greenplum查詢計劃 88
5.2.1 單機查詢計劃 89
5.2.2 並行查詢計劃 90
5.3 Greenplum數據庫查詢處理的過程 95
5.3.1 Greenplum數據庫的主要功能組件 95
5.3.2 Greenplum數據庫查詢的執行流程 96
5.4 小結 97
第6章 從ETL到數據聯邦和數據虛擬化 98
6.1 Greenplum中的ETL 99
6.1.1 PostgreSQL的ETL工具箱 99
6.1.2 GPLOAD 100
6.2 Greenplum的數據聯邦 104
6.2.1 dblink簡介 104
6.2.2 外部表 107
6.2.3 GPFDIST外部表 109
6.2.4 可執行外部表 119
6.2.5 Greenplum的S3外部表 120
6.2.6 GPHDFS外部表 127
6.2.7 Spark連接器 129
6.2.8 Gemfire連接器 129
6.3 Greenplum的數據虛擬化框架 130
6.3.1 PXF的架構 130
6.3.2 PXF的環境配置 131
6.3.3 GPHDFS與PXF比較 132
6.4 小結 133
第7章 混合負載和資源管理 134
7.1 混合負載的機遇和挑戰 134
7.2 混合負載的業務和技術要求 136
7.3 資源管理 139
7.4 併發管理 145
7.5 小結 146
第三部分 機器學習與數據分析
第8章 Greenplum中的過程化編程語言 149
8.1 PL/Python 150
8.1.1 PL/Python簡介 150
8.1.2 受信任的過程化編程語言 151
8.1.3 安裝Python包 152
8.1.4 安裝Greenplum數據計算Python包集合 153
8.1.5 類型轉換 153
8.1.6 PL/Python函數中的數據共享 154
8.2 PL/R 155
8.2.1 PL/R簡介 156
8.2.2 安裝R包 158
8.2.3 安裝Greenplum數據計算R包集合 158
8.3 PL/Container 158
8.3.1 PL/Container簡介 159
8.3.2 一個簡單的例子 159
8.3.3 PL/Container的基本操作方法 162
8.3.4 PL/Container實踐總結 166
8.3.5 關於PL/Container的開發 167
8.4 小結 167
第9章 MADlib 機器學習庫 168
9.1 MADlib入門 168
9.1.1 MADlib簡介 168
9.1.2 MADlib的特點 169
9.1.3 MADlib與其他機器學習算法庫的比較 172
9.1.4 MADlib的快速安裝 173
9.2 MADlib的架構 174
9.2.1 SQL用戶接口 174
9.2.2 Python驅動函數 175
9.2.3 C++機器學習算法實現 175
9.2.4 C++數據庫抽象層 176
9.3 MADlib應用 177
9.3.1 數據預處理 177
9.3.2 監督學習 178
9.3.3 非監督學習 184
9.3.4 時間序列 187
9.3.5 自定義機器學習算法 188
9.4 小結 191
第10章 Greenplum半結構化文本數據分析 192
10.1 GPText文本分析概述 192
10.1.1 GPText數據提取 192
10.1.2 GPText的文本處理、索引流程和高階分析 193
10.2 GPText內置的全文檢索引擎:Apache SolrCloud 194
10.3 GPText架構:高速並行索引和查詢 195
10.4 數據準備 197
10.5 GPText的使用:簡單的SQL和UDF函數 198
10.6 GPText的安裝 200
10.7 GPText索引 201
10.7.1 創建GPText索引 201
10.7.2 加載GPText索引 204
10.7.3 GPText 增減索引列 205
10.8 GPText簡單查詢 205
10.8.1 GPText 查詢的語法 205
10.8.2 GPText 臨近查詢 206
10.8.3 GPText top查詢 206
10.9 GPText高級查詢 207
10.9.1 GPText Facet 查詢 207
10.9.2 GPText 高亮查詢結果 209
10.10 GPText分區表查詢 210
10.11 GPText對自然語言處理的支持 211
10.12 GPText定製化索引 213
10.13 GPText管理工具 214
10.14 GPText用於文本挖掘和分析 215
10.15 小結 216
第11章 地理空間數據分析和處理 218
11.1 概述 218
11.1.1 什麼是地理空間數據 218
11.1.2 地理空間數據應用與分析中的挑戰 220
11.2 Greenplum PostGIS 223
11.2.1 Greenplum PostGIS 簡介 223
11.2.2 安裝Greenplum PostGIS 組件 224
11.2.3 第一次使用 227
11.3 Greenplum PostGIS應用實例 228
11.3.1 GIS數據準備 228
11.3.2 使用Greenplum PostGIS空間數據操作符進行GIS數據查詢 230
11.3.3 使用Greenplum PostGIS的UDF進行GIS數據分析 233
11.3.4 柵格數據 235
11.4 小結 239
第12章 Greenplum數據庫與圖計算 240
12.1 圖的概念 240
12.2 圖的應用 241
12.2.1 電子電路設計自動化 241
12.2.2 搜索引擎 242
12.2.3 社交網絡 242
12.3 圖數據的處理 243
12.4 Greenplum對圖數據的支持 244
12.5 MADlib中的圖結構和算法 245
12.5.1 圖的表示 245
12.5.2 MADlib支持的圖算法 245
12.5.3 MADlib圖算法詳解 246
12.6 小結 277
第四部分 Greenplum的運維和遷移
第13章 Greenplum的監控和管理 281
13.1 監控Greenplum集羣的狀態 282
13.1.1 gpstate命令 282
13.1.2 系統表gp_segment_configuration 283
13.1.3 Segment的故障恢復和再平衡 284
13.1.4 常用的監控命令 287
13.2 管理Greenplum集羣 289
13.2.1 參數配置 289
13.2.2 訪問管理 290
13.2.3 統計信息 292
13.2.4 管理表膨脹 294
13.3 Greenplum指令中心(GPCC) 297
13.3.1 GPCC簡介 297
13.3.2 可視化監控 298
13.3.3 查詢監控和分析 301
13.3.4 工作負載管理 305
13.3.5 監控告警系統 307
13.4 小結 309
第14章 Greenplum數據庫的備份、恢復和遷移 310
14.1 非並行數據庫備份 310
14.2 非並行數據庫恢復 313
14.3 並行數據庫備份 313
14.4 並行數據庫恢復 316
14.5 高效的並行數據庫備份和恢復工具gpbackup/gprestore 317
14.6 新一代Greenplum數據遷移工具GPCOPY 322
14.7 小結 324
第15章 從Oracle遷移到Greenplum 326
15.1 概述 326
15.2 Oracle與Greenplum的架構對比 327
15.2.1 Oracle的主要痛點 329
15.2.2 Greenplum的優勢 330
15.3 從Oracle遷移到Greenplum的流程 331
15.3.1 遷移場景 332
15.3.2 遷移過程 334
15.3.3 特殊場景分析 344
15.4 小結 352
第16章 從Teradata遷移到Greenplum 353
16.1 Teradata產品和用戶面臨的問題 353
16.2 從Teradata遷移到Greenplum的可行性 354
16.3 如何從Teradata遷移到Greenplum 356
16.3.1 遷移流程概述 356
16.3.2 Teradata數據卸載及DDL導出規範 357
16.3.3 數據操作語句轉換 364
16.3.4 函數轉換 367
16.3.5 ETL應用工具連接轉換 369
16.3.6 其他應用接口遷移 372
16.4 特殊場景 373
16.4.1 事前微批去重 373
16.4.2 事後批量去重 374
16.5 小結 374
附錄A Greenplum社區 375
附錄B 外部表實例 380
附錄C Greenplum的SSL證書 386
術語表 390

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章