infoQ訪談Esri大蝦盧:談Hadoop在GIS數據處理中的運用

原文地址:http://www.infoq.com/cn/news/2013/05/hadoop-usage-in-esri

 

在現代人的日常生活中,缺少不了地圖的身影,而地圖已經超越了簡單的工具屬性,它的價值正在逐步被大家挖掘出來,例如:通過Nike+,你可以看到自己每天的運動路徑和熱量消耗、商家可以通過地圖對消費者進行定向廣告投放等。越來越多的互聯網公司或個人開發者嘗試通過結合地圖去做更多不一樣的事情,對於地圖數據本身也有很多有意思的事情,InfoQ藉此機會採訪了Esri的盧萌,聽他談談在GIS數據是如何運用Hadoop進行並行處理的,他也會在6月5~6號的Esri空間信息技術大會上對這個問題做分享。

InfoQ: 請您向InfoQ的讀者做下自我介紹吧!

盧萌:我叫盧萌,2005年大學畢業後就進入了GIS這個行業,碰巧的是2005年正是谷歌地圖發佈的那一年,各種WebGIS在中國開始大行其道,所以我應該算是國內做WebGIS比較早的那一撥人了。在這些年中,做了不少項目,後來進入了Esri中國,目前在Esri中國政府行業技術部擔任高級產品諮詢師的職務,主要研究的方向是傳統GIS領域中的空間分析、空間統計等技術,同時也對雲GIS、海量數據挖掘等新技術應用有過一定的涉獵。

 

 

 

 

 

 

InfoQ: 請問盧老師GIS領域目前國內外發展情況如何?

盧萌:借用WEB時代的說法,我們也把網絡時代的GIS發展,分爲1.0、2.0和正在邁向的3.0時代。

1.0時代,GIS是專業人士玩的東西,主要是通過一小批專業人士做出各種地圖或者應用,然後通過網絡發佈到出去,廣大的用戶通過瀏覽器來查看地圖,也就是一個人發佈,大家來看。 2.0時代是以交互爲標誌的時代,GIS也是一樣,在業界,Esri最先推出的ArcGIS Online這類的平臺,提出了空間信息共享和協作的概念,我們能夠很輕易的獲取到各種專業的空間數據,並且這些數據的來源除了專業機構,還有廣大的使用。在這個平臺中,每一個用戶都成了空間信息的發佈者,也是信息的享用者。

而未來的3.0時代,將以一種更加智能的方式來獲取、使用空間信息,並且能夠直接獲取到我們需要的結果,而不僅僅是一堆地圖和數據。3.0時代是以服務爲核心的時代。就像我們購買了一堆服務器,一堆軟件,部署了各種環境,編寫了很多代碼,那麼我們的目的是什麼?是想要那些服務器?那些軟件和那些代碼嗎?當然不是,我們是通過這些基礎建設來解決我們的實際問題,獲取需要的結果。3.0的時代,我們更多的將這些基礎建設、分析模型和處理過程託管到以網絡爲基礎的雲環境中,我們只需要提出問題,然後獲取結果就可以了。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

InfoQ:Hadoop目前涉及的科學領域很多,不僅包含衆所周知的互聯網行業,也包括如能源開採、節能環保、生物醫學等領域。請問盧老師,Hadoop在GIS(地理信息系統)這個領域有哪些典型的應用場景,又是如何實現呢

盧萌:傳統的GIS數據存儲,大多依託於各種關係型數據庫,但是數據庫由於其在海量數據管理、高併發讀寫、難以擴展等方面,已經開始的制約了GIS的發展。而且關係型數據庫一直在非結構化數據領域難有作爲,這一點更是致命傷。世界上90%以上的數據都是非結構化的,GIS裏面大量數據如影像數據等,都是非結構化的。 而Hadoop以其高可靠性、高擴展性、高效性和高容錯性,特別是在海量的非結構化或者半結構化數據上的分析處理優勢,給我們提供了另外一種思路。 Hadoop的核心算法就是“分而治之”,這個與GIS裏面很多算法是相通的,GIS裏面很多應用場景都是要去分析不同區域內的各種信息,把這樣的計算放到Hadoop上,正好利用了Hadoop的分佈式計算特性。特別是一直讓GIS界最頭痛的海量影像數據存儲和分析,在Hadoop的分佈式存儲和分佈式運算架構上,更是能夠體現出Hadoop在GIS應用上的優勢。

 

 

 

 

 

 

 

 

 

 

 

InfoQ:Esri公司推出開源環境“GIS Tools for Hadoop”,其中還包含了基於Hive的UDF,這將給地理信息這個行業帶來哪些新的機會呢?

盧萌:GIS Tools for Hadoop是Esri推出的基於Hadoop上的一套完整的空間大數據量處理的環境,包含有一套工具、一套API和一系列的框架。此環境的推出,擴展在Hadoop上geomtry的類型和對空間數據的操作,讓開發人員能夠方便的在空間數據上構建MapReduce應用程序。

Hive是由Facebook首先研發的一個基於Hadoop的數據倉庫工具。可以將結構化的數據映射成數據表並提供類SQL的語言進行數據查詢,適合於數據參考的統計分析。GIS Tools for Hadoop擴展了Hive在Esri Geometry API上的應用,使用戶可以通過hive進行空間數據的處理。

數據倉庫一直都是一個比較熱門的領域,而在空間數據庫上構建數據倉庫,進行數據挖掘,更是一個比較新的話題。一個單位中需要在海量空間數據上做分析有各種不同的人員,有工程師也有專業數據分析人員,他們之間的計算機知識層次不一。所以構建一套滿足各種人員和程序需求的基礎設施就很有必要。Hive在維持Hadoop靈活性和擴展性的基礎上提供類似關係型數據庫的基本功能,在Hadoop文件系統上提供了方便的數據查詢和管理功能。

GIS Tools for Hadoop中包含了基於Hive的UDF(User-Defined-Function)這一功能,可以讓開發人員和數據分析人員能夠構建面向業務的分析應用,在GIS中有很多特定的算法和模型,通過UDF都可以加入到Hadoop中去。這樣看來,未來勢必會使用它來定製開發和搭建各種面向業務的個性化工具和軟件。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

InfoQ: 既瞭解GIS又熟悉Hadoop開發,這樣的人目前是不是比較稀缺?請您給大家一些學習和就業方向上的建議吧。

盧萌:雖然經過了這些年的發展,熟悉GIS的開發人員一直還是供不應求,而Hadoop在互聯網上作爲“大數據分析”的代名詞,熟悉Hadoop的人員更是稀缺。據麥肯錫全球研究院的研究預測在未來6年,僅在美國就可能面臨缺乏14萬至19萬具備深入分析數據能力人才的情況。

對於Hadoop來說,最大的優點就是開放性,因爲它是開源的,所以每天有數以萬記的程序員和愛好者在學習和研究Hadoop系統。作爲一個新手,要學習Hadoop,最重要的就是動手去操作,從安裝部署到優化到開發,一步一步的掌握MapReduce編程方式和各種應用場景,瞭解Hadoop的實現原理和算法。當然我們還可以去閱讀他提供的源碼,這也是開源軟件最大的好處。

學然後知不足,教然後知困。我們可以在一些社區或者博客上記錄在學習過程中的點點滴滴,當有朝一日,回過頭來看我們曾經走過的足跡,你會發現,在不知不覺中,當年的小樹苗已經成長成爲了參天大樹。

雖然目前IT界主流的開發還是依託在關係型數據庫上面的,但是我們可以在工作中去逐步推廣Hadoop的思想和應用,去潛移默化的改變周圍的環境,未來Hadoop前景一定是光明的。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

InfoQ: 除了Hadoop外,GIS還有其它並行計算的解決方案嗎?

盧萌:從ArcGIS 10.1開始,ArcGIS for Server變成了純64位的架構,即不再支持32位操作系統。 另外在ArcGIS 10.1的SP1包中,提供了ArcGIS 10.1 for Desktop—Background Geoprocessing (64-bit)補丁包,實現64位後臺地理處理,並且增加了新的“並行處理因子”環境,可以分跨多個進程來劃分和執行處理操作。在10.1 SP1中新增支持使用最多4核處理器進行並行處理的功能,現已實現於一些空間分析工具當中。 而在即將發佈的ArcGIS 10.2中,更是更新了600多個軟件節點,其中主要集中於軟件的質量和性能增強。

 

 

 

 

 

 

 

InfoQ:最後一個問題,請問盧老師,您眼中的大數據的未來是什麼樣的?

盧萌:大數據是現今非常時髦的IT詞彙之一。什麼叫大數據?如果單純以量來看,在以MB爲單位的硬盤存儲量的時代,TB甚至是GB可能就算是大數據了,而現在TB硬盤普及的時代,恐怕要PB甚至是EB纔算大數據了。 在IDC最新的《數字宇宙》(Digital Universe)中預計,到2020年,全球的數據存儲總量將達到35ZB。而且這個數字還是受到了存儲能力的限制。 對於大數據,IBM提出了“三V”的概念,即大量化(Volume)、多樣化(Variety)和快速化(Velocity)。最近這兩年,着眼於數據應用的專家們提出了“四V”的概念,就是在原有的“三V”的基礎上加上了Value(價值)。 毋庸置疑,最後一個V(Value),纔是我們最值得關注一個V,做數據挖掘和數據分析的主要目的也就是爲了實現數據的價值。 未來是一個大數據的時代,在不久的將來,數據可能成爲最大的一類交易商品。在互聯網上,繼“流量爲王”、“應用爲王”之後,下一個概念應當就是“數據爲王”。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章