商業智能遇到大數據


時下大數據大熱,而且這股熱潮可謂來勢洶洶。在相關廠商、投資方以及衆多第三方機構的鼓動下,越來越多的用戶摩拳擦掌、躍躍欲試。

  雖然眼下各家關於大數據的宣傳重點各有不同,但描繪的前景基本相同,即通過數據探查、數據分析及數據展示等相關技術,讓我們可以從海量數據中很快找到新的商業機會,或者做出更正確的決策。

  對IT業發展歷史有些瞭解者對這一情形並不陌生,當年商業智能也是同樣炙手可熱,而且商業智能也是以“打開智慧之門”的名義讓不少企業投入其中,而時至今日,很少有企業真正拿到了那把“金鑰匙”。

  如今,當兩個同樣以“智能”或者“智慧”名義敲開用戶大門的技術來到我們面前的時候,我們該如何選擇?特別是對於傳統商業智能的用戶,我們該如何積極擁抱大數據?有了大數據我們還需要商業智能嗎?大數據將取代傳統商業智能嗎?

  在大數據聲名鵲起而傳統商業智能聲音似乎逐漸式微的當下,我們提出這些問題並非毫無來由。儘管目前關於何謂大數據還沒有統一的說法,但是,大數據是以海量數據的處理和分析,發現數據背後的本質,增加企業洞察力爲目的而誕生的,而這與商業智能的目的基本一致,從這個意義上說,兩者之間就存在着一定的競爭關係。當我們把“大數據是否將取代傳統商業智能”話題發佈在《計算機世界》官方微博和計世網上的時候,的確引起了業界的廣泛探討(微博調查結果參見圖1)。這在一定程度上也反映了業界對大數據與商業智能之間關係的模糊認識。

  草根與貴族之爭

  儘管隨着技術的不斷進步,商業智能日益平民化,如今基於Excel表也能在一定程度上實現傳統商業智能的部分功能。但是,商業智能最精典的架構依然以數據倉庫爲基礎,通過搭建數據倉庫(常常是專用設備),利用ETL工具進行數據抽取、轉化,建模,然後通過報表和駕駛艙等形式進行結果展示,整個過程每個環節都投資不菲而且耗時。因此,很長時間以來,商業智能被認爲大企業的專有,而被稱爲是貴族。相對而言,大數據主要用於一些互聯網企業,採用通用硬件設備加上開源軟件實現,成本低而被一些人認爲是草根。因此,這場大數據與商業智能之爭也被看成是“草根”與“貴族”之爭。那麼,當“草根”出身的大數據遇到了“貴族”商業智能會發生什麼變化?是否會搶佔商業智能的市場?

  “目前看來,大數據還搶不了商業智能的市場,無論從技術成熟度還是生態系統來說。”SAP亞太區數據庫解決方案技術總監盧東明告訴計算機世界記者,商業智能這個概念自1992年興起後的20多年中,已經在IT界幾乎家喻戶曉、婦孺皆知了。這個概念的知名度是一個巨大的資產,顛覆一個已有20多年存在且仍有生命力的技術是非常不容易而緩慢的過程。

  而就生態系統而言,歷經近20年的發展,商業智能從最初朦朧的概念到如今豐富的產品系列和解決方案組合,特別是數據庫、數據倉庫產品的組合在用戶中已經留下很深的烙印。此外,還有各種各樣圍繞商業智能產生的數據採集、數據處理、數據存儲、數據分析、數據可視化軟件,如此完善的生態系統是現階段大數據所無法媲美的。

  基於上述原因,盧東明更願意把大數據作爲傳統數據庫、數據倉庫以及商業智能這些概念的外延和擴展,認爲相互之間不存在取代的關係,也並不是互斥的關係,他傾向於把大數據歸爲實現商業智能的一種技術手段。“打個比方吧:如果BI是個聽診器的話,你說X光、核磁共振和它啥關係?”

  實際上,在我們的微博調查中,持類似觀點的基本佔絕大多數,特別是業內人士。北京殷塞信息技術有限公司執行董事兼首席架構師朱東也是其中之一,在朱東看來,大數據就是一種分佈式存儲和處理技術,用來處理那些“分散”和“難處理的數據”,和商業智能不在一個層面上,本質上大數據只是商業智能的一個新數據源。從這一點上也反映出業界對大數據的概念至今還缺乏統一的認識。(本文所說的大數據是廣義的大數據,涵蓋對海量數據特別是非結構化數據從數據採集、存儲、分析到最終結果呈現的整個過程中涉及的所有技術。正是基於此,這兩個概念纔有可比性。)

  當然,也有人不這麼看。特別是在一些用戶看來,兩者的關係可能就簡單得多了。

  “從用戶觀點看,只有草根打法和貴族打法的差別,沒有大數據和BI的差別。”中文信息處理及金融IT知名專家、上海證券交易所白碩在其微博中也對我們提出的“大數據將取代傳統商業智能”的話題發表了自己的意見。

  跑在不同軌道上的列車

  拋開商業智能與大數據之間的爭論不談,目前這兩者各自都有其擅長的領域則是不爭的事實,而且看起來區別實在太大,更像是偶有交叉但行駛在不同軌道上的兩輛列車。

  衆所周知,當今的數據資產基本可以歸爲三類,即企業內部的業務數據、公共服務機構的數據(如物聯網相關數據),以及與互聯網相關的數據(如網絡日誌、微博等)。

  “在這三類數據中,企業內部業務數據和部分公共服務器的分析和處理基本是傳統商業智能的天下,而互聯網數據的處理則是大數據技術的天下。兩者的重合度並不大。”Informatica中國區首席產品顧問介紹說。

  南大通用數據技術有限公司董事長助理李航表達了同樣的觀點。他認爲,大數據和傳統數據到目前爲止還是涇渭分明的兩個不同陣營,現實中絕大部分企業的商業分析都基於傳統的商業智能來進行,還不會因爲大數據而摒棄原來的傳統分析方法。因此,不存在所謂的市場衝擊。

  “大數據相關技術(如Hadoop)主要用來存儲和處理非結構化數據,但是非結構化的數據想要被充分認知和分析,轉化爲結構化數據之後處理不失爲一種有效方法。比如,將大數據以及聚合數據輸入傳統商業智能系統中去做分析與展現,最終形成報告,出分析結果。”李航說。

  李航的觀點在傳統數據庫和數據倉庫廠商從業人士中很典型,基本代表了大多數傳統傳統數據庫、數據倉庫廠商的觀點。基於這樣的認識,它們最常推薦的一個應用場景是,將大數據存儲在Hadoop,利用Hadoop來初步處理,然後將其轉化爲結構化數據存儲數據倉庫中,再利用現有的傳統商業智能平臺進行數據分析和預測,提供報表,或者成爲企業駕駛艙中的一部分。而那些率先引入大數據技術的互聯網企業卻很少使用這些方法,這些缺乏傳統商業智能基礎的企業從一開始就將自己的解決方案完全架構在Hadoop等大數據技術上,直接從Hadoop中提出數據,利用自己定製的MapReduce,完成數據的分析和展現。比如,提供網站精準推薦服務的百分點就是這樣使用Hadoop挖掘訪客點擊數據的。

  顯然,用戶不同的技術儲備決定了技術方案的不同選擇,而廠商不同的出身也決定了其不同技術發展路線。在傳統商業智能廠商看來,商業智能和大數據都不可偏廢。IBM新興市場部大數據中心總監王曉梅就多次強調,在IBM大數據的戰略中,傳統的關係型數據、結構化的數據仍舊是IBM大數據中非常重要的一部分,其數據倉庫也仍舊是整個大數據平臺不可或缺的重要一部分。

  技術上的融合

  儘管在大多數業內人士看來,在數據分析市場上大數據與商業智能更像兩個行駛在不同軌道上的列車,並肩前行同時偶有交叉,但是在技術上,同爲數據分析、提高洞察力而存在的兩種技術之間早就開始了交流和互動。比如,爲應對海量數據帶來的挑戰,商業智能相關產品紛紛在性能方面做文章。內存計算、列式存儲等技術就被廣泛應用到傳統的數據處理相關產品和技術中,今天我們在IBM、Oracle、SAP等相關產品上都可以看到它們的蹤跡。比如,SAP正在大力推廣的HANA就是典型代表。同樣,專注在數據分析層面的SAS也在其新一代數據分析工具中引入名爲HPA的高性能分析引擎,主打的同樣也是高性能。

  除此之外,那些提供傳統數據庫和數據倉庫的主流供應商,包括甲骨文、IBM、SAP(收購了Sybase)、微軟等都在其數據庫和數據倉庫提供各種連接器,支持對Hadoop數據進行分析。比如,甲骨文推出了軟硬一體的大數據庫機,其中內置了與Oracle數據庫的連接器來與Hadoop進行數據通信。在SAPSybase最新一代數據倉庫Sybase IQ 15.4中也同樣配備了很多接口。通過這些接口可以同時訪問SybaseIQ和Hadoop,或者用一個標準的SQL來訪問Hadoop的數據。

  “適者生存,從結構化爲主的‘小數據’到非結構化爲主的‘大數據’,大量連接器的出現其實已經表明了數據庫廠商的姿態,大數據擴充了數據的外延,也擴大了數據庫的應用空間。目前還沒有一個數據庫完美地解決‘小數據’和‘大數據’的混用問題,接口就是目前最好的階段性技術。”SAP盧東明告訴計算機世界記者,而從技術發展的角度看,數據庫、數據倉庫產品必須自我發展,以適應大數據帶來的挑戰,一如商業智能的過去一樣。

  衆多周知,在過去的20多年,傳統商業智能從行式存儲數據庫轉爲列式存儲數據庫,磁盤數據庫轉向內存數據庫,軟件架構也從SMP轉爲MPP,數據倉庫實施從延時多維變爲實時抽取等。這些轉變的背後,其推動力就是用戶對數據處理和分析日益增加的需求。

  相對於比較成熟的傳統商業智能,出現不久的大數據其需要成長和完善的地方更多。“效率、可靠性和安全性是一個成熟的數據處理平臺所必須具備的,對於大數據而言,這也是它首先需要解決的。”Informatica大中國區首席產品顧問但斌告訴計算機世界記者,而在這些方面傳統BI已經走過了近20年的發展歷程,可以提供很多值得借鑑的技術和方法論。

  另一方面,大數據在技術上也有待突破,特別是在微博、微信等語義分析方面,只有這些技術實現了突破,大數據的市場纔會真正從互聯網領域走向傳統領域。

  其實,以Hadoop爲代表的大數據相關技術也在做出一些適應性變化。比如,Hive的出現,就是爲了方便人們像使用SQL數據庫一樣,來直接調用Hadoop中的數據;而NoSQL的出現本質上也是借鑑傳統SQL數據庫來解決非結構化數據的管理問題。

  商業智能3.0

  實際上,當我們還在探討大數據與傳統商業智能之間的關係時候,國外已經有人提出了BI 3.0的概念(參見圖2),將大數據也作爲商業智能的一個部分。在這一概念體系中,傳統商業智能被稱爲BI 1.0,其與大數據結合後稱爲BI2.0,而在結合移動數據後就成爲了BI3.0。與之相似,在國內也有人提出類似的觀點,頗爲有趣的是,這種觀點將商業智能歸到了大數據之下,稱大數據 3.0。

  比如,天雲科技首席數據科學家鄭毅就將傳統商業智能稱做大數據的1.0,此時處理的主要是企業內部流轉的業務數據,服務的也是企業內部;下一階段將是大數據2.0,此時數據不只在企業內部發揮價值,還會用這些數據向外去創造價值;大數據最終會走向3.0,那時數據能夠對內、對外產生價值,同時還能在不同組織間自由流動,形成整個社會的數據基礎設施。

  顯然,出身的不同決定了其對兩個概念的不同理解:來自傳統商業智能領域者將大數據當成一個新增的數據源;而大數據一方則認爲傳統商業智能只是其領域中處理少量數據時的一種方法。不過,對於用戶而言更希望能獲得一種整體的解決方案,即不僅要能收集、處理和分析企業內部的業務數據,還希望能引入互聯網上的網絡瀏覽、微博、微信等非結構化數據。除此之外,還希望能結合移動設備的位置信息,這樣企業就可以形成一個全面、完整的數據價值發展平臺。畢竟,無論是大數據還是商業智能,目的都是爲分析服務的,數據全面整合起來,更有利於發現新的商業機會。這也正是“BI3.0”或者“Big Data 3.0”的最終目的。

  實際上,用戶對數據分析相關工具和界面的融合需求也已經開始出現,比如,在商業智能應用最爲普及的銀行中,就希望在原來僅僅爲客戶提供支付服務之外,還能知道更多客戶的購買信息(比如,物品清單),從而可以更爲充分地瞭解客戶,爲其下一步的精準營銷奠定基礎。

  過往的歷史表明,技術的活力在於不斷創新。對於已經存在了20多年的相對比較成熟的商業智能而言,早就形成了一個相對完善的生態系統。更爲重要的是,大量企業在傳統商業智能方面已經進行了大量投資,特別是企業裏很多業務其實已是圍繞這樣的系統來開展的時候,即使真有一種可替代的技術出現,這種替換也不會很快發生,更何況從目前來看大數據也不是這樣一種技術。基於這樣一個認識,我們認爲,在未來相當長一段時間,大數據和傳統商業智能將在相互促進中競爭,在競爭中共同進步,最終走向“BI3.0”或者“Big Data 3.0”


轉自 http://blog.sina.com.cn/s/blog_711dbc670101e5us.html



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章