挖潛無極限—數據挖掘技術與應用熱點掃描

轉自：http://bbs.xml.org.cn/blog/more.asp?name=topcio&id=16699

“我們把世界看成數學，並且把你也看成數學”——用這句話來說明數據挖掘技術的複合性和應用的廣泛性似乎再好不過。如今，雖然一些行業在應用這一技術上仍然缺乏足夠的主動，但一個不能阻擋的趨勢是：已經有越來越多的人在快樂並有效地使用這一技術，同時不由自主地成爲“挖掘”的對象。

禽流感該如何更好地監控？今天你寫Blog了嗎？

你是否覺得這兩個問題連在一起問很無厘頭？

事實上，美國一家公司正在試圖讓這兩個事件之間的關係日漸明瞭。
這家公司目前正在通過從全球的Blog網頁中挖掘出和禽流感相關的信息，從而建立一個預警機制。這一項目考慮到Blog已經成爲新聞傳播的重要途徑，先從網上抓取有關禽流感的網頁，存入到公司的數據倉庫，再指定“國家”爲關鍵目標詞，然後利用關聯分析技術，即可得到和禽流感關聯最大的國家，由此可以判定該國的禽流感傳染可能比較嚴重。

就在此前，已經有很多人在抱怨，網上多如牛毛的Blog除了浪費人們數以十萬年的閱讀時間之外，還有多少用處？如今，數據挖掘技術正在力圖從這些爆炸式增長的Blog中“挖”出更有價值的東西，同時它也在更多領域中展示其非凡的力量。

工具篇：前方是岔路口

數據挖掘其實並非單純的IT技術，而是數學家和計算機科學家之間的合作產物。在過去十年中，高等數學和計算機建模的聯姻改變了科學和工程技術，以至於有人認爲這一合作已經開創了一個全新的商業領域。

有關數據挖掘技術的定義有很多版本，綜其要點，主要在於應用一系列統計與人工智能技術來發現以前並不瞭解的數據規律，並解決實際業務問題。如今，數據挖掘技術已經從最開始的一個簡單的算法包，發展出通用挖掘平臺和專業挖掘工具兩大種類。其中，像IBM、NCR、SAS、微軟、SPSS、StatSoft等廠商的數據挖掘產品（模塊）基本都是通用型工具平臺；而像美國的 Unica 公司、Fair Isaac 則主要專注於諸如營銷自動化、信用卡積分等細分領域，屬於後一種工具。具體來看，目前在數據挖掘領域聲勢頗大的大多是通用型工具平臺。

“現在IBM更側重的是平臺優勢。”在採訪中，IBM軟件部中國區DB2信息管理技術經理劉晶煒明確表示。目前，IBM的DB2中包含Intelligent Miner for Data和Intelligent Miner for Text兩個數據挖掘模塊，將數據挖掘和數據倉庫整合到一個平臺之上。其中，前者主要針對結構化信息，分爲建模、瀏覽、Scoring Service三個部分；後者則是針對文本的挖掘模塊，其主要功能是特徵抽取、文檔聚集、文檔分類和檢索。

NCR Teradata的數據挖掘工具同樣也是與其數據倉庫整合在一起的。具體來說，其數據挖掘工具可以按照挖掘的步驟主要分成Profiler、ADS Generator、Warehouse Miner和模型管理器四塊。目前Teradata最新版的數據挖掘方案是Teradata Warehouse Miner 4.1。

SAS 公司和SPSS公司作爲兩家從傳統的統計分析技術發展而來的數據挖掘廠商，二者在業內的影響力可謂有目共睹。其中，SAS 公司提供了SAS Enterprise Miner 、SAS ETS(時間序列預測)、SAS OR(運籌學)、SAS STAT(統計分析)、SAS QC(質量控制)等一系列工具；SPSS公司也提供了Clementine和AnswerTree兩項產品。

微軟的SQL Server 2005在數據挖掘方面的突破與創新曾被人看作是最令人驚豔的地方。Microsoft SQL Server 2005 Data Mining 平臺的確引入了大量的數據挖掘功能，其本身就是一個開發智能應用程序的平臺，而非一個獨立應用程序。而且，這一平臺與所有 SQL Server 產品實現了集成，包括 SQL Server、SQL Server Integration Services 和 Analysis Services。據稱，SQL Server 2005 中最重要的數據挖掘功能就是其處理大型數據集的能力，它允許模型對整個數據集運行，從而消除了採樣方面的挑戰。

總起來看，像IBM、NCR、Oracle、微軟這些平臺工具廠商基本上都是以提供“整車”爲己任。一句話，只要用戶不是很挑剔，基本上都可以在某一家那裏即可買全包括數據挖掘工具在內的全套商業智能產品。而像SAS、SPSS、StatSoft等公司雖然也宣稱提供工具平臺，但提供“整車”的實力有限，其主要在統計分析和數據挖掘領域延伸提供儘可能多的工具組件。

相對於這些挖掘工具平臺，專業挖掘工具可能在市場的聲勢並不大，但是像Fair Isaac 公司、Unica 公司的發展卻也相當不錯。比如像Fair Isaac 公司就已經佔據了全球信用卡積分市場70%～80%的份額，幾乎達到壟斷。該公司的創始人發明了一個信用評分卡（即費寇分數，FICO score），由此可以預測人的未來償付行爲，爲信用卡消費提供一個有效的預測工具。同樣，美國 Unica 公司的 Affinium Model 則是一款專注於市場營銷自動化的數據挖掘工具軟件。

那麼，面對這兩種工具，用戶該如何選擇？換句話講，哪種工具纔是未來的發展方向呢？

中國傳媒大學調查統計研究所副所長、數據挖掘研究室主任沈浩認爲，平臺化肯定是將來的一個發展方向，而且，中國的市場足夠廣闊，也可以容得下一批這樣的平臺廠商。IBM軟件部中國區DB2信息管理技術經理劉晶煒也表示，正與SAS進行更多的合作，以便進一步統一數據挖掘領域的技術標準。

而Teradata數據倉庫專家盛秋戩博士則認爲，目前的平臺工具雖多，但從根本上講，都是在用橫向的數據挖掘工具解決縱向的行業業務問題。他表示，如果從用戶出發，用戶應該更歡迎那些專業挖掘工具。

北京瑞斯泰得數據技術開發公司蘇立民總經理從事數據挖掘行業已有六年之久，他在採訪中表示，現在數據挖掘領域的確存在平臺化趨勢，但專業工具也佔領了一些市場。比如Unica 公司就是選出並優化某些算法，再加上行業經驗，使建模過程更加優化。

另據Sybase商務智能總監廖鋼城介紹，其實在日本，就有公司專門銷售一種類似“黑匣子”的專業工具，銀行積累的數據在裏面跑一遍，就直接出來結果。這種工具用得也很好。而在另一方面，他也認爲，提供平臺的廠商會越來越少。

如此看來，業界對於工具的發展方向似乎並無太大異議，即平臺工具會保持在一個適當的數量，而專業工具顯然更得用戶的寵愛。而現在，數據挖掘技術的發展剛好走到一個岔路口，一邊指向通用型，一邊指向專業型，就看企業要往哪個方向走了。

技術篇：算法與模型

機關可曾“算”盡？

之所以說數據挖掘是高等數學和計算機科學聯姻的產物，其中一大原因就在於，對各種算法的支持程度是衡量數據挖掘工具的一大標準。

在前期採訪中，筆者曾設想通過對比各種數據挖掘工具對算法的支持程度來分出高低。但在採訪之後，筆者發現這一對比實無必要，因爲目前的算法技術已經相當成熟，而主流工具也基本上都提供了對主流算法的支持。

從算法上看，業界公認主要有決策樹、分類、聚類、迴歸、關聯分析等幾大主流算法。對於這些算法，IBM、NCR、Oracle等主流工具基本上都已經支持，而像微軟的Microsoft SQL Server 2005 Data Mining ，它作爲一個開發智能應用程序的平臺，可以允許第三方添加自定義算法以支持特定的挖掘需求。

在支持的算法種類和數量上，SAS、SPSS等傳統的統計分析廠商要比IBM、NCR、微軟、Oracle 等廠商更多一些。比如SAS Enterprise Miner就提供了決策樹、神經網絡、自動神經網絡、基於記憶的推理(MBR)、線性和對數迴歸、聚類、關聯分析等很多算法。SPSS公司在其AnswerTree工具中就提供了CHAID、Exhaustive CHAID、Classification & Regression Tree、Quest等四種計算法則。

在採訪中，無論廠商還是業內專家大都認爲，目前的算法技術已臻成熟。北京瑞斯泰得數據技術開發公司蘇立民總經理就表示，近年來統計學領域新出現的算法很有限，大多是對舊算法的完善。而對於現存的算法而言，除了一些獨有的算法之外，主流算法都可以互相拷貝，並不存在太高的技術壁壘。（下轉42版）（上接41版）或許正是因爲作爲數據挖掘技術基石的算法技術已經比較成熟，這也造成廠商開始紛紛在其他領域開拓新的技術亮點。比如NCR Teradata就認爲，除了算法指標，體系架構也非常重要。相對於算法上的難分伯仲， NCR更強調通過其“庫內挖掘”的優勢來解決數據量、效率和質量的難題。此外，蘇立民總經理認爲，在算法成熟之後，更重要的工作就是在數據準備階段。而商智通公司諮詢總監匡宏波則認爲，雖然算法的速度業已越來越快，但更關鍵的是怎麼用。無疑，這些都是需要業界跳出單純的算法技術並及早關注的重點。

從模型看未來

美國《商業週刊》在今年的一篇文章中指出，人類將數學建模應用於現實生活與工作肯定將是21世紀最偉大的事件之一。事實上，建構模型也正是數據挖掘技術的重要內容，正是通過建模，數據挖掘工具纔可以準確地告訴用戶那些隱藏在數據庫深處的重要信息，同時又對未來做出預測的。

那麼，何爲建模？簡單來講，就是綜合運用數學思想方法和IT技術建立一個適合當前問題的模型，用以解釋之前發生的事情並預測未來發生的事情。

“算法是刀，建模是刀法，而模型就是用刀切出來的東西。”蘇立民如此形容算法、建模和模型三者之間的關係。簡單來講，如果算法是“y＝a+bx”，那麼模型就是“y＝5+3x”。區別就在於已經帶入了常變量。目前，業界探討較多的技術內容主要有自動建模和模型轉換兩點。

其一，自動建模。

自動建模是考查數據挖掘工具是否能夠自我優化，從而方便一般用戶使用的重要功能指標。在這項功能的幫助下，用戶無須深刻了解算法的優缺點，即可利用其靈活的參數設置及其幫助，從而增強建模的效率。

目前，諸多主流工具都在自動建模方面有着較好表現。比如NCR就尤其強調其模型的並行性。據盛秋戩博士介紹， NCR的並行處理優勢在於：比如用兩臺服務器（集羣）來作挖掘，可能需要1分鐘的反應時間；而如果再加兩臺服務器，則只需要半分鐘的反應時間。當然，這一優勢要基於NCR自身的硬件設備。

SAS Enterprise Miner（EM）的自動建模主要體現在自導向（SEMMA）數據挖掘進程上。SEMMA爲執行數據挖掘的核心任務提供了一個靈活的框架，這些任務包括五個主要的步驟，亦即採樣(S)，探索(E)，修改(M)，建模(M)和評估(A)。此外，專業工具廠商美國 Unica 公司的 Affinium Model 的最大優點也是體現在最大限度地將數學建模過程自動化，使得那些數學基礎不好的業務人員可以方便地使用這個工具。

需要注意的是，雖然自動建模被人們寄予厚望，但是還遠未達到讓用戶手到擒來的地步。之所以這樣說，一方面是因爲工具本身的技術實現不夠，蘇立民就認爲，在這方面，專業型工具做得要比通用型工具相對較好；另一方面，自動化本身並不能取代一切。中國傳媒大學調查統計研究所副所長、數據挖掘研究室主任沈浩也解釋說，做好自動建模，同樣需要對業務有深刻的瞭解，才能選擇更好的變量。比如在知道一批女孩的身高、體重數據之後，要分析出女孩的漂亮程度，那麼，選定“身高除以體重”來分析無疑還是要靠腦子想出來的。

其二，模型轉換。

數據挖掘工具的多樣性造成模型種類也很多，這種情況下，不同工具生成的模型是否能夠共享或轉換就成爲一大難題。目前，業界正通過對預測模型標記語言（Predictive Model Markup Language ，PMML）的應用來解決這一問題。這一語言在1997年7月由DMG（Data Mining Group)發佈，它利用XML描述和存儲數據挖掘模型，已是一種被W3C組織接受的標準。現在來看，IBM、SAS和SPSS等廠商已經在使用PMML標準導入數據挖掘模型，但也有些廠商仍未採用此種標準，而從標準本身看，對數據仍然具有一定的依賴性，還未真正實現模型與數據的分離。

熱點篇：文本挖掘與網絡挖掘

算法和建模作爲數據挖掘工具的核心技術，從它誕生之日起就在得到不斷完善，而在最近兩年，也有一些新的技術和應用熱點開始引起人們的關注，比如文本挖掘、網絡挖掘和可視化挖掘就是其中比較重要的三種。
“文本挖掘是個太恐怖的事情。”中國傳媒大學調查統計研究所副所長、數據挖掘研究室主任沈浩如此形容文本挖掘的威力。

文本挖掘（Text mining），顧名思義，就是從非結構化的文本中發現潛在的概念以及概念間的相互關係。在這項技術中，最關鍵的是分詞技術，建立詞典。只有讓計算機依據詞典完成正確斷詞之後，纔可以實現將非結構化信息轉化爲結構化信息，然後就可以進一步研究文本之間的關係。比如本文開頭提到的通過分析Blog網頁來建立禽流感預警機制的例子，其實既利用了文本挖掘技術，也是一個網絡挖掘案例。

到目前爲止，像IBM、微軟等主流挖掘工具以及google和SNS網站都已經在使用文本挖掘技術。但遺憾的是，目前這些工具大多隻支持英文，還不支持中文挖掘。

如果說文本挖掘是一項技術熱點的話，那麼網絡挖掘可以稱得上是數據挖掘領域中的一大應用熱點了。

具體來講，網絡挖掘還可以細分爲三種挖掘，一是前文提到的文本挖掘，二是結構挖掘（Structure mining），主要解決網頁與網頁之間的鏈接關係，三是點擊挖掘（Hit mining），是針對點擊率的挖掘分析。總體而言，要實現網絡挖掘，從技術上講並沒有難度，大部分的問題都可以用成熟方法來解決。

在採訪中，無論廠商、集成商還是學界都肯定了網絡挖掘的美好發展前景。“我個人比較看好網絡挖掘。”盛秋戩博士這樣說。他認爲，網絡挖掘是施展數據挖掘技術很好的舞臺，同時也會給挖掘工具廠商帶來不少商機。沈浩同樣也認爲，當電子商務發展起來之後，網絡挖掘肯定大有可爲。

但是業內人士也指出，網絡挖掘目前尚存在一些瓶頸。

首先，一個關鍵問題是電子商務的評估指標（e-Metrics）還沒有形成一個完整的體系。所謂指標體系就要設定幾個維度來衡量電子商務網站生意的好壞。目前，有些電子商務網站已經開始定義像潛在顧客率（reach）、招攬時間（Acquisition）、潛在顧客轉化率（Conversion）等一些評估指標，美國的一些技術會議也已經開始做一些整合工作，但是要形成體系還需要一段時間。

其次，缺錢。在採訪中，商智通公司諮詢總監匡宏波表示，曾經有一家醫藥類電子商務網站主動找上門，提出要求想知道平臺的某類藥品（比如盤尼西林）主要銷往哪裏。但盛秋戩博士也指出，就電子商務領域的總體而言，除了像亞馬遜、eBay等一些國外大型電子商務網站開始自己買工具進行挖掘之外，國內少數注意到數據挖掘技術的網站大多是自己開發做此類工作，捨得掏錢的人還不多。

在文本挖掘和網絡挖掘之外，可視化挖掘（Visual Data Mining）因爲和工具的易用性聯繫在一起，因而也頗爲重要。

簡單來講，可視化包括了數據預處理和結果呈現兩個方面。比如StatSoft一直強調的完整的圖表工具庫以及高質量的圖表呈現效果就是其優勢所在。但是總體情況來看，可視化的內含和標準近幾年一直沒有更新的內容，而且，即便工具廠商自認爲做得再“可視化”，對於用戶來說，仍有難以理解和掌握的地方。

蘇立民介紹說，雖然現在挖掘結果的呈現已經相當易用，但是他接觸到的一些用戶依然會抱怨說，每回總是打印出那麼多表格到底有什麼用？其中的問題就在於：工具的易用性是一回事，有沒有既懂業務又懂技術的人來用卻是另一回事。

應用篇：瓜熟蒂不落？

在採訪中，筆者發現，無論廠商、集成商還是學術界，基本上都認同一個觀點，即：數據挖掘在技術上已經趨於成熟，現在更重要的就是如何拓展行業應用。 IBM軟件部中國區DB2信息管理技術經理劉晶煒表示說，數據挖掘技術已經到了一個普及化的階段，現在關鍵是要讓數據挖掘從神壇上走下來。商智通公司諮詢總監匡宏波也表示，現在數據挖掘領域的問題都不是技術問題，也不是工具問題，而是應用問題。那麼，現在，數據挖掘工具在國內的實際應用處於什麼階段呢？

從行業應用來看，目前大多數的用戶都來自電信、銀行、保險、稅務等領域，比如南京地稅、四川移動兩個案例就做得相當成功，應用主題則主要包含：消費者行爲分析、信用評分與風險管理、欺詐行爲偵測、購物籃分析等方面。綜合國內外的發展趨勢，可以看到的是，大型連鎖商店和高科技製造產業也將成爲應用數據挖掘技術的重要領域。前者的記賬質量之好爲業內公認，一旦開始數據挖掘方面的應用則前景不可限量；而在後一個領域，國外已經開始陸續導入數據挖掘技術，類似做法相信會很快爲國內製造業大廠所借鑑。

從應用層次上看，大體可以分爲三個層次，第一層次是把挖掘工具當作單獨的工具來用，偶爾用一下出具一個報告，不用專門建設系統；第二層次則是把數據挖掘模塊嵌入到系統中，稱爲部門級應用；第三層次是企業級應用，相當於把挖掘系統作爲整個企業運營的CPU。目前，國內的數據挖掘應用是本來數量就比較少，即便是做了的，也有很多隻是處於第一層次，偶爾某些用戶能夠做到第二層次。

如此一來，問題出現了：既然數據挖掘技術已經趨於成熟，爲什麼在應用上卻遲遲跟不上呢？筆者在採訪了幾家主流廠商和集成商以及業內專家後發現，問題主要集中在以下幾個方面。

其一，工具易用性強，那麼是否用戶就會運用呢？答案是否定的。

現在很多廠家都在強調工具的易用性，但是卻忽視了一個問題，即工具易用性強和用戶會運用完全是兩碼事。Sybase商務智能總監廖鋼城表示，這兩者的關係，就像用Word寫文章一樣，即便輸入法、界面等再友好，但是和使用者能否寫出流暢的文章並無關係。

“用戶總是想像使用傻瓜相機一樣使用挖掘工具，事實上這是不可能的。”盛秋戩博士表示說。據他介紹，目前很多號稱已經做完的項目，其實大部分工作仍然還都是由廠商代替客戶操作使用。

其二，複合型人才一將難求。

要成功完成一次數據挖掘過程，用戶首先要熟悉業務，其次還要對算法和模型熟悉。兩者不可偏廢，才能知道拿來的數據代表什麼，算出來的結果又代表了什麼。然而，從目前電信、金融行業的人才結構來看，如今主導建設數據挖掘系統的大都是工科出身，不但業務不熟悉，即便是對於數學領域中的統計學也都過於生疏。客觀地講，這種複合型人才的缺乏也在很大程度上造成了目前數據挖掘市場還不夠成熟。

那麼，如何解決這個問題？答案似乎很簡單，沒有，那就只有培養了。比如現在一些電信用戶就在日常培訓之外，還高薪聘請一些乙方（數據倉庫解決方案供應商）的諮詢師和顧問，專職負責自己的數據倉庫和挖掘項目，試圖由此培養一批既懂業務又懂技術的專業人才。當然，一開始說的是培養，最後實在忙不過來，用戶挖廠商牆角的事也不是沒有。

問題是，同樣是培養人才，那到底是讓業務人員學技術好呢，還是讓技術人員學業務好呢？蘇立民和廖鋼城都表示，更贊成是業務人員去學習技術。因爲業務人員是爲了應用而學習，可以實現很好的結合。目前，像中國人民大學已經開始招收有計算機專業背景的統計博士，而中國傳媒大學的數據研發中心也是文理兼收，可以想見，未來三四年內，人才缺乏的問題將逐步得到緩解。

其三，轉變意識。與國外長期的精細化管理相比，國內用戶有些時候還不太習慣迅速走向精細化。沈浩就表示，國內零售企業的記賬是最好的，也是被認爲最值得做數據挖掘的行業，但迄今爲止還沒有哪家開始做，原因就在於沒有這方面的意識。

編看編想：從一錘子買賣到沿途下蛋

生意人都知道，一錘子的買賣做不得。但筆者卻發現，在數據挖掘領域裏，敲一錘子換個地方的現象卻似乎並不鮮見。爲什麼非要這樣做呢？原因是心裏太着急。很多廠商總認爲，自己懷裏揣着的是好產品，面前的中國又是一個大市場。如此一想，就感覺不趕快搶下幾個大單簡直就沒天理了。

於是，搞售前的着急讓用戶簽單，拿到錢後又着急從用戶那裏撤退。結果如何呢？還真像那句俏皮話說的：有困難要上，沒有困難創造困難也要上。活活把一些簡單問題複雜化。有些買完工具的用戶其實需求都沒想明白，何談成功運用；而那些能在忽悠中挺過來的用戶索性就不再理這個茬。

廠商着急，其實有些用戶也着急。廠商着急賣產品，而用戶卻在着急讓花大價錢買來的產品早日上線出效益。這種想法雖然也有問題，但是可以理解。你想，誰不擔心幾十萬的資金打了水漂兒，誰又不想讓領導說這幾十萬花得值、花得好呢？

那麼，如何才能做到既能保證項目按週期實施、又不讓用戶心急火燎地難受呢？上海證券交易所信息網絡有限公司董事長趙小平提出了一個“沿途下蛋”的理論。簡單講，就是不要到最後纔給用戶下一個大金蛋，很可能這個大金蛋還沒下來，用戶就已經下了逐客令。正確的辦法就是不斷出成果，這樣用戶纔會安心等待並且積極配合。無疑，從“一錘子的買賣”到“沿途下蛋”這條路上還需要廠商和用戶慢慢琢磨。

挖潛無極限—數據挖掘技術與應用熱點掃描

PDManer [元數建模]-v4.9.0 發佈：一款簡單好用的數據庫建模平臺

使用neovim打造go ide(支持代碼跳轉, 代碼補全, 實時語法檢查)

sql求連續值問題

cs01 CSS Syntax

挑戰程序設計競賽 2.3章習題 poj 3046 Ant Counting

[MASM拾遺]Offset僞指令

h30 HTML Layout Elements

瞭解顯卡

一款基於C#開發的通訊調試工具（支持Modbus RTU、MQTT調試）

Linux/Golang/glibC系統調用

SQL SERVER 2005中添加自定義挖掘算法

2007年商業智能的三個發展趨勢

20個頂級工商管理類專業網站 [推薦]

Chinabi尋找中國的十大數據倉庫

通過微軟數據庫認證成爲MCP

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結