關於數據挖掘的基本經典書籍



剛接觸到數據挖掘的時候,看過一篇文章,介紹了數據挖掘方面有三本經典書籍:
(1)J.HanandM.Kamber,DataMining:ConceptsandTechniques.
本書從數據庫角度看待數據挖掘,強調效率(Efficiency)。按照本書觀點,數據挖掘是從存儲在數據庫、數據倉庫或者其他信息庫中的大量數據中發現知識的過程。
(2)I.H.WrittenandE.Frank.DataMining:PracticalMachineLearningsandTechniques.
本書從機器學習角度看待數據挖掘,強調有效(Effectiveness)。按照這本書的觀點,數據挖掘是從數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
(3)D.Hand,H.MannilaandP.Smith,PrincipleofDataMining.
本書從統計學的角度看待數據挖掘,因爲統計學是一門數學,所以本書強調數學上的正確性(Validity)。按照本書觀點,數據挖掘是分析(往往是大量的)數據集以找到未曾預料的關係,並以可理解又有用的新穎方式呈現給數據用戶的過程。
這段時間做數據挖掘,補充基礎知識時也主要以這幾本書爲指導。然後最後自己用來研讀的書卻是以下這本:
(4)Pang-NingTan,VipinKumaretc.IntroductiontoDataMining
http://book.douban.com/subject/1465939/)。
國內目前有翻譯版(http://book.douban.com/subject/1786120/),這是我現在覺得最好的數據挖掘教材。關於分類、關聯規則、聚類每一主題都分兩章來講述:第一章講基本部分,第二章講高級部分,讓人由淺入深。另有單獨的一章介紹異常檢測。本書的第一作者是物理背景出身,所以講解很重視對於算法的理解(優缺點與適用範圍等)。本書能找到PDF版完整的習題答案,非常適合於自學。
若要從以上三本書再推薦另一本入門書,我會推薦I.H.Written的那本,這本書第I部分以輸入、輸出、算法、評估的脈絡來講解數據挖掘;第II部分介紹Weka軟件使用。讀這本書的好處讀了之後馬上可以用Weka來實驗各種數據挖掘算法。
其次推薦的是DavidHand的《數據挖掘原理》(http://book.douban.com/subject/1103515/),本書作者是一名統計學家,所以裏面會涉及到數據挖掘相對於統計的獨特之處的內容,非常有價值;另外,本書以約化主義的觀點來看待數據挖掘算法,認爲有了數據集與明確的數據挖掘任務,數據挖掘算法可以看成是{模型結構、評分函數、搜索方法、數據管理技術}的四元組,然後逐一來講解每一數據挖掘算法組件,讓人覺得清楚明瞭。本書的第二章“測量與數據”也是很有價值的,因爲我們雖然通過數據來做推斷,但是數據是通過測量理論與事實(Reality)相聯繫的。


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章