從7月份開始,要開始讀這本由Ronen Feldman和James Sanger寫的《The Text Mining Handbook》。正好學校似乎對於我們在方向的把握能力上相當放心,基本在學了一些沒什麼用處的課程後,就不再爲我們指導什麼了。
當然,因導師而異,除非導師們也都是半瓶水晃盪。不說了。。。
0 前言
0.1. TM(Text Mining, 文本挖掘) 的目標: 解決信息量過載問題。即信息量爆炸,現有的搜索引擎或者檢索工具,只是在輸入關鍵詞後提供更多的查詢結果。惡化了由信息爆炸帶來的問題。
0.2. TM 與 數據挖掘DM,機器學習ML,自然語言處理NLP,信息檢索IR,知識管理KM相關。使用了其中的某幾項技術。TM就像好多其他科目,比如知識工程等等,不斷的結合好幾個領域的內容,演變而來。
0.3. TM的處理客體是文檔集合(document collection),包括:文檔集合預處理(分類、聚類、信息提取、術語提取等),中間表述存儲,中間表述分析,可視化結果等。
這就是前言中有用的地方了。