非結構化數據分析

結構化數據>>數據庫   二維表  

非結構化數據>>信息檢索  自由文本最典型 圖片 視頻 音頻    以關鍵字查詢

半結構化數據


文本挖掘的基本流程:

分詞tokenizer

文法處理  把他還原成原始單詞  linguistic modules

每個詞作為一列  變成結構化數據>>表   structured data

數據挖掘  關聯分析 異常點檢測


第一階段: 文本處理的過程 預處理

非結構化>>結構化 

文本表示成向量空間模型 二維表

特徵抽取 降維


第二階段

數據挖掘 機器學習

結構化數據轉換成模式

分類器

把訓練集作為輸入



文本處理

用什麼格式 語言 字符集 --------- 文本分類的問題

複雜性 : 一個文檔可以包含多個語言  例如郵件


分詞 
 分詞工具

分詞結果是"token"

分完可以作為表  屬性 特徵  表裡面的列   訓練集
特徵選擇與抽取???最大謪....


訓練階段

預測階段

降維 減少特徵是為了減少訓練時間

使預測模型更快、更小


詞頻是最簡單的方法



文本挖掘 ---分類

二元分類 多元分類>>分類體系  人工設定

分類體系=知識結構

ex杜威十進制圖書分類

可能是樹型  層次結構 

分類體系跟機器沒關係



分類vs.預測

分類  

主要用於離散數據的預測


1根據訓練集 構造分類模型  分類體系已事先構造

2.估計分類模型的準確性 如果可接受就利用他來對未來數據進行分類


預設

用於連續數據的預測





結構化數據  訓練集


算法 (knn 決策樹 支持向量機)


分類器classifier


找出一個通用法則>>模型


用testing data來檢測準確率

準確率ok就對未來數據進行預測



Training data

前有n-1個屬性 最後有一列屬性

Testing data

同訓練集  

Future data

和前兩個不同  最後一列不知道


分類器是一個函數f(x)=y 函數映射的過程 函數逼近問題


監督學習vs.無監督學習


有監督學習

有訓練集 測試集 未來數據


無監督學習

聚類 
把一堆數據分組


半監督學習

訓練集很少 不足以學習 但數據給了一些限制



分類   有監督  

兩歲寶寶給他看幾個水果  告訴他紅的圓的是蘋果  橘的圓的是橘子>>>建模

拿一個水果問寶寶是什麼>>用模型


聚類 無監督  沒有指導

給他一堆水果 告訴他  根據顏色分成兩堆  寶寶會將頻果分一堆橘子分一堆



分類預測相關問題 

1數據預處理 

數據清洗>>>去掉噪聲 缺失數據

相關分析>>>特徵選擇最重要  特徵有沒有代表性



2評價

準確性

速度  訓練時間>>較長  預測時間

魯棒性  能夠處理噪聲和缺失數據

可伸縮性  對磁盤級的數據庫有效   分部式環境

易交互性  模型容易理解 具有較好的洞察力  決策樹 貝葉思較好理解



文本分類

step1學習階段 建模階段 :

輸入

一個訓練集,包含n個文檔及其類標號

--將每個文檔轉成表中的一行

-------issue:怎樣表示這些文檔  特徵選擇 ex I am a student

-------通常採用某種類型的高維空間

        bag of words  把文檔分割成詞之後看詞頻


輸出

一個分類函數 分類器


step2運用測試集看準確度


step3:預測階段:

輸入

一個新的文檔d 不知道其最後的類標籤

將d轉換成和訓練集的行一樣  屬性要和訓練集一樣


輸出

文檔d的類別



文本分類例子

支持向量機

特徵

有監督的分類方法可以使用任何特徵

現在採用bag of words


每個文檔是一個向量

每個詞是一個特徵


支持向量機support vector machine

對空間進行劃分

二維 找一條線

三維以上 找一個超平面

用來分類  擅長二元分類

往左往右各碰到不同類的一個點 中間的距離就形成空隙  這個空隙越大越好>>最大邊緣 the maximum margin linear classifier


w1x1 + w2x2 + ......+ wnxn + b =0

w = [w1 , w2 , .....wn]

x = [x1 , x2 , .......xn]

wx+b=0

w=斜率

b=截距

把m變成(W , b) 的形式

支持向量是由碰到的那些點所創造的


往上是正平面WX+b=1  ------------------(1)

往下是負平面WX+b= -1--------------------(2)

W是直線的法向量 


數學推導後得知

M= 2 / ||W||     W最小時M最大


>>>QP的問題



數據有重疊  無法直接畫一條線?

仍最大化M 減少出錯點的個數


線性不可分的情況??不管怎樣都分不開?

>>>>>使用kernel方法(核函數)  升維

一維變二維  二維變三維  屬性不變  複雜的核函數理論


ex分辨文章 是1作者還是2作者

掃描

詞頻

訓練集

找出最優超平面

測試集



多元svm

把每個類別轉換成二元分類問題


分類評價指標

準確率

召回率

f-measure


作業: 

比賽

搜狗-中國數據庫學術會議萬維網知識提取大賽 

http://iir.ruc.edu.cn/ndbccup2016

把廣告 詐騙提取出  分開正常數據與廣告數據   到六月多


分詞  結構化處理 分類算法 二元結果



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章