機器智能（十）

1、語言：有限字符串組成的集合
2、語法：用來描述語言的規則的集合
3、語言存在歧義性，自然語言規模大，且不斷變化
4、最簡單的語言模型：字符序列的概率分佈
5、n元組：長度爲n的書寫符號序列，即字母
6、n元模型：n個字符序列上的概率分佈，可以定義爲n-1階的馬爾科夫鏈
7、三元模型中字符序列的概率：

如P(the)=p(t)p(h|t)p(e|th)
應用：語言識別，建立對每種候選語言的三元模型，只針對於字符語言，漢語不行。
8、n元模型需要提供對於語料真實概率分佈的估計值
a、普通字符的估計比較準，因爲在語料庫中比較多
b、對於罕見的字符可能在語料庫中不出現，估計不準。可以通過平滑解決
c、平滑：給一些在訓練文本未出現的字符賦予一個很小的概率值，一般爲1/(n+2)，即假定前n個都沒有出現，在後面兩個中出現的概率爲1/2
9、n元語言模型需要提供大量的概率估計，導致稀疏矩陣問題，即上文提到的某些組合由於出現概率過低，在數據庫中沒有出現導致在概率矩陣中的值爲0.
10、推廣的方法：通過對短語結構的分析來計算概率：
a、非終結符號(S,NP etc.):不可觀察的符號，用大寫字母表示
b、終結符號(he etc.)：可觀察的符號,小寫字母開頭
11、文法：規則的集合，將語言定義爲允許詞串的集合，根據生成能力對文法形式進行分類
a、遞歸可枚舉(recurisively enumberable):無約束，左右兩邊任意數量的終結和非終結符：ABd-> CdE
b、上下文有關文法(Context-sensitive grammer)：右邊的符號數目不少於左邊的：ASB->AXB
c、上下文無關文法(Context-free grammer):左邊只有一個單獨的非終結符：S-> XYa
d、正則文法(Regular):左邊是一個單獨的非終結符，右邊是一個終結符後跟一個可有可無的非終結符：S-> aX
12、ε詞典將詞分爲開放類和封閉類兩種：

a、開放類：名詞，動詞，形容詞，副詞。可能發生添加或者刪減
b、封閉類：代詞，關係代詞，冠詞，介詞，連接詞。不容易發生添加與刪減
13、ε詞典將語法分爲以下幾種，並對每一種類型定義了一個概率值

a、名詞短語
b、動詞短語
c、介詞短語
d、關係從句
e、四種語法中根據不同詞性的組合可以有許多小類，最終產生一個如下的分析樹
如：every wumpus smells

得到這麼一個特定的句子出現的概率。=0.90.250.050.150.4*0.1=0.0000675
如：Mary is in Boston and the wumus is near 3 2

14、ε語法也會生成很多不符合語法的語句，即過生成，同時也會拒絕很多英語中的語句，即欠生成。
15、句法分析：按照語法規則分析單詞串從而得到其短語結構的過程，有以下兩種方法：
a、自頂向下：從S符號開始自頂向下搜索並構造以單詞作爲葉子結點的樹
b、自底向上：從單詞出發，自底向上搜索並構造樹直到頂端S

在倒數第二步的時候發現NP和VP構成一個S，成爲了S adjective，無法構成s，會進行回溯，然後再對VP Adjective進行處理，改變爲VP，再得到S
16、主格賓格：
a、針對於過生成的問題，從ε0語法到ε1語法
b、增加了部分語法：
將名詞增加了主格和賓格。
但沒有解決主語動詞一致性的問題，即第三人稱單數的問題。

17、主語動詞一致性：
a、針對ε1語法對第三人稱的過生成問題
b、包含了格一致，主語賓語一致和頭詞
c、對於S(head) NP(Sbj,pn,h)VP(pn,head)中增加了參數。當NP擁有主格，且NP和VP在人稱和數量上是一致時則NP和VP構成一個句子S
18、文本檢索的方式：
a、FREE TEXT SYSTEM：Pure string matching，字符匹配搜索：純粹基於字符的搜索。基於字符的文檔檢索，可靠性高、非智能性、應用有限
b、IR：match term occurrence patterns, little understanding，信息檢索(IR)：給定一個查詢返回一系列相關的文本。網頁檢索，考慮一篇文檔中某些詞語出現的權重和頻率。集中找到相關的文本，準確度相當重要
c、INFO EXTRACTION：文本信息抽取。針對XML文檔，一般存在一個標籤，提供了結構化的信息。自動地找到關於屬性相關的有用信息。
d、QUESTION AND ANSWER：提問回答(Quention Answer)模式。一個問答的方式，回答和提問不一定完全一致
e、DIALOG SYSTEM：提供一段診斷文本
f、NLP：像人一樣理解自然語言
19、非結構化的文本：
a、無任何結構化的組織結構
b、與DBMS包含結構化的信息不同，檢索文本之前需要對文本進行分析和索引

20、結構化的文本：
a、包含有用的結構信息
b、結構化信息的定義根據應用來決定
①、需要將結構化的信息和非結構化的信息區分開
②、應用信息抽取技術抽取結構化的信息

21、典型的IR檢索系統圖：

22、性能度量：

a、查準率：根據top n的結果是否正確得到Precison=a/(a+b)
b、查全率：根據後臺的結果是否全部找到得到Recall=a/(a+c)
23、文本分析：從文本中抽取有用的模式來表示文本本身
24、面臨的問題：
a、如何用最少的特徵(模式)來表示文本
b、如何最好的區分不同的文本
25、通常使用的文本特徵
a、字符串
b、單詞
c、結構化的信息
d、語義單元
26、研究者們建議
a、高頻率出現的詞不具有可區分性（如the me之類的）
b、低頻率或者中等頻率出現的詞是有用的
27、因此，在IR檢索系統中
a、消滅高頻的詞（停用詞）
b、稱出現頻率非常高的詞爲停用詞
c、使用其他的詞建立索引
28、那些只在少數文檔中頻繁出現的詞語對於提高對文檔的查準率是有幫助的，用idf來衡量這個指標：

N是文檔的總數
nk是包含第k個單詞的文檔的數目
如在1000個文檔中，alpha出現在100個文檔中，那麼alpha的idf值爲4.322
29、Idf用來提高查準率
30、Tf用來幫助查全率
31、將兩者結合起來形成了著名的tf-idf權值計算公式，對於一個單詞k在文檔i中的tf-idf權值計算如下：

wik是單詞i和文檔k的相關度，tik是單詞i在文檔k中出現的次數
32、多樣性問題：
a、名詞的單數複數，動詞的時態多樣性，可以用Stemming算法解決。
b、同義詞，近義詞問題，可以使用詞典Wordnet
c、如何在以上兩種情況的時候找到合適的文檔
33、詞語抽取的流程：
a、從文檔中抽取單詞
b、Stemming 單詞
c、去除停用詞
d、對於每個文檔中的每個詞計算tf-idf值
e、使用倒排文檔索引方式進行存儲
34、用向量乘積的方式計算相似度：
a、對於長句子是有偏好的
b、將用戶查詢Q和文檔Di表示成帶權值詞向量：
Q=(q1,q2,…,qt)
Di=(di1,di2,…,dit)
c、文檔Di與查詢Q之間的相似性計算如下：

d、優點
簡單
能夠使用帶權值的詞
e、缺點
假定詞與詞之間是獨立的
不能有效地處理短向量
同義詞近義詞問題
35、餘弦相似形公式：
a、查詢-文檔之間的相似性使用向量的內積來衡量：

b、歸一化後變成了著名的餘弦公式

36、基於內容的圖像搜索：
a、傳統的文本搜索
基於關鍵詞的匹配
b、多媒體搜索
基於文本的搜索方式：需要人工對多媒體數據進行標註，對於查詢爲圖像或者視頻的情況不能搜索
c、基於內容的檢索方式：基於相似性度量的方法，非精確檢索而是近似檢索
37、基於內容的圖像搜索問題：
a、感官鴻溝(Sensory Gap)：真實世界的對象被感知器感知時產生的差異，如色差
b、語義鴻溝：多媒體數據提供信號信息，人類能夠識別並理解對象的語義，在多媒體的低層感知信息與人類的高層語義理解之間存在“語義鴻溝”
38、多媒體檢索的特點：
a、大容量的數據
b、使用基於特徵的方法
c、高維數據
d、使用相似性度量的方法
e、需要高維索引技術來有效地處理用戶的查詢
f、需要集成多種特徵進行檢索
39、基於特徵的方法——相量模型：

通過向量計算相似度，然後進行排序，得到結果。