目錄
7. 機器學習能解決哪些問題?每一類使用的常用方法有哪些?舉例說明其應用
8. 舉例說明機器學習的基本過程,並舉例說明基本步驟各有哪些方法。
1. 什麼是標準差、方差和協方差?它們反映了數據的什麼內容?
21.在機器學習過程的每個階段,機器學習起到什麼作用?舉例說明。
4. 總結常用的決策樹C5.0, CHAID,CART 等算法的分支標註。
8. 在決策樹的訓練過程中,如果通過剪枝減少過擬合?舉例說明。
15.以隨機森林爲例,討論爲什麼集成學習能否提高分類的性能。
11.k-中心點算法和k-原型算法對k-均值算法做了哪些改進?
19.討論自組織映射網絡 Kohonen聚類算法的基本思想,並舉例說明其應用。
2. 文本挖掘的過程由那幾個環節組成?這些環節分別負責哪些工作?
4. 文本特徵有哪些常用的方法?結合例子討論這些方法的應用。
5.TF-IDF適合提取什麼樣的文本特徵?在使用過程中 TF-IDF有哪些問題?
9. 討論 IK Analyzer開源中文分詞工具包所用的分詞算法,並用這個文具對某文本進行分詞。
17.舉例說明如何分析電商評論、論壇帖子、微博用戶帖子中用戶的情感。
4 神經網絡的激活函數有哪些?他們對神經網絡的性能有何影響。
6 討論BP神經網絡的訓練過程中學習不長、隱層個數、隱層單元數等參數如何調整?
概述篇:
1. 機器學習的發展歷史上有哪些主要事件?
機器學習發展分爲知識推理期、知識工程期、淺層知識期和深度學習幾個階段,可從幾個階段選擇主要歷史事件作答。
2. 機器學習有哪些主要的流派?它們分別有什麼貢獻?
符號主義:專家系統、知識工程
貝葉斯派:情感分類、自動駕駛、垃圾郵件過濾
聯結主義:神經網絡
進化主義:遺傳算法
行爲類推主義
3. 討論機器學習與人工智能的關係
機器學習是人工智能的一個分支,作爲人工智能核心技術和實現手段,通過機器學習的方法解決人工智能面對的問題
4. 討論機器學習與數據挖掘的關係
數據挖掘是從大量的業務數據中挖掘隱藏、有用的、正確的知識促進決策的執行。數據挖掘的很多算法都來自於機器學習,並在實際應用中進行優化。機器學習最近幾年也逐漸跳出實驗室,解決從實際的數據中學習模式,解決實際問題。數據挖掘和機器學習的交集越來越大,機器學習成爲數據挖掘的重要支撐技術
5. 討論機器學習與數據科學、大數據分析等概念的關係
數據科學主要包括兩個方面:用數據的方法研究科學和用科學的方法研究數據。前者包括生物信息學、天體信息學、數字地球等領域;後者包括統計學、機器學習、數據挖掘、數據庫等領域。大數據分析即是後者的一個部分。一般使用機器學習這個工具做大數據的分析工作,也就是說機器學習是我們做大數據分析的一個比較好用的工具,但是大數據分析的工具並不止機器學習,機器學習也並不只能做大數據分析
6. 機器學習有哪些常用的應用領域?請舉例說明其應用
藝術創作、金融領域、醫療領域、自然語言處理、網絡安全、工業領域、娛樂行業。舉例略
7. 機器學習能解決哪些問題?每一類使用的常用方法有哪些?舉例說明其應用
監督學習:
分類:邏輯迴歸、決策樹、KNN、隨機森林、支持向量機、樸素貝葉斯
數字預測:線性迴歸、KNN、Gradient Boosting、AdaBoost
無監督學習:聚類、關聯分析
強化學習
8. 舉例說明機器學習的基本過程,並舉例說明基本步驟各有哪些方法。
定義分析目標、收集數據、數據預處理、數據建模、模型訓練、模型評估、模型應用
9. 討論數據數量和質量對機器學習的影響。
機器學習需要一定數量的數據作爲支撐。數據量過多會耗費更多的計算資源,還可能有不平衡數據集、維度災難等問題。數據量過少會導致機器學習的準確率下降,甚至不能完成學習的目標。數據數量和質量問題會導致過擬合或欠擬合的現象,優秀的數據集對機器學習的結果影響是決定性的
10. 討論深度學習的發展對推動機器學習的意義
深度學習需要大量的標記數據並需要大量的計算能力,因此深度學習可以較好地應對機器學習中大規模數據集,爲機器學習提供瞭解決複雜問題的方法
11. 討論目前機器學習應用中存在的主要問題
選擇什麼模型或算法、選擇什麼優化方法、如何對數據進行預處理、目標函數是什麼、過擬合與欠擬合的處理、維度爆炸
12. 從機器學習的發展過程討論其未來的發展方向
新的機器學習算法面臨的問題更加複雜,應用領域更加廣泛,從廣度到深度發展,對模型訓練和應用都提出了更高的要求。隨着人工智能的發展,馮諾依曼的有限狀態機的理論基礎越來越難以適應神經網絡的層數要求,新的機器學習理論發展也迫在眉睫。
數學篇
1. 什麼是標準差、方差和協方差?它們反映了數據的什麼內容?
標準差描述是樣本集合的各個樣本點到均值的距離分佈,描述的是樣本集的分散程度
在機器學習中的方差就是估計值與其期望值的統計方差。如果進行多次重複驗證的過程,就會發現模型在訓練集上的表現並不固定,會出現波動,這些波動越大,它的方差就越大
協方差主要用來度量兩個隨機變量關係,如果結果爲正值,則說明兩者是正相關的;結果爲負值,說明兩者是負相關的;如果爲0,就是統計上的“相互獨立”
2.如何利用平均值和標準差判斷數據的異常值
與平均值的偏差超過三倍標準差的測定值,稱爲高度異常的異常值。在處理數據時,應剔除高度異常的異常值。異常值是否剔除,視具體情況而定
標準差可用於識別符合高斯或類高斯分佈的數據中的異常值
3.何爲正則化?其功能是什麼?
正則化是爲了避免過擬合的手段。正則化爲了結構風險最小化,在經驗風險上加一個正則化項或懲罰項,正則化項一般是模型複雜度的單調遞增函數,模型越複雜,正則化值就越大
4. 常見的數據概率分佈有哪些?
均勻分佈、正態分佈、?分佈、卡方分佈、F-分佈、二項分佈、0-1分佈、Poisson分佈
5. 損失函數和風險函數的含義和作用是什麼?
損失函數是關於模型計算結果f(x)和樣本實際目標結果的非負實值函數,記作L(y,f(x))用它來解釋模型在每個樣本實例上的誤差損失函數的值越小,說明預測值與實際值越接近,即模型的擬合效果越好
L(y,f(x))可以被認爲是模型的經驗風險,是模型關於訓練樣本集的平均損失。通常情況下,經驗風險也可以訓練數據集的損失函數來確定
損失函數反映了模型預測結果和實際結果之間的差距,理解損失函數的本質有助於對算法進行優化,需要結合業務目標和數據特點對問題本質進行理解,並用數學公式進行抽象,並選擇簡單的實現方法應用
6.訓練誤差如何度量和減少?
訓練誤差是模型Y關於訓練數據集的平均損失。損失函數可以有多種,包括0-1損失函數、平方損失函數、絕對損失函數、對數損失函數。訓練誤差較高時可以調整超參數重新訓練。
7.如何理解L0、 L1 和L2正則化?
L0正則化是通過限制向量中非0的元素的個數實現模型優化,用L0來正則化一個參數矩陣 W,目標是使其更稀疏,即W中的大部分元素都是0。很明顯,如果通過最小化L0範數作爲罰項,就是尋找最優的稀疏特徵項。L1正則化是通過對向量中各個元素絕對值之和進行限制,任何的規則化算子,如果在wi = 0的地方不可微,並且可以分解爲多項式的形式,那麼這個規則化算子就可以實現稀疏。L2正則化是指向量各元素求平方和然後求平方根,用模最小化來確保w的每個元素都很小,都接近於0。
8.什麼是交叉校驗?常用的交叉校驗方法有哪些?
在一般情況下將數據集隨機切分爲訓練集、驗證集和測試集三部分,其中訓練集用來訓練模型,驗證集用於訓練過程中模型的驗證和選擇,如果有多個模型,選擇其中最小預測誤差的模型,而測試集用於對最終訓練完成的模型進行評估。在實際應用中,數據往往並不充足,此時可以採用交叉驗證的方法,將訓練集切分成很多份,然後進行組合,以擴大可用訓練集的數量,按照樣本切分和組合方式,交叉驗證分爲以下幾種:HoldOut檢驗、簡單交叉檢驗、k折交叉檢驗、留一交叉檢驗
9.如何評價一個算法的性能?
不同算法有不同的評價指標。例如分類算法評價指標有:準確率、準確率、召回率、F1值、ROC曲線等。迴歸模型的評價指標有:平均絕對偏差(MAE)、均方誤差(MSE)、R2指標等
10.數據降維有哪些常用的方法?
主成分分析、線性判別分析、奇異值分解、局部線性嵌入、拉普拉斯特徵映射
11.舉例解釋主成分分析。
主成分分析是最常用的線性降維方法,它的目標是通過某種線性投影,將高維的數據映射到低維的空間中,並期望在所投影的維度上數據的方差最大,以此使用較少的維度,同時保留較多原數據的維度。PCA算法目標是求出樣本數據的協方差矩陣的特徵值和特徵向量,而協方差矩陣的特徵向量的方向就是PCA需要投影的方向。使樣本數據向低維投影后,能儘可能表徵原始的數據。協方差矩陣可以用散佈矩陣代替,協方差矩陣乘以(n-1)就是散佈矩陣,n爲樣本的數量。協方差矩陣和散佈矩陣都是對稱矩陣,主對角線是各個隨機變量(各個維度)的方差。
12.LDA的基本思想是什麼?舉例說明其應用。
線性判別分析的原理是對於給定的訓練集,設法將樣本投影到一條直線上,使得同類的投影點儘可能接近,異類樣本的投影點儘可能遠離;在對新樣本進行分類時,將其投影到這條直線上,再根據投影點的位置來確定新樣本的類別
13.舉例說明局部線性嵌入的應用。
參考課本中用LLE對“瑞士捲”數據集進行降維的例子
14.拉普拉斯特徵映射的功能是什麼?
,拉普拉斯特徵映射是一種基於圖的降維算法,它希望相互間有關係的點(在圖中相連的點)在降維後的空間中儘可能的靠近,從而在降維後仍能保持原有的數據結構
15.爲什麼要考慮特徵提取?
特徵提取目的是自動地構建新的特徵,將原始數據轉換爲一組具有明顯統計意義的核心特徵
16.特徵構造有哪些常用的方法?
特徵構建需要很強的洞察力和分析能力,要求能夠從原始數據中找出一些具有物理意義的特徵。如果原始數據是表格數據,一般使用混合屬性或者組合屬性來創建新的特徵,或是分解、切分原有的特徵來創建新的特徵
特徵生成前的原始數據可以分單列變量、多列變量、多行樣本(時間序列)等三種情況
17.特徵提取有哪些常用的方法?舉例說明這些方法的應用。
主成分分析、獨立成分分析、線性判別分析
18.線性迴歸的過程是什麼?舉例說明其應用
過程:
a) 確定輸入變量與目標變量間的迴歸模型,即變量間相關關係的數學表達式
b) 根據樣本估計並檢驗迴歸模型及未知參數
c) 從衆多的輸入變量中,判斷哪些變量對目標變量的影響是顯著的
d) 根據輸入變量的已知值來估計目標變量的平均值並給出預測精度
19.邏輯迴歸爲什麼可以預測新樣本的類別?舉例說明其應用。
邏輯迴歸是一種預測分析, 解釋因變量與一個或多個自變量之間的關與線性迴歸不同之處就是它的目標變量有幾種類別,所以邏輯迴歸主要用於解決分類問題,與線性迴歸相比,它是用概率的方式,預測出來屬於某一分類的概率值。如果超過50%,則屬於某一分類
20.舉例說明二次判別分析的功能。
二次判別分析是針對那些服從高斯分佈,且均值不同, 方差也不同的樣本數據而設計的。它對高斯分佈的協方差矩陣不做任何假設,直接使用每個分類下的協方差矩陣,因爲數據方差相同的時候,一次判別就可以,但如果類別間的方差相差較大時,就變成了一個關於?的二次函數, 就需要使用二次決策平面
21.在機器學習過程的每個階段,機器學習起到什麼作用?舉例說明。
舉例從定義分析目標、收集數據、數據預處理、數據建模、模型訓練、模型評估、模型應用等階段進行說明即可。
22.爲什麼可視化分析可以視爲一種機器學習方法?
可視化分析是一種數據分析方法,利用人類的形象思維將數據關聯,並映射爲形象的圖表。人腦對於視覺信息的處理要比文本信息容易得多,所以可視化圖表能夠使用戶更好地理解信息,可視化分析憑藉其直觀清晰,能夠提供新洞察和發現機會的特點活躍在諸多科學領域
決策樹與分類算法
1. 分類解決什麼問題?
分類算法是利用訓練樣本集獲得分類函數即分類模型(分類器),從而實現將數據集中的樣本劃分到各個類中。分類模型通過學習訓練樣本中屬性集與類別之間的潛在關係,並以此爲依據對新樣本屬於哪一類進行預測
2. 常用的分類算法有哪些?舉例說明其應用。
常用的分類算法包括決策樹、支持向量機、最近鄰、貝葉斯網絡和神經網絡等
3. 簡述決策樹的生成過程。
決策樹的構建過程是按照屬性的優先級或重要性來逐漸確定樹的層次結構,使其葉子結點儘可能屬於同一類別,一般採用局部最優的貪心策略來構建決策樹
4. 總結常用的決策樹C5.0, CHAID,CART 等算法的分支標註。
C5.0算法選擇分支變量的依據:以信息熵的下降速度作爲確定最佳分支變量和分割閥值的依據。信息熵的下降意味着信息的不確定性下降。
CHAID算法分支處理的標註指標是獨立性檢驗和相關性(分裂後自變量與目標變量的相關性)。
CART算法在分支處理中分支屬性的度量指標是Gini指標。
5. 舉例說明連續屬性離散化的幾種方法。
非監督離散化不需要使用分類屬性值,相對簡單,有等寬離散化、等頻離散化、聚類等方法,等寬離散化將屬性劃分爲寬度一致的若干個區間;等頻離散化將屬性劃分爲若干個區間,每個區間的數量相等;聚類將屬性間根據特性劃分爲不同的簇,以此形式將連續屬性離散化。監督離散化常用的方法是通過選取極大化區間純度的臨界值來進行劃分,C4.5與CART算法中的連續屬性離散化方法均屬於監督離散化方法;CART 算法使用Gini係數作爲區間純度的度量標準;C4. 5算法使用熵作爲區間純度的度量標準。結合幾種方法舉例說明即可。
6. 什麼是過擬合問題?如何判斷過擬合?
模型的訓練誤差低但是泛化誤差比較高,則稱此分類模型過擬合。
7. 如何減少過擬合?
解決過擬合問題,一方面要注意數據訓練集的質量,選取具有代表性樣本的訓練樣本集。另一方面要避免決策樹過度增長,通過限制樹的深度來減少數據中的噪聲對於決策樹構建的影響,一般可以採取剪枝的方法
8. 在決策樹的訓練過程中,如果通過剪枝減少過擬合?舉例說明。
剪枝是用來縮小決策樹的規模,從而降低最終算法的複雜度並提高預測準確度,包括預剪枝和後剪枝兩類。預剪枝的思路是提前終止決策樹的增長,在形成完全擬合訓練樣本集的決策樹之前就停止樹的增長,避免決策樹規模過大而產生過擬合。後剪枝策略先讓決策樹完全生長,之後針對子樹進行判斷,用葉子結點或者子樹中最常用的分支替換子樹,以此方式不斷改進決策樹,直至無法改進爲止。
9.決策樹的學習質量如何評價?
對於一般分類問題,有訓練誤差、泛化誤差、準確率、精確率、召回率、F值、受試者工作特徵曲線 (ROC)曲線等指標
10.ROC曲線如何繪製?它的主要功能是什麼?
通過將連續變量設定出多個不同的臨界值,從而計算出一系列真正率和假正率,再以假正率爲縱座標、真正率爲橫座標繪製成ROC曲線。
ROC曲線下面積越大,模型準確性越高。在ROC曲線上,最靠近座標圖左上方的點爲假正率和真正率均較高的臨界值。
11.AUC與ROC的關係是什麼?
ROC曲線下的面積稱爲AUC,AUC值越大,表示分類模型的預測準確性越高,ROC曲線越光滑,一般代表過擬合現象越輕
12.閱讀文獻,討論k折交叉校驗的方法。
k折交叉驗證法將樣本集隨機地劃分爲k個大小相等的子集,在每一輪交叉驗證中, 選擇一個子集作爲檢驗集,其餘子集作爲訓練集,重複k輪,保證每一個子集都作爲檢驗集出現,用K輪檢驗結果取平均值作爲模型好壞的評價標準。最常用的k折交叉驗證法爲十折交叉驗證
13.集成學習的基本原理是什麼?舉例說明集成學習的應用。
集成學習方法是指組合多個模型,以獲得更好的效果,使集成的模型具有更強的泛化能力。使用集成方法時會有多種形式:可以是不同算法的集成,也可以是同一算法在不同設置下的集成,還可以是數據集不同部分分配給不同學習模型之後的集成。最常見的集成思想有兩種bagging和boosting。舉例略。
14.討論GBDT算法的過程以及應用。
梯度提升決策樹算法是利用梯度下降的思想,使用損失函數的負梯度在當前模型的值,作爲提升樹中殘差的近似值,以此來擬合迴歸決策樹。梯度提升決策樹的算法過程如下:
初始化決策樹,估計一個使損失函數最小化的常數構建一個只有根節點的樹。
不斷提升迭代:計算當前模型中損失函數的負梯度值,作爲殘差的估計值;估計迴歸樹中葉子節點的區域,擬合殘差的近似值;利用線性搜索估計葉子節點區域的值,使損失函數極小化;更新決策樹。
經過若干輪的提升法迭代過程之後,輸出最終的模型
15.以隨機森林爲例,討論爲什麼集成學習能否提高分類的性能。
傳統的分類方法是在一個由各種可能的函數構成的空間中尋找一個最接近實際分類函數的分類器。可以通過聚集多個分類器的預測結果提高分類器的分類準確率,這一方法即爲集成學習。該方法由訓練數據構建一組基分類器,然後通過對每個基分類器的預測進行投票來進行分類。隨機森林算法目標是通過將多個弱學習機(如單棵決策樹)組合得到一個強學習機。隨機森林的每一棵決策樹之間是沒有關聯的。在得到森林之後,當有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應該屬於哪一類,然後看看哪一類被選擇最多,就預測這個樣本爲那一類。這樣就集成了多個分類器的分類結果,達到了更好的分類性能。
16. 舉例說明決策樹在實際分類項目中的應用。
結合課本的案例說明即可。
聚類分析
1. 聚類分析的目的是什麼?
聚類分析用於對未知類別的樣本進行劃分,將它們按照一定的規則劃分成若干個類族,把相似(距高相近)的樣本聚在同一個類簇中, 把不相似的樣本分爲不同類簇,從而揭示樣本之間內在的性質以及相互之間的聯繫規律
2.討論聚類與分析的關係
聚類算法將未標記的樣本自動劃分爲多個類簇,但不會提供對每個類簇的語義解釋,這部分解釋就需要數據分析人員對聚類結果進行歸納總結,闡述聚類的意義。
3.聚類分析常用的應用領域有哪些?
金融保險、生物學、醫學、軍事、地理、電子商務等領域都有重要用途。
4.常見的聚類有哪些方法?這些方法分別適用什麼場合?
基於劃分的聚類,多適用於中等體量的數據集,數據集越大,越有可能陷入局部最小。基於層次的聚類有自頂向下和自底向上兩種,實際使用中根據數據特點及目標“聚類”結果個數來使用哪一種。基於密度的聚類對噪聲數據的處理比較好,但不適合對參數設置非常敏感的場合基於網格的聚類適用於需要執行效率高,而對參數不敏感、無不規則分佈的數據等場合。基於模型的聚類適用於數據的“類”不那麼確定,而表現爲概率形式的場合。
5.評價聚類算法的好壞可以從哪些方面入手?
良好的可伸縮性、處理不同類型數據的能力、處理噪聲數據的能力、對樣本順序的不敏感性、約束條件下的表現、易解釋性和易用性。
具體評價指標包括外部指標如Rand統計量、F值、Jaccard指數、FM指數等;內部指標如歐式距離、曼哈頓距離、切比雪夫距離、明科夫斯基距離、緊密度、分隔度、戴維森堡丁指數、鄧恩指數等。
6.在聚類分析中,樣本之間的距離常用計算方法有哪些?
常用的距離度量有歐式距離、曼哈頓距離、切比雪夫距離和明可夫斯基距離等。
7.簡要說明基於劃分的聚類方法基本原理。
基於劃分的方法通過將對象劃分爲互斥的簇進行聚類, 每個對象屬於且僅屬於一個簇。劃分結果旨在使簇之間的相似性低,簇內部的相似度高。
8.k-均值算法的聚類數k如何確定。
第一種方法:與層次聚類算法結合,先通過層次聚類算法得出大致的聚類數目,並且獲得一個初始聚類結果,然後再通過k-均值算法改進聚類結果
第二種方法:基於系統演化的方法,將數據集視爲僞熱力學系統,在分裂和合並過程中,將系統演化到穩定平衡狀態從而確定k值
9.討論初始的k個假設聚類中心位置對k-均值算法的影響
K-means算法對初始化聚類中心依賴性比較大,很可能陷入局部最優的情況或使得迭代次數增加
10.舉例討論k-均值算法的應用。
類似課本“利用改進的k-均值算法幫助危險品運輸企業進行風險管控、防範”的案例進行案例說明即可。
11.k-中心點算法和k-原型算法對k-均值算法做了哪些改進?
k -medoids算法不通過計算簇中所有樣本的平均值得到簇的中心,而是通過選取原有樣本中的樣本點作爲代表對象代表這個簇,計算剩下的樣本點與代表對象的距離,將樣本點劃分到與其距離最近的代表對象所在的簇中。
k-prototype算法綜合了k-均值和k-總數算法,採用新的距離度量算法,加入了描述數據簇的原型和混合數據之間的相異度計算公式,能夠快速處理混合類型數據集的聚類問題。
12.簡述 CLARANS算法的思想
CLARANS算法即隨機搜索聚類算法,是一種分割聚類方法。它首先隨機選擇一個點作爲當前點,然後隨機檢查它周圍不超過參數Maxneighbor個的一些鄰接點,假如找到一個比它更好的鄰接點,則把它移人該鄰接點,否則把該點作爲局部最小量。然後再隨機選擇一個點來尋找另一個局部最小量,直至所找到的局部最小量數目達到用戶要求爲止。該算法要求聚類的對象必須都預先調人內存,並且需多次掃描數據集,這對大數據量而言,無論時間複雜度還是空間複雜度 都相當大。雖通過引人R-樹結構對其性能進行改善,使之能夠處理基於磁盤的大型數據庫,但R*-樹的構造和維護代價太大。該算法對髒數據和異常數據不敏 感,但對數據物人順序異常敏感,且只能處理凸形或球形邊界聚類。
13.討論 DBSCAN算法的幾個參數如何選擇。
Eps的值可以使用繪製k-距離曲線方法得當,在k-距離曲線圖明顯拐點位置爲對應較好的參數。若參數設置過小,大部分數據不能聚類;若參數設置過大,多個簇和大部分對象會歸併到同一個簇中。
MinPts的選取有一個指導性的原則,MinPts≥dim+1,其中dim表示待聚類數據的維度。MinPts設置爲1是不合理的,因爲設置爲1,則每個獨立點都是一個簇,MinPts≤2時,與層次距離最近鄰域結果相同,因此,MinPts必須選擇大於等於3的值。若該值選取過小,則稀疏簇中結果由於密度小於MinPts,從而被認爲是邊界點兒不被用於在類的進一步擴展;若該值過大,則密度較大的兩個鄰近簇可能被合併爲同一簇。因此,該值是否設置適當會對聚類結果造成較大影響。
14.舉例說明 DBSCAN算法的應用。
結合算法特點和具體應用說明即可。參考課本案例4.4“通過DBSCAN聚類分析城市異常事件”。
15.簡述 OPTICS算法的原理以及適用場合。
OPTICS算法生成一個增廣的簇排序,即所有分析對象的線性表,代表各樣本點基於密度聚類結構。從線性表的排序中可以得到基於任何領域參數的DBSCAN算法的聚類結果。OPTICS算法適用於數據樣本點不均勻或聚類間相差很大,以及對領域參數非常敏感時。
16.簡述基於層次聚類的思想。
層次聚類的核心思想就是通過對數據集按照層次,把數據劃分到不同層的簇,從而形成一個樹形的聚類結構。層次聚類算法可以揭示數據的分層結構,在樹形結構上不同層次進行劃分,可以得到不同粒度的聚類結果。
17.常見的層次聚類算法有哪些?分別闡述其思想
BIRCH算法的核心就是構建一個聚類特徵樹(Clustering Feature Tree,CF-Tree),聚類特徵樹的每一個節點都是由若干個聚類特徵(??)組成的。具體言之,BIRCH算法利用樹結構對數據集進行處理,葉結點存儲一個聚類,用中心和半徑表示,順序處理每一個對象,並把它劃分到距離最近的結點,該算法也可以作爲其他聚類算法的預處理過程。
CURE算法採用抽樣技術先對數據集D隨機抽取樣本,再採用分區技術對樣本進行分區,然後對每個分區局部聚類,最後對局部聚類進行全局聚類。
ROCK算法也採用了隨機抽樣技術,該算法在計算兩個對象的相似度時,同時考慮了周圍對象的影響。
CHEMALOEN(變色龍算法)算法首先由數據集構造成一個K-最近鄰圖Gk ,再通過一個圖的劃分算法將圖Gk 劃分成大量的子圖,每個子圖代表一個初始子簇,最後用一個凝聚的層次聚類算法反覆合併子簇,找到真正的結果簇。
SBAC算法則在計算對象間相似度時,考慮了屬性特徵對於體現對象本質的重要程度,對於更能體現對象本質的屬性賦予較高的權值
18.凝聚型層次聚類算法有何優點?結合案例討論其應用
凝聚的層次聚類並沒有類似基本K均值的全局目標函數,沒有局部極小問題或是很難選擇初始點的問題。合併的操作往往是最終的,一旦合併兩個簇之後就不會撤銷。當然其計算存儲的代價是昂貴的。
19.討論自組織映射網絡 Kohonen聚類算法的基本思想,並舉例說明其應用。
Kohonen聚類算法的基本思想是基於贏者通喫法則(也稱爲競爭學習),使獲勝神經元對其鄰近神經元的影響是由近及遠,對附近神經元產生興奮影響逐漸變爲抑制。通過自動尋找樣本中的內在規律和本質屬性,自組織、自適應地改變網絡參數與結構。參考課本例4.9結合案例進行應用分析即可。
20.舉例討論聚類算法與其他算法的組合應用。
參考課本例4.10“基於聚類和時間序列的易腐商品分級需求預測”案例結合具體應用進行分析即可。
文本分析
1.討論常見的文本數據有哪些來源。
可以從公開數據源下載,或者利用自有數據集,或者按照分析需求從網絡抓取
2. 文本挖掘的過程由那幾個環節組成?這些環節分別負責哪些工作?
一般經過分詞、文本特徵提取與表示、特徵選擇、知識或信息挖掘和具體應用等步驟。分詞包括了對文本分詞、去除停用詞、詞形歸一化等;文本特徵提取與表示包括了詞性標註、句法分析、語義分析、特徵提取與表示等;在特徵選擇後,通過知識提取和挖掘,具體應用到文本分類、情感分析、信息抽取和問答系統等方面。
3. 什麼是文本的特徵?
文本特徵指文本中少量的、具有代表性語義的詞語。一組文本特徵的集合即可代表整個文本的語義。
4. 文本特徵有哪些常用的方法?結合例子討論這些方法的應用。
文本數據表示常用方法有布爾模型(boolean model)、向量空間模型(vector space model)、概率模型(probabilistic model)和圖空間模型(graph space model)等。文本特徵選擇的方法一般有基於頻率的、信息增益、互信息、CHI統計量、WLLR特徵選擇方法等。
5.TF-IDF適合提取什麼樣的文本特徵?在使用過程中 TF-IDF有哪些問題?
TF-IDF適用範圍廣泛,其建立在在這樣一個假設之上的:對區別文檔最有意義的詞語應該是那些在文檔中出現頻率高,而在整個文檔集合的其他文檔中出現頻率少的詞語,所以如果特徵空間座標系取tf詞頻作爲測度,就可以體現同類文本的特點。
TF-IDF算法缺點包括:單純以“詞頻”衡量一個詞的重要性,不夠全面,有時重要的詞可能出現次數並不多(TF不高);算法中並沒有體現出單詞的位置信息,對於Web文檔而言,權重的計算方法應該體現出HTML的結構特徵;IDF的簡單結構並不能有效地反映單詞的重要程度和特徵詞的分佈情況,使其無法很好地完成對權值調整的功能。
6.向量空間模型的作用以及常用計算是什麼?
向量空間模型能把文本表示成由多維特徵構成的向量空間中的點,從而通過計算向量之間的距離來判定文檔和查詢關鍵詞之間的相似程度。常用的相似度計算方案有內積、Dice係數、Jaccard係數和夾角餘弦值。
7.分析文本分詞的基本思想,並舉例說明。
中文分詞主要包括詞的歧義切分和未登錄詞識別。切分歧義處理包括兩部分內容:切分歧義的檢測、切分歧義的消解。未登錄詞大致包含兩大類:新湧現的通用詞或專業術語等、專有名詞。
8.文本分詞有哪些常用的算法?舉例說明這些算法的應用。
中文文本分詞主要分爲基於詞典的分詞方法、基於統計的分詞方法和基於規則的分詞方法。在基於詞典的方法中,對於給定的詞,只有詞典中存在的詞語能夠被識別,其中最受歡迎的方法是最大匹配法(MM),這種方法的效果取決於詞典的覆蓋度,因此隨着新詞不斷出現,這種方法存在明顯的缺點。基於統計的方法由於使用了概率或評分機制而非詞典對文本進行分詞而被廣泛應用。基於規則的分詞要求計算機理解人類語言,較難還在試驗階段。
9. 討論 IK Analyzer開源中文分詞工具包所用的分詞算法,並用這個文具對某文本進行分詞。
IK分詞使用了”正向迭代最細粒度切分算法“,簡單說來就是: Segmenter會逐字識別詞元,設輸入”中華人民共和國“並且”中“單個字也是字典裏的一個詞,那麼過程是這樣的:”中“是詞元也是前綴(因爲有各種中開頭的詞),加入詞元”中“;繼續下一個詞”華“,由於中是前綴,那麼可以識別出”中華“,同時”中華“也是前綴因此加入”中華“詞元,並把其作爲前綴繼續;接下來繼續發現“華人”是詞元,“中華人”是前綴,以此類推……。
10. 命名實體識別的基本算法有哪些?舉例說明其應用。
命名實體識別目前主流還是基於統計的提取方式,例如最大熵、支持向量機、隱馬爾可夫模型、條件隨機場等,在實踐中應用較廣的是隱馬爾可夫模型和條件隨機場。最大熵模型關鍵是建立有效的特徵模板,結合不同層次和粒度的特徵建立中文實體語義知識庫,所以模板設計是這一模型是否具有通用性的關鍵。支持向量機對於特徵集的要求比較高,例如使用實體屬性、詞性、實體間關係等有助於提高識別的準確性,這一方法由於在細分類別上的識別效果不佳,目前應用較少。條件隨機場是一種判別式概率模型,通過分析序列資料實現對目標序列建模,相較於最大熵模型,它引入了上下文信息實現對未知詞彙的識別。隱馬爾可夫模型依賴於訓練語料的標籤標記,它的速度要快一些,所以它更適用於信息檢索等實時性要求較高的場景。
基於統計的方法對特徵選取的要求較高,對語料庫的依賴也比較大,需要從文本中選擇對該項任務有影響的各種特徵,而可用的大規模通用語料庫又比較少,目前大部分細分領域的語料庫是基於現有素材經過機器或人工的干預的方式構建的,這部分工作很難避免,也是自然語言處理的基礎工作之一。
11. 什麼是語義消歧?說明常用的語義消歧基本思想
語義消歧是自然語言理解中核心的問題,在詞義、句義、篇章含義層次都會出現不同的上下文(Context) 下語義不同的現象。消歧就是根據上下文來確定對象的真實語義。詞義消歧方法分爲以三類:
基於詞典的詞義消歧方法主要基於覆蓋度實現,即通過計算語義詞典中各詞與上下文之間合理搭配程度,選擇與當前語境最合適的詞語。但由於詞典中詞義的定義通常比較簡潔,粒度較租,造成消歧性能不高。並且,如果詞項缺失就會導致問題。
有監督的消歧方法使用已經標記好的語義資料集構建模型,通過建立相似詞語的不同特徵表示實現去除歧義的目的。
半監督或無監督方法僅需要少量人工或不需要人工標註語料,但依賴於大規模的未標註語料和語料上的句法分析結果。
12. 舉例說明常用句法分析方法的思想與應用
依存句法(Dependency Parsing, DP) 認爲句法結構本質上包含詞和詞之間的依存關係,依存關係是指詞與詞之間存在修飾關係。通過分析語言單位成分之間的依存關係揭示其句法結構,將輸入的文本從序列形式轉化爲樹狀結構,從而刻畫句子內部詞語之間的句法關係。目前主要是數據驅動的依存句法分析,通過對大規模語料進行訓練得到模型。這種方式生成的模型比較容易跨領域和語言環境。比較常見的是基於圖(graph-based) 的分析方法和基於轉移( transition- based) 的分析方法。
短語結構句法分析的研究基於上下文無關文法(CFG),CFG主要是對句子成分結構進行建模。一個CFG由一系列規則組成,每個規則給出了語言中的符號可被組織或排列的方法,以及符號和單詞構成的字典。
13.語義分析的難點在何處?舉例說明
語義分析分爲詞彙級、句子級和篇章級。其中詞彙級的難點主要在於詞義消歧和詞向量的表示。句子級語義分析分別有淺層語義分析語義角色標註和深層語義分析,其中語義角色標註包括了角色剪枝、角色識別和角色分類,在角色識別和角色分類過程中, 無論是採用基於特徵向量的方法,還是基於樹核的方法,其目的都是儘可能準確地計算兩個對象之間的相似度,這也是其難點;深度語義分析主要面臨普通文本到實體/關係謂詞之間的映射、面向開放領域的語義分析等兩個問題。篇章級的難點在於判定子句與子句的篇章語義關係。
14. 文本分類常用在什麼領域?舉例說明。
文本分類技術在智能信息處理服務中有着廣泛的應用。例如,大部分在線新聞門戶網站(如新浪、搜狐、騰訊等)每天都會產生大量新聞文章,如果對這些新聞進行人工整理非常耗時耗力,而自動對這些新聞進行分類,將爲新聞歸類以及後續的個性化推薦等都提供巨大幫助。互聯網還有大量網頁、論文、專利和電子圖書等文本數據,對其中文本內容進行分類,是實現對這些內容快速瀏覽與檢索的重要基礎。此外,許多自然語言分析任務如觀點挖掘、垃圾郵件檢測等,也都可以看作文本分類或聚類技術的具體應用。
15.討論如何從一篇比較長的新聞中抽取摘要
結合自動摘要的方法進行討論即可。可結合下列幾種方法展開:抽取式方法相對比較簡單,通常利用不同方法對文檔結構單元(句子、段落等)進行評價,對每個結構單元賦予一定權重,然後選擇最重要的結構單元組成摘要。而生成式方法通常需要利用自然語言理解技術對文本進行語法、語義分析,對信息進行融合,利用自然語言生成技術生成新的摘要句子。也可以利用拓展新將強的貝葉斯話題模型,對話題相關性概率進行建模。加權頻數的定義可以有多種,如信息檢索中常用的TF- IDF權重。還可以利用隱語義分析(LDA)得到低維隱含語義表示並加以利用。在多文檔摘要任務中,重要的句子可能和更多其他句子較爲相似,所以可以用相似度作爲節點之間的邊權,通過迭代求解基於圖的排序算法來得到句子的重要性得分。
16. 問答系統的基本原理是什麼?其中的核心問題如何解決?
問答系統在回答用戶問題時,首先需要正確理解用戶所提的自然語言問題,並抽取其中的關鍵語義信息,然後在已有語料庫、知識庫或問答庫中通過檢索、匹配、推理的手段獲取答案並返回給用戶。
問答系統的核心問題在於問句理解、文本信息抽取和知識推理。給定用戶問題,自動問答首先需要理解用戶所提問題。用戶問句的語義理解包含詞法分析、句法分析、語義分析等多項關鍵技術,需要從文本的多個維度理解其中包含的語義內容。給定問句語義分析結果,自動問答系統需要在已有語料庫、知識庫或問答庫中匹配相關的信息,並抽取出相應的答案。傳統答案抽取構建在淺層語義分析基礎之上,採用關鍵詞匹配策略,往往只能處理限定類型的答案,系統的準確率和效率都難以滿足實際應用需求。爲保證信息匹配以及答案抽取的準確度,需要分析語義單元之間的語義關係,抽取文本中的結構化知識。基於分佈式表示的知識表示學習方法能夠將實體、概念以及它們之間的語義關係表示爲低維空間中的對象(向量、矩陣等),並通過低維空間中的數值計算完成知識推理任務。雖然這類推理的效果離實用還有距離,但是我們認爲這是值得探尋的方法,特別是如何將已有的基於符號表示的邏輯推理與基於分佈式表示的數值推理相結合,研究融合符號邏輯和表示學習的知識推理技術,是知識推理任務中的關鍵科學問題。
17.舉例說明如何分析電商評論、論壇帖子、微博用戶帖子中用戶的情感。
關鍵步驟包括數據的提取、數據預處理和情感分析。結合具體案例進行闡述即可。
18.討論如何從事件報道中抽取相關的信息
事件抽取技術是從非結構化信息中抽取出用戶感興趣的事件,並以結構化呈現給用戶。常用的事件抽取的方法包括模式匹配方法和機器學習方法,其中模式匹配方法是指對於某種類型事件的識別和抽取是在一些模式的指導下進行的,採用各種模式匹配算法將帶抽取的事件和已知的模式進行匹配。模式匹配方法由兩個基本步驟組成:模式獲取和事件抽取。機器學習方法其實就是一種分類方法,它是建立在統計模型的方法上,將事件類型與事件元的識別轉換成分類問題。這種方法主要是選擇合適的特徵值與分類器來完成相關的分類。
神經網絡
1 簡述感知機的基本原理
一個感知器可以接收n個輸入x=(x1,x2,…,xn),對應n個權值w=(w1,w2,…,wn),此外還有一個偏置項閾值,就是圖中的b,神經元將所有輸入參數與對應權值進行加權求和,得到的結果經過激活函數變換後輸出,計算公式如下:
2 討論BP神經網絡的學習過程
BP神經網絡訓練過程的基本步驟可以歸納如下:初始化網絡權值和神經元的閾值,一般通過隨機的方式進行初始化;前向傳播:計算隱層神經元和輸出層神經元的輸出;後向傳播:根據目標函數公式修正權值wij。上述過程反覆迭代,通過損失函數和成本函數對前向傳播結果進行判定,並通過後向傳播過程對權重參數進行修正,起到監督學習的作用,一直到滿足終止條件爲止。
3 BP神經網絡有哪些常見應用?
BP網絡主要用於以下四個方面。
函數逼近:用輸入向量和相應的輸出向量訓練一個網絡逼近一個函數。
模式識別:用一個待定的輸出向量將它與輸入向量聯繫起來。
分類:把輸入向量所定義的合適方式進行分類。
數據壓縮:減少輸出向量維數以便於傳輸或存儲
4 神經網絡的激活函數有哪些?他們對神經網絡的性能有何影響。
激活函數經常使用Sigmoid函數、tanh函數、ReLu 函數。
Sigmoid函數的優點在於輸出範圍有限,數據在傳遞的過程中不容易發散,並且其輸出範圍爲(0,1),可以在輸出層表示概率值。Sigmoid函數的導數是非零的,很容易計算。
Sigmoid函數的主要缺點是梯度下降非常明顯,且兩頭過於平坦,容易出現梯度消失的情況,輸出的值域不對稱,並非像tanh函數那樣值域是-1到1。
雙曲正切函數將數據映射到[-1,1],解決了Sigmoid函數輸出值域不對稱問題。另外,它是完全可微分和反對稱的,對稱中心在原點。然而它的輸出值域兩頭依舊過於平坦,梯度消失問題仍然存在。爲了解決學習緩慢和梯度消失問題,可使用其更加平緩的變體,如log-log、Softsign、Symmetrical Sigmoid等
ReLU函數是目前神經網絡裏常用的激活函數,由於ReLU函數是線性特點使其收斂速度比Sigmoid、Tanh更快,而且沒有梯度飽和的情況出現。計算更加高效,相比於Sigmoid、Tanh函數,只需要一個閾值就可以得到激活值,不需要對輸入歸一化來防止達到飽和。
5 BP神經網絡訓練過程中如何減少陷入最小極值點?
可以有多種方法:
- 以多組不同參數初始化多個神經網絡,按標準方法訓練後去其中誤差最小的解作爲最終參數。相當於從多個不同的初始點開始搜索,這樣可能陷入不同的局部最小值,從中選出可能獲得更接近全局最小的結果
- 使用模擬退火。模擬退火在每一步都以一定概率接受比當前解更差的結果,從而有助於跳出局部最小。在每部迭代中接受次優解的概率隨着時間的推移而逐漸降低,從而保證算法穩定
- 採用隨機梯度下降。與標準梯度下降的精確計算梯度不同,隨機梯度下降在計算題都的時候加入了隨機因素,因此,即時陷入局部極小點,它計算出來的梯度仍可能不爲0,就有機會跳出局部最小繼續搜索
- 遺傳算法
6 討論BP神經網絡的訓練過程中學習不長、隱層個數、隱層單元數等參數如何調整?
算法的步長選擇。步長實際上取值取決於數據樣本,可以多取一些值,從大到小,分別運行算法,看看迭代效果,如果損失函數在變小,說明取值有效,否則要增大步長。步長太大,會導致迭代過快,甚至有可能錯過最優解。步長太小,迭代速度太慢,很長時間算法都不能結束。所以算法的步長需要多次運行後才能得到一個較優的值。
網絡的層數。理論已經證明,具有偏差和至少一個S型隱層加上一個線性輸出層的網絡,能夠逼近任何有理函數,增加層數可以進一步降低誤差,提高精度,但同時也是網絡 複雜化。另外不能用僅具有非線性激活函數的單層網絡來解決問題,因爲能用單層網絡解決的問題,用自適應線性網絡也一定能解決,而且自適應線性網絡的 運算速度更快,而對於只能用非線性函數解決的問題,單層精度又不夠高,也只有增加層數才能達到期望的結果。
隱層單元數。在能夠解決問題的前提下,再加上一兩個神經元,以加快誤差下降速度即可。
7 RBF神經網絡的基本原理是什麼?
徑向基函數網絡的隱含層是由徑向基函數神經元組成,這一神經元的變換函數爲徑向基函數。典型的RBF網絡由輸入層、RBF隱層和由線性神經元組成的輸出層。與傳統的即神經網絡相比,其主要區別是隱層節點中使用了徑向基函數、對輸入進行了高斯變換、將在原樣本空間中的非線性問題,映射到高維空間中使其變得線性,然後在高維空間裏用線性可分算法解決,RBF網絡採用高斯函數作爲核函數:
y=exp-bx-w2
RBF網絡的隱層神經元自帶激活函數,所以其層數可以只有一層隱層, 權重值數量更少,所以RBF網絡較BP網絡速度快很多。
8 RBF爲什麼可以減少局部極少值難題?
當RBF的中心點確定以後,低維空間的輸入通過非線性函數到一個高維空間的這種映射關係也就確定了。而隱含層空間到輸出空間的映射是線性的,即網絡的輸出是隱單元輸出的線性加權和,此處的權即爲網絡可調參數。由此可見,從總體上看,網絡由輸人到輸出的映射是非線性的,而網絡輸出對可調參數而言卻又是線性的。這樣網絡的權就可由線性方程組直接解出,從而大大加快學習速度並避免局部極小問題。
9 Elman神經網絡的優點是什麼?舉例說明這種網絡的應用
Elman網絡是在時間上動態的,具有內部動態反饋的功能,承接層的設置使得Elman網絡能夠有效應對具有時變特徵的數據,在帶有時序性的樣本數據上有着比靜態神經網絡更好的預測性能
10 與決策樹比較,神經網絡適合處理什麼類型的數據和問題?
在中小數據集上,優先選擇集成樹模型。大數據集上推薦神經網絡;在需要模型解釋度的項目上,優先使用樹模型;在項目時間較短的項目上,如果數據質量低(大量缺失值、噪音等),優先使用集成樹模型;在硬件條件有限及機器學習知識有限的前提下,優先選擇樹模型;對於結構化較高的數據,尤其是語音、圖片、語言,優先使用神經網絡模型(往往其數據量也較大)。
11 如何避免過擬合?
常用的防止過擬合的方法有參數範數懲罰、數據增強、提前終止、Bagging等集成方法、Dropout、批正則化等。
12 爲什麼要對模型的輸入數據進行歸一化?
歸一化的目的就是使得預處理的數據被限定在一定的範圍內(比如[0,1]或者[-1,1]),從而消除奇異樣本數據導致的不良影響。
13 什麼是梯度消失?
因爲通常神經網絡所用的激活函數是sigmoid函數,這個函數有個特點,就是能將負無窮到正無窮的數映射到0和1之間,並且對這個函數求導的結果是f′(x)=f(x)(1−f(x))。因此兩個0到1之間的數相乘,得到的結果就會變得很小了。神經網絡的反向傳播是逐層對函數偏導相乘,因此當神經網絡層數非常深的時候,最後一層產生的偏差就因爲乘了很多的小於1的數而越來越小,最終就會變爲0,從而導致層數比較淺的權重沒有更新,這就是梯度消失。
14 如何加快梯度下降的速度?
可以使用mini-batch、Stochastic gradient descent等方法。mini-batch是將訓練集分組,分組之後,分別對每組求梯度,然後更新參數。加入分 8組,則每次迭代將會做8次梯度下降,更新8次參數。所以mini-batch比傳統的梯度下降法下降的速度快。Stochastic gradient descent可以看做是mini-batch的一種特殊情況,當mini-batch size等於1時,mini-batch就退化爲Stochastic gradient descent。此時每次迭代中,對於數據集中每個樣本都做一次梯度下降。還可以使用Monmentum、RMSprop、Adam等方法。
支持向量機
1 作爲一種分類算法,支持向量機的基本原理是什麼?
支持向量機是一種二類分類模型。它的基本模型是定義在特徵空間上的間隔最大的線性分類器,支持向量機還包括核技巧,這使它成爲實質上的非線性分類器。支持向量機的學習策略就是間隔最大化,可形式化爲一個求解凸二次規劃的問題,也等價於正則化的合頁損失函數的最小化問題。支持向量機的學習算法是求解凸二次規劃的最優化算法。
2 支持向量機適合解決什麼問題?
支持向量機用於二元分類問題,對於多元分類可以將其分解爲多個二元分類問題,再進行分類。
3 支持向量機常用在哪些領域?
支持向量機常用在圖像分類、文本分類、面部識別以及垃圾郵件檢測等領域。
4 支持向量機常用的核函數有哪些?
線性核函數:主要用於線性可分的情況。
多項式核函數:一種非穩態核函數,適合於正交歸一化後的數據。
徑向基核函數:具有很強的靈活性,應用廣泛。大多數情況下有較好的性能。
Sigmoid核:來源於MLP中的激活函數,SVM使用Sigmoid相當於一個兩層的感知機網絡。
5 核函數的選擇對支持向量機的性能有何影響?
只要一個對稱函數所對應的核矩陣半正定,它就能作爲核函數使用。事實上,對於一個半正定核矩陣,總能找到一個與之對應的映射。核函數的使用,不一定能夠準確的劃分,只能說使用哪個核函數,能夠逼近真實的劃分效果。因此特徵空間的好壞對支持向量機的性能至關重要。在不知道特徵映射的形式時,我們並不知道什麼樣的核函數是合適的,而核函數也僅是隱式定義了這個特徵空間。於是,核函數的選擇成爲了支持向量機的最大變數。若核函數選擇不合適,則意味着映射到一個不合適的特徵空間,很可能導致性能不佳。
深度學習
1 深度學習的提出背景是什麼?
深度學習是一種利用複雜結構的多個處理層來實現對數據進行高層次抽象的算法,是機器學習的一個重要分支。傳統的BP算法僅有幾層網絡,需要手工指定特徵且易出現局部最優問題,而深度學習引入了概率生成模型,可自動地從訓練集提取特徵,解決了手工特徵考慮不周的問題。而且初始化了神經網絡權重,採用反向傳播算法進行訓練,與BP算法相比取得了很好的效果。
2 討論大數據技術對深度學習的促進作用。
除了組織存儲的數據類型的不同,數據的絕對量是促進深度學習工具和技術發展的一個關鍵因素。新興公司積累了足夠的數據後,技術才能更好地發揮作用。例如Affectiva的前身是麻省理工學院媒體實驗室在2009年推出的一個研究項目。最初,該公司的研究人員試圖用一對夫婦的視頻“訓練”面部識別軟件,用該軟件解釋實驗者的情緒狀態。多年來,Affectiva爲數以百萬計的人像鏡頭建立了視頻庫。現在,McDuff的機器學習算法能夠更加準確地評估人的情緒。
3 比較深度學習主流的幾種學習框架。
Torch:Lua語言編寫的自帶API的深度學習計算框架,支持機器學習算法,核心是以圖層的方式定義網絡,優點是包括了大量模塊化的組件,可以快速進行組合,並且具有較多訓練好的模型,可以直接應用。
TensorFlow:用Python API編寫,對應的教程、資源、社區貢獻都較多,支持深度學習、強化學習和其他算法的工具,支持數據和模型的並行運行。
Caffe:這是一款工業級深度學習工具,將Matlab實現的快速卷積神經網絡移植到了C和C++平臺上。不適用於文本、聲音或時間序列數據等其他類型的深度學習應用。
Keras:是一個基於Theano和TensorFlow的深度學習庫,具有較爲直觀的API,這可能是目前最好的Python API,未來可能會成爲TensorFlow默認的Python API,更新速度較快,相應的資源也多,收到廣大開發者追捧。
4 描述卷積神經網絡的結構。
卷積神經網絡是一種稀疏的網絡結構,其中卷積層和子採樣層是特徵提取功能的核心模塊。卷積神經網絡採用梯度下降的方式,應用最小化損失函數對網絡中各節點的權重參數逐層調節,通過反向遞推,不斷地調整參數使得損失函數的結果逐漸變小,從而提升整個網絡的特徵描繪能力,使卷積神經網絡分類的精確度和準確率不斷提高。
5 如何防止卷積神經網絡的過擬合問題?
防止過擬合的方法有三類:人爲增加數據集;正則化;Dropout。在原有在訓練圖像識別的深度神經網絡時,使用更多的圖像數據集訓練的模型會使訓練的網絡具有更好地泛化性能,減小過擬合。正則化的作用是調節模型複雜度對損失函數的影響,若權重衰減很大,則複雜的模型損失函數的值也就大。使用dropout是在每次訓練過程中隨機將部分神經元的權重置爲0,即讓一些神經元失效,這樣可以縮減參數量,避免過擬合。
6 簡述循環神經網絡模型的工作原理。
循環神經網絡是一種對序列數據建模的神經網絡。循環神經網絡中一個當前神經元的輸出與前面的輸出也有關,網絡會對前面的信息進行記憶並應用於當前神經元的計算中,即隱藏層之間的節點是有連接的,並且隱藏層的輸入不僅包括輸入層的輸出還包括上一時刻隱藏層的輸出。理論上,循環神經網絡可以對任何長度的序列數據進行處理。但是在實踐中,爲了降低複雜性往往假設當前的狀態只與前面的幾個狀態相關。
7 常見的卷積神經網絡有哪些?
LeNet:LeNet網絡是較早出現的卷積神經網絡,在這個網絡出現之後各類神經網絡不斷湧現。
AlexNet網絡:這是最早的現代神經網絡,這個模型證明了CNN在複雜模型下的有效性,使用GPU使得訓練在可接受的時間範圍內得到結果,推動了有監督深度學習的發展。
VGG網絡:VGG的一個特點是層數多。VGG是5個group的卷積2層全連接層用於提取圖像特徵、一層全連接層用於分類特徵。
高級深度學習
1 目標檢測與追蹤中的運動目標如何合理地表示?
目標檢測和追蹤需要注意運動目標的表示,例如對其視覺特徵進行建模,並採用相似性度量來對幀圖像進行匹配,在追蹤過程中需要處理大量冗餘信息,採用搜索算法縮小比較範圍。爲了合理地表示運動目標,首先要獲取目標的初始狀態並且提取目標的特徵,在此基礎上構建目標描述模型,模型可分爲生成式模型和判別式模型。生產式方法運用生成模型描述目標的表現特徵,之後通過搜索候選目標來最小化重構誤差。判別式方法通過訓練分類器來區分目標和背景。
2 舉例說明R-CNN的應用。
R-CNN可以用於目標檢測、圖像識別、檢索和分類。R-CNN可以應用在車輛目標檢測,食品圖像檢索和分類,手勢識別,植物關鍵器官識別,人體行爲檢測等具體的應用場景中。
3 簡述O-學習的基本過程。
Q-學習是讓主體從一個狀態到另一個狀態不斷轉換進行探索學習。主體的每一次探索都會從初始狀態到目標狀態,相當於一次迭代,訓練越多,學到的東西越多。初始時會將所有狀態-行動組合的Q-值初始化爲0,將狀態獎勵值設置爲初始值,主體會探索很多狀態直至發現一個獎勵,因此會對訓練Q-函數限制一個訓練長度,或者限制訓練直到達到某些狀態。保證主體不會卡在無用狀態的學習中,避免不管做多少次迭代都無法得到有用的獎勵值。
4 遷移學習解決什麼問題?
主要解決兩個問題:小數據的問題。比方說新開一個網店,賣一種新的糕點,沒有任何的數據,就無法建立模型對用戶進行推薦。但用戶買一個東西會反應到用戶可能還會買另外一個東西,所以如果知道用戶在另外一個領域,比方說買飲料,已經有了比較多的數據,利用這些數據建一個模型,結合用戶買飲料的習慣和買糕點的習慣的關聯,就可以把飲料的推薦模型給成功地遷移到糕點的領域,這樣在數據不多的情況下可以成功推薦一些用戶可能喜歡的糕點。這個例子說明,假設有兩個領域,一個領域已經有很多的數據,能成功地建一個模型,有一個領域數據不多,但是和前面那個領域是關聯的,就可以把那個模型給遷移過來;個性化的問題。比如每個人都希望自己的手機能夠記住一些習慣,這樣不用每次都去設定它,怎麼才能讓手機記住這一點呢?其實可以通過遷移學習把一個通用的用戶使用手機的模型遷移到個性化的數據上面。
5 強化學習的基本思想是什麼?
強化學習是目標導向的,從白紙一張的狀態開始,經由許多個步驟來實現某一個維度上的目標最大化。就是在訓練的過程中不斷嘗試,錯誤就懲罰,正確就獎勵,由此訓練得到的模型在各個狀態環境下都最好。
- 遷移學習常用的方法有哪些?
遷移學習的實現方法包括基於樣本的遷移學習、基於特徵的遷移學習、基於模型的遷移學習、基於關係知識的遷移等,一般來說,前三種方法具有更廣泛的知識遷移能力。基於關係的遷移具有廣泛的學習與擴展能力。 - 討論生成對抗模型的組成。
生成對抗網絡由一個生成網絡與一個判別網絡組成。生成對抗網絡的實現方法是讓生成模型和判別模型進行博弈,訓練過程通過相互博弈使用兩個模型的性能同時增強。生成模型需要在整個條件內去產生數據的分佈,就像高斯分佈一樣,它需要去擬合整個分佈。判別模型就像分類一樣,有一個判別界限,通過這個判別界限去區分樣本。
推薦系統
1 推薦系統的功能是什麼?
推薦系統是一種幫助用戶快速發現有用信息的工具。通過分析用戶的歷史行爲,研究用戶偏好,對用戶興趣建模,從而主動給用戶推薦能夠滿足他們感興趣的信息。本質上,推薦系統是解決用戶額外信息獲取的問題。在海量冗餘信息的情況下,用戶容易迷失目標,推薦系統主動篩選信息,將基礎數據與算法模型進行結合,幫助其確定目標,最終達到智能化推薦。
2 討論推薦系統的結構組成。
推薦系統有三個重要的模塊,包括輸入模塊、推薦算法模塊、推薦輸出模塊。推薦系統首先通過分析用戶行爲數據,建立用戶偏好模型。然後使用用戶興趣匹配物品的特徵信息,再通過推薦算法進行篩選過濾,找到用戶可能感興趣的推薦對象,最終推薦給用戶。上述過程經過訓練和驗證最終形成推薦模型,可用於在線或離線推薦。同時推薦結果在用戶端的響應也作爲輸入數據,用於模型的迭代優化。
3 推薦系統常用於哪些領域?舉例說明。
推薦系統可用於電商平臺、個性化電影網站、音樂歌單、社交網絡、新聞網站、個性化閱讀、個性化廣告等。電商平臺中的“猜你喜歡”、“購買此商品的用戶也購買了”等;電影網站、音樂歌單中的電影推薦、音樂推薦;社交網絡中的好友推薦、資訊內容推薦;新聞網站中的個性化資訊的獲取;個性化閱讀中爲用戶定製的感興趣的個性化內容;爲特定用戶展示的特定廣告都屬於推薦系統的應用。
4 推薦系統常用的方法有哪些?這些方法分別適用什麼場合?
基於人口統計學的推薦,在不同的物品領域都可以使用,具有領域獨立性;基於內容的推薦,這種方法適用於物品特徵易於提取的場合;基於協同過濾的推薦,這種方法要在能夠獲取到用戶歷史行爲的場合下應用;基於關聯規則的推薦,常用於實體商店或在線電商的推薦系統;基於知識的推薦,主要用於知識型的產品中;基於約束的推薦,通常被用於爲那些不經常被購買的產品領域構建推薦系統;基於標籤的推薦,應用在有描述信息的關鍵詞產生和應用的場合中。
5 基於內容推薦的基本思想是什麼?
基於內容推薦是基本思想是根據物品的屬性和用戶的特殊偏好,直觀的選擇可推薦物品。比如,《哈利.波特》是一本科幻小說;用戶愛麗絲很喜歡科幻小說,系統就會直接推薦一本新出版的《哈利.波特》給愛麗絲。
6 什麼是冷啓動問題?如何解決?
冷啓動是用戶數據較少、用戶行爲較少的問題,主要分三類:系統冷啓動、物品冷啓動、用戶冷啓動。系統冷啓動可以先建立起物品的相關度,通過某一物品可以檢索到與之相似的其他物品,用戶表現出對物品感興趣後推薦與之相似的其他物品。新上線的物品可以利用物品內容相似性,推薦給喜歡類似物品的用戶。用戶冷啓動提供非個性化推薦,比如熱門排行。或者利用用戶註冊信息以及用戶的社交網絡賬號。
7 推薦系統的性能如何評價?
通過用戶調查、離線實驗、在線實驗這些實驗方法來評價,主要評價用戶滿意度、預測準確度、覆蓋率、多樣性、新穎性、驚喜度、信任度、實時性、健壯性這些指標。
參考資料:
https://blog.csdn.net/weixin_41524411/article/details/91171064