深度學習基礎知識題庫大全

1、梯度下降算法的正確步驟是什麼？

a.計算預測值和真實值之間的誤差

b.重複迭代，直至得到網絡權重的最佳值

c.把輸入傳入網絡，得到輸出值

d.用隨機值初始化權重和偏差

e.對每一個產生誤差的神經元，調整相應的（權重）值以減小誤差

A.abcde B.edcba C.cbaed D.dcaeb

解析：正確答案D，考查知識點-深度學習。

2、已知：

- 大腦是有很多個叫做神經元的東西構成，神經網絡是對大腦的簡單的數學表達。

- 每一個神經元都有輸入、處理函數和輸出。

- 神經元組合起來形成了網絡，可以擬合任何函數。

- 爲了得到最佳的神經網絡，我們用梯度下降方法不斷更新模型

給定上述關於神經網絡的描述，什麼情況下神經網絡模型被稱爲深度學習模型？

A.加入更多層，使神經網絡的深度增加

B.有維度更高的數據

C.當這是一個圖形識別的問題時

D.以上都不正確

解析：正確答案A，更多層意味着網絡更深。沒有嚴格的定義多少層的模型才叫深度模型，目前如果有超過2層的隱層，那麼也可以及叫做深度模型。

3、訓練CNN時，可以對輸入進行旋轉、平移、縮放（增強數據）等預處理提高模型泛化能力。這麼說是對，還是不對？

A.對 B.不對

解析：對。如寒sir所說，訓練CNN時，可以進行這些操作。當然也不一定是必須的，只是data augmentation擴充數據後，模型有更多數據訓練，泛化能力可能會變強。

4、下面哪項操作能實現跟神經網絡中Dropout的類似效果？

A.Boosting B.Bagging C.Stacking D.Mapping

解析：正確答案B。Dropout可以認爲是一種極端的Bagging，每一個模型都在單獨的數據上訓練，同時，通過和其他模型對應參數的共享，從而實現模型參數的高度正則化。

5、下列哪一項在神經網絡中引入了非線性？

A.隨機梯度下降

B.修正線性單元（ReLU）

C.卷積函數

D.以上都不正確

解析：正確答案B。修正線性單元是非線性的激活函數。

6.深度學習是當前很熱門的機器學習算法，在深度學習中，涉及到大量的矩陣相乘，現在需要計算三個稠密矩陣 A,B,C 的乘積ABC,假設三個矩陣的尺寸分別爲m∗n，n∗p，p∗q，且m < n < p < q，以下計算順序效率最高的是（）

A、 (AB)C
B、 AC(B)
C、 A(BC)
D、所以效率都相同

正確答案是：A

首先，根據簡單的矩陣知識，因爲 A*B ， A 的列數必須和 B 的行數相等。因此，可以排除 B 選項，
然後，再看 A 、 C 選項。在 A 選項中，m∗n 的矩陣 A 和n∗p的矩陣 B 的乘積，得到 m∗p的矩陣 A*B ，而 A∗B的每個元素需要 n 次乘法和 n-1 次加法，忽略加法，共需要 m∗n∗p次乘法運算。同樣情況分析 A*B 之後再乘以 C 時的情況，共需要 m∗p∗q次乘法運算。因此， A 選項 (AB)C 需要的乘法次數是 m∗n∗p+m∗p∗q 。同理分析， C 選項 A (BC) 需要的乘法次數是 n∗p∗q+m∗n∗q。

7.輸入圖片大小爲200×200，依次經過一層卷積（kernel size 5×5，padding 1，stride 2），pooling（kernel size 3×3，padding 0，stride 1），又一層卷積（kernel size 3×3，padding 1，stride 1）之後，輸出特徵圖大小爲

A、 95

B、 96

C、 97

D、 98

正確答案是：C

首先我們應該知道卷積或者池化後大小的計算公式，其中，padding指的是向外擴展的邊緣大小，而stride則是步長，即每次移動的長度。
這樣一來就容易多了，首先長寬一般大，所以我們只需要計算一個維度即可，這樣，經過第一次卷積後的大小爲: 本題（200-5+2*1）/2+1 爲99.5，取99；經過第一次池化後的大小爲：（99-3）/1+1 爲97；經過第二次卷積後的大小爲：（97-3+2*1）/1+1 爲97

8.神經網絡模型（Neural Network）因受人類大腦的啓發而得名

神經網絡由許多神經元（Neuron）組成，每個神經元接受一個輸入，對輸入進行處理後給出一個輸出，如下圖所示。請問下列關於神經元的描述中，哪一項是正確的？

A、每個神經元可以有一個輸入和一個輸出

B、每個神經元可以有多個輸入和一個輸出

C、每個神經元可以有一個輸入和多個輸出

D、每個神經元可以有多個輸入和多個輸出

E、上述都正確

正確答案是：E

答案：（E）每個神經元可以有一個或多個輸入，和一個或多個輸出。

9. 如果我們用了一個過大的學習速率會發生什麼？

A、神經網絡會收斂

B、不好說

C、都不對

D、神經網絡不會收斂

正確答案是：D

學習率過大，會使得迭代時，越過最低點。

10. 在一個神經網絡中，下面哪種方法可以用來處理過擬合？

A、Dropout
B、分批歸一化(Batch Normalization)
C、正則化(regularization)
D、都可以

正確答案是：D

解析：

都可以。對於選項C，分批歸一化處理過擬合的原理，是因爲同一個數據在不同批中被歸一化後的值會有差別，相當於做了data augmentatio。

11. 批規範化(Batch Normalization)的好處都有啥？

A、讓每一層的輸入的範圍都大致固定
B、它將權重的歸一化平均值和標準差
C、它是一種非常有效的反向傳播(BP)方法
D、這些均不是

正確答案是：A

12. 下列哪個神經網絡結構會發生權重共享？

A、卷積神經網絡
B、循環神經網絡
C、全連接神經網絡
D、選項A和B

正確答案是：D

13. 下列哪個函數不可以做激活函數？

A、y = tanh(x)
B、y = sin(x)
C、y = max(x,0)
D、y = 2x

正確答案是：D

解析：

線性函數不能作爲激活函數。

14. 假設我們有一個如下圖所示的隱藏層。隱藏層在這個網絡中起到了一定的降緯作用。假如現在我們用另一種維度下降的方法，比如說主成分分析法(PCA)來替代這個隱藏層。

那麼，這兩者的輸出效果是一樣的嗎？

A、是

B、否

正確答案是：B

解析：

PCA 提取的是數據分佈方差比較大的方向，隱藏層可以提取有預測能力的特徵

15. 下圖顯示了訓練過的3層卷積神經網絡準確度，與參數數量(特徵核的數量)的關係。

從圖中趨勢可見，如果增加神經網絡的寬度，精確度會增加到一個特定閾值後，便開始降低。造成這一現象的可能原因是什麼？

A、即使增加捲積核的數量，只有少部分的核會被用作預測
B、當卷積核數量增加時，神經網絡的預測能力（Power）會降低
C、當卷積核數量增加時，導致過擬合
D、以上都不正確

正確答案是：C

解析：

網絡規模過大時，就可能學到數據中的噪聲，導致過擬合

16. 假設你需要調整超參數來最小化代價函數（cost function），會使用下列哪項技術？

A、窮舉搜索
B、隨機搜索
C、Bayesian優化
D、都可以

正確答案是：D
17. 在感知機中（Perceptron）的任務順序是什麼？

1、隨機初始化感知機的權重
2、去到數據集的下一批（batch）
3、如果預測值和輸出不一致，則調整權重
4、對一個輸入樣本，計算輸出值

A、 1, 2, 3, 4

B、 4, 3, 2, 1
C、 3, 1, 2, 4
D、 1, 4, 3, 2

正確答案是：D

18. 構建一個神經網絡，將前一層的輸出和它自身作爲輸入。

下列哪一種架構有反饋連接？

A、循環神經網絡

B、卷積神經網絡
C、限制玻爾茲曼機
D、都不是

正確答案是：A

19. 如果增加多層感知機（Multilayer Perceptron）的隱藏層層數，分類誤差便會減小。這種陳述正確還是錯誤？

A、正確
B、錯誤

正確答案是：B

解析：

並不總是正確。層數增加可能導致過擬合，從而可能引起錯誤增加。

20. 下列哪項關於模型能力（model capacity）的描述是正確的？（指神經網絡模型能擬合複雜函數的能力）

A、隱藏層層數增加，模型能力增加

B、Dropout的比例增加，模型能力增加
C、學習率增加，模型能力增加
D、都不正確

正確答案是：A

解析：

A是對的，其它選項不確定

21. 在訓練神經網絡時，損失函數(loss)在最初的幾個epochs時沒有下降，可能的原因是？

A、學習率(learning rate)太低
B、正則參數太高
C、陷入局部最小值
D、以上都有可能

正確答案是：D

22. 深度學習與機器學習算法之間的區別在於，後者過程中無需進行特徵提取工作，也就是說，我們建議在進行深度學習過程之前要首先完成特徵提取的工作。這種說法是：

A、正確的

B、錯誤的

正確答案是： B

解析：

正好相反，深度學習可以自行完成特徵提取過程而機器學習需要人工來處理特徵內容。

23. 下列哪一項屬於特徵學習算法（representation learning algorithm）？

A、K近鄰算法

B、隨機森林

C、神經網絡

D、都不屬於

正確答案是：C

解析：

神經網絡會將數據轉化爲更適合解決目標問題的形式，我們把這種過程叫做特徵學習。

24. 提升卷積核(convolutional kernel)的大小會顯著提升卷積神經網絡的性能，這種說法是

A、正確的

B、錯誤的

正確答案是： B

解析：

卷積核的大小是一個超參數(hyperparameter)，也就意味着改變它既有可能提高亦有可能降低模型的表現。

25. 閱讀以下文字：
假設我們擁有一個已完成訓練的、用來解決車輛檢測問題的深度神經網絡模型，訓練所用的數據集由汽車和卡車的照片構成，而訓練目標是檢測出每種車輛的名稱（車輛共有10種類型）。現在想要使用這個模型來解決另外一個問題，問題數據集中僅包含一種車（福特野馬）而目標變爲定位車輛在照片中的位置。

A、除去神經網絡中的最後一層，凍結所有層然後重新訓練

B、對神經網絡中的最後幾層進行微調，同時將最後一層（分類層）更改爲迴歸層

C、使用新的數據集重新訓練模型

D、所有答案均不對

正確答案是： B

26. 假設你有5個大小爲7x7、邊界值爲0的卷積核，同時卷積神經網絡第一層的深度爲1。此時如果你向這一層傳入一個維度爲224x224x3的數據，那麼神經網絡下一層所接收到的數據維度是多少？

A、218x218x5

B、217x217x8

C、217x217x3

D、220x220x5

正確答案是：A

27. 假設我們有一個使用ReLU激活函數(ReLU activation function)的神經網絡，假如我們把ReLU激活替換爲線性激活，那麼這個神經網絡能夠模擬出同或函數(XNOR function)嗎？

A、可以

B、不好說

C、不一定

D、不能

正確答案是：D

解析：

使用ReLU激活函數的神經網絡是能夠模擬出同或函數的。

但如果ReLU激活函數被線性函數所替代之後，神經網絡將失去模擬非線性函數的能力。

28. 下列的哪種方法可以用來降低深度學習模型的過擬合問題？

1 增加更多的數據

2 使用數據擴增技術(data augmentation)

3 使用歸納性更好的架構

4 正規化數據

5 降低架構的複雜度

A、1 4 5

B、1 2 3

C、1 3 4 5

D、所有項目都有用

正確答案是：D

解析：

上面所有的技術都會對降低過擬合有所幫助

29.下圖是一個利用sigmoid函數作爲激活函數的含四個隱藏層的神經網絡訓練的梯度下降圖。這個神經網絡遇到了梯度消失的問題。下面哪個敘述是正確的？

A、第一隱藏層對應D，第二隱藏層對應C，第三隱藏層對應B，第四隱藏層對應A

B、第一隱藏層對應A，第二隱藏層對應C，第三隱藏層對應B，第四隱藏層對應D

C、第一隱藏層對應A，第二隱藏層對應B，第三隱藏層對應C，第四隱藏層對應D

D、第一隱藏層對應B，第二隱藏層對應D，第三隱藏層對應C，第四隱藏層對應A

正確答案是：A

解析：

由於反向傳播算法進入起始層，學習能力降低，這就是梯度消失。換言之，梯度消失是梯度在前向傳播中逐漸減爲0, 按照圖標題所說, 四條曲線是4個隱藏層的學習曲線, 那麼第一層梯度最高(損失函數曲線下降明顯), 最後一層梯度幾乎爲零(損失函數曲線變成平直線). 所以D是第一層, A是最後一層。

30.考慮某個具體問題時，你可能只有少量數據來解決這個問題。不過幸運的是你有一個類似問題已經預先訓練好的神經網絡。可以用下面哪種方法來利用這個預先訓練好的網絡？

A、把除了最後一層外所有的層都凍結，重新訓練最後一層

B、對新數據重新訓練整個模型

C、只對最後幾層進行調參(fine tune)

D、對每一層模型進行評估，選擇其中的少數來用

正確答案是：C

解析：

如果有個預先訓練好的神經網絡, 就相當於網絡各參數有個很靠譜的先驗代替隨機初始化. 若新的少量數據來自於先前訓練數據(或者先前訓練數據量很好地描述了數據分佈, 而新數據採樣自完全相同的分佈), 則凍結前面所有層而重新訓練最後一層即可; 但一般情況下, 新數據分佈跟先前訓練集分佈有所偏差, 所以先驗網絡不足以完全擬合新數據時, 可以凍結大部分前層網絡, 只對最後幾層進行訓練調參(這也稱之爲fine tune)。

31.在選擇神經網絡的深度時，下面哪些參數需要考慮？

1 神經網絡的類型(如MLP,CNN)

2 輸入數據

3 計算能力(硬件和軟件能力決定)

4 學習速率

5 映射的輸出函數

A、1,2,4,5

B、2,3,4,5

C、都需要考慮

D、1,3,4,5

正確答案是：C

解析：

所有上述因素對於選擇神經網絡模型的深度都是重要的。特徵抽取所需分層越多, 輸入數據維度越高, 映射的輸出函數非線性越複雜, 所需深度就越深. 另外爲了達到最佳效果, 增加深度所帶來的參數量增加, 也需要考慮硬件計算能力和學習速率以設計合理的訓練時間。

32.當數據過大以至於無法在RAM中同時處理時，哪種梯度下降方法更加有效？

A、隨機梯度下降法(Stochastic Gradient Descent)

B、不知道

C、整批梯度下降法(Full Batch Gradient Descent)

D、都不是

正確答案是：A

解析：

梯度下降法分隨機梯度下降(每次用一個樣本)、小批量梯度下降法(每次用一小批樣本算出總損失, 因而反向傳播的梯度折中)、全批量梯度下降法則一次性使用全部樣本。這三個方法, 對於全體樣本的損失函數曲面來說, 梯度指向一個比一個準確. 但是在工程應用中,受到內存/磁盤IO的吞吐性能制約, 若要最小化梯度下降的實際運算時間, 需要在梯度方向準確性和數據傳輸性能之間取得最好的平衡. 所以, 對於數據過大以至於無法在RAM中同時處理時, RAM每次只能裝一個樣本, 那麼只能選隨機梯度下降法。

33.當在卷積神經網絡中加入RAM (pooling layer)時，變換的不變性會被保留，是嗎？

A、不知道

B、看情況

C、是

D、否

正確答案是：C

解析：

池化算法比如取最大值/取平均值等, 都是輸入數據旋轉後結果不變, 所以多層疊加後也有這種不變性。

34、基於二次準則函數的H-K算法較之於感知器算法的優點是()？

A、計算量小

B、可以判別問題是否線性可分

C、其解完全適用於非線性可分的情況

正確答案是：B

解析：

HK算法思想很樸實,就是在最小均方誤差準則下求得權矢量.

他相對於感知器算法的優點在於,他適用於線性可分和非線性可分得情況,對於線性可分的情況,給出最優權矢量,對於非線性可分得情況,能夠判別出來,以退出迭代過程。

來源：@劉炫320，鏈接：http://blog.csdn.net/column/details/16442.html

35、在一個神經網絡中，知道每一個神經元的權重和偏差是最重要的一步。如果知道了神經元準確的權重和偏差，便可以近似任何函數，但怎麼獲知每個神經的權重和偏移呢？

A、搜索每個可能的權重和偏差組合，直到得到最佳值

B、賦予一個初始值，然後檢查跟最佳值的差值，不斷迭代調整權重

C、隨機賦值，聽天由命

D、以上都不正確的

正確答案是：B

解析：

答案：（B）

選項B是對梯度下降的描述。

36、神經網絡模型（Neural Network）因受人類大腦的啓發而得名

37.下圖所示的網絡用於訓練識別字符H和T，如下所示

A、

B、

C、

D、可能是A或B，取決於神經網絡的權重設置

正確答案是：D

解析：

不知道神經網絡的權重和偏差是什麼，則無法判定它將會給出什麼樣的輸出。

38.在下面哪種情況下，一階梯度下降不一定正確工作（可能會卡住）？

A、

B、

C、

正確答案是：B

解析：

這是鞍點（Saddle Point）的梯度下降的經典例子。另，本題來源於：https://www.analyticsvidhya.com/blog/2017/01/must-know-questions-deep-learning/

39.混沌度(Perplexity)是一種常見的應用在使用深度學習處理NLP問題過程中的評估技術，關於混沌度，哪種說法是正確的？

A、混沌度沒什麼影響

B、混沌度越低越好

C、混沌度越高越好

D、混沌度對於結果的影響不一定

正確答案是： B

40. 線性方程 (y = mx + c) 可以說是一種神經元嗎？

A無可奉告

B 否

C 是

D 一派胡言

正確答案是： C

41. 使用兩個簡單的輸入h1和h2, 最終的等式是

A. (h1 AND NOT h2) OR (NOT h1 AND h2) B. (h1 OR NOT h2) AND (NOT h1 OR h2)

C. (h1 AND h2) OR (h1 OR h2) D. None of these

答案：（A）

42. 卷積神經網絡可以對一個輸入完成不同種類的變換（旋轉或縮放），這個表述正確嗎？

A正確 B錯誤

答案：（B）數據預處理（也就是旋轉、縮放）步驟在把數據傳入神經網絡之前是必要的，神經網絡自己不能完成這些變換。

43. 訓練神經網絡過程中，損失函數在一些時期（Epoch）不再減小, 原因可能是：

1.學習率（Learning rate）太低2.正則參數太大3.卡在了局部最小值

哪些是可能的原因？

A. 1 and 2 B. 2 and 3 C. 1 and 3 D. 都不是

答案：（D）以上原因都可能造成這個結果。

44. 訓練好的三層卷積神經網絡的精確度（Accuracy）vs 參數數量（比如特徵核的數量）的圖示如下; 從圖中趨勢可見，如果增加神經網絡的寬度，精確度會增加到一個閾值，然後開始降低。這一現象的可能是什麼原因是造成的？

A即便核數量（number of kernels）增加，只有一部分核被用於預測

B當核數量增加，神經網絡的預測功效（Power）降低

C當核數量增加，其相關性增加，導致過擬合

D以上都不正確

答案：（C）如C選項指出的那樣，可能的原因是核之間的相關性。

45. 使用降維技術的網絡與隱層網絡總是有相同的輸出嗎？

　　A.是 B.否

　　答案：（B）因爲PCA用於相關特徵而隱層用於有預測能力的特徵

46. 可以用神經網絡對函數(y=1/x)建模嗎？A.是B.否

　　答案：（A）選項A是正確的，因爲激活函數可以是互反函數

47. 我們不是想要絕對零誤差，而是設置一個稱爲貝葉斯（bayes）誤差（我們希望實現的誤差）的度量。使用貝葉斯（bayes）誤差的原因是什麼？

A.輸入變量可能不包含有關輸出變量的完整信息B.系統（創建輸入-輸出映射）可以是隨機的　C.有限的訓練數據D.所有答案：（D）想在現實中實現準確的預測，是一個神話，所以我們的希望應該放在實現一個“可實現的結果”上。

48. 在監督學習任務中，輸出層中的神經元的數量應該與類的數量（其中類的數量大於2）匹配。對或錯？A.正確B.錯誤答案：（B）

它取決於輸出編碼。如果是獨熱編碼(one-hot encoding) 則正確。但是你可以有兩個輸出囊括四個類，並用二進制值表示出來（00,01,10,11）。

49. Y = ax^2 + bx + c（二次多項式）這個方程可以用具有線性閾值的單個隱層的神經網絡表示嗎？　A.是B.否答案：（B）答案爲否。因爲簡單來說，有一個線性閾值限制神經網絡就會使它成爲一個相應的線性變換函數。

50神經網絡中的死神經元（dead unit）是什麼？

A.在訓練任何其它相鄰單元時，不會更新的單元B.沒有完全響應任何訓練模式的單元

C.產生最大平方誤差的單元D.以上均不符合答案：（A）

51. 假設在ImageNet數據集（對象識別數據集）上訓練卷積神經網絡。然後給這個訓練模型一個完全白色的圖像作爲輸入。這個輸入的輸出概率對於所有類都是相等的。對或錯？

A.正確　B.錯誤

答案：（B）將存在一些不爲白色像素激活的神經元作爲輸入，所以類不會相等。

52. 當數據太大而不能同時在RAM中處理時，哪種梯度技術更有優勢？

　　A.全批量梯度下降(Full Batch Gradient Descent )

B.隨機梯度下降(Stochastic Gradient Descent) 答案：（B）

53.從上往下ABCD，下列哪項正確？

　　A.隱藏層1對應於D，隱藏層2對應於C，隱藏層3對應於B，隱藏層4對應於A

　　B.隱藏層1對應於A，隱藏層2對應於B，隱藏層3對應於C，隱藏層4對應於D

答案：（A）這是對消失梯度描述的問題。由於反向傳播算法進入起始層，學習能力降低。

54. 對於分類任務，我們不是將神經網絡中的隨機權重初始化，而是將所有權重設爲零。下列哪項是正確的？

　　A.沒有任何問題，神經網絡模型將正常訓練

　　B.神經網絡模型可以訓練，但所有的神經元最終將識別同樣的事情

　　C.神經網絡模型不會進行訓練，因爲沒有淨梯度變化

D.這些均不會發生答案：（B）

55. 開始時有一個停滯期，這是因爲神經網絡在進入全局最小值之前陷入局部最小值。爲了避免這種情況，下面的哪個策略有效？

　　A.增加參數的數量，因爲網絡不會卡在局部最小值處

　　B.在開始時把學習率降低10倍，然後使用梯度下降加速算子(momentum)

　　C.抖動學習速率，即改變幾個時期的學習速率

　　D.以上均不是

答案：（C）選項C可以將陷於局部最小值的神經網絡提取出來。

56. 假設在訓練時，你遇到這個問題。在幾次迭代後，錯誤突然增加。您確定數據一定有問題。您將數據描繪出來，找到了原始數據有點偏離，這可能是導致出現問題的地方。你將如何應對這個挑戰？

A.歸一化B.應用PCA然後歸一化C.對數據進行對數變換D.以上這些都不符合

答案：（B）首先您將相關的數據去掉，然後將其置零。

57. 影響神經網絡的深度選擇的因素：

神經網絡的類型，例如：多層感知機(Multi-Layer Perceptrons, MLP)，卷積神經網絡(Convolutional Neural Networks, CNN)。輸入數據。計算能力，即硬件和軟件能力。學習率。輸出函數映射。

31增加捲積核的大小對於改進卷積神經網絡的效果是必要的嗎？否（要考慮數據集）

32. 感知機的正確順序

1. 隨機初始化感知機權重

2. 進入下一批數據集

3. 如果預測與輸出不符，則調整權重

4. 對於採樣輸入，計算輸出

怎樣的順序是正確的？ 1, 4, 3, 2

32、下面哪個描述可以最好的描述early stopping?A

A在每一個訓練epoch後在測試集上模擬網絡，當歸一化誤差(generalization error)減小時停止訓練

B 一種更快的後向傳播方式，像是"Quickprop"算法

C 在權重值更新時上加一個動量項(momentum term)，使訓練能夠更快地收斂

D 訓練網絡知道誤差函數出現一個局部最小值

小鋒學長

發佈了49 篇原創文章 · 獲贊 38 · 訪問量 3萬+

私信關注

深度學習基礎知識題庫大全

python gdal 安裝使用（Windows， python 3.6.8）

移植FreeRTOS後運行，卡在uxDeletedTasksWaitingCleanUp

emWin在Windows上使用visual studio2019仿真

Scrapy框架新手入門教程

SpringBoot使用MySQL訪問數據

RTOS函數命名規則

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結