Addressing Two Problems in Deep Knowledge Tracing via Prediction-Consistent Regularization

解決的問題

在這裏插入圖片描述
原始DKT
  一、無法重構觀察到的輸入,即使學生在一個KC(知識部分)中表現良好,對其的掌握水平也會下降,上圖中6th step(s45)學生錯誤回答了s45,與s45相關的練習概率也比之前增加
  二、KCs跨時間步長的預測性能不一致,因爲學生的表現預測會隨着時間逐漸過渡。上圖s32和s33、s45和s55
爲解決這些問題,引入了與重構誤差和博杜度量,並將它們作爲正則化的損失函數來擴充原始的損失函數。

提出的解決方案:

重構問題
從上圖看到,學生錯誤回答s32時,正確回答s32的概率與上一時間相比顯著增加。原因時因爲DKT模型的損失函數定義,僅考慮下一個交互的預測性能,而沒考慮當前的預測性能。但是s32和s33並不是先決關係,統計了s32和s33連續出現在不同順序的頻率計數。
在這裏插入圖片描述
表一,錯誤回答s32下個時間片很可能錯誤回答s33;表二,錯誤回答s33下個時間片更有可能錯誤回答s32。那麼s33和s32可能是相互依賴的關係。
爲解決這一問題,時通過考慮預測和當前交互之間的損失來約束DKT模型,相當於對當前輸入條真正預測,正則化項定義:
加粗樣式
預測中的波狀跳躍
這個問題可能是由於RNN中的隱藏狀態表示導致,爲了可以進行平滑的預測,定義了w1w_1w2w_2兩個波狀指標正則化項。w1w_1w2w_2的值越大,模型中的跳躍越大。
在這裏插入圖片描述

加入三個在正則化項後與原DKT的損失函數相加,得到如下的正則化損失函數:
          在這裏插入圖片描述

效果 (數據與分析結果)

RNN的全實由均值爲0,小方差的高斯分佈隨機初始化產生。
採用200的單層RNN-LSTM作爲DKT模型的基礎。
學習率0.01,dropout rate 0.5,norm clipping threshold 3.0
另外的m1m_1m2m_2(正確預測正值否則負值)的指標公式:
在這裏插入圖片描述
數據集ASSIST2009

在這裏插入圖片描述
在這裏插入圖片描述

成就(創意及貢獻)

  1. 提出了DKT中兩個未揭示的問題:當前觀測重建失敗和波狀預測過渡;
  2. 提高DKT預測一致性的三個正則化項:rr表示重建問題,w1w_1w2w_2表示波預測過渡問題
  3. 評估KT性能的三個方面:1) AUC (C)用於當前交互作用的預測性能;2)w1w_1w2w_2用於KT預測整體中的waviness;3)m1m_1m2m_2用於當前的一致性觀察和預測的相應變化
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章