用戶畫像常用方法(相關論文)

1.英文文獻

1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)

摘要:news recommendation 中使用的較多的用戶畫像方法是從用戶讀過的article獲取信息,如title,text,click-through data。本文探索一種新的用戶畫像方法,數據來源是tweets,re-tweets,hashtags,從這些數據中提取keywords 來構建用戶畫像。(數據來源的創新)
1. introduction:在推薦的兩種方法(基於協同過濾的推薦和基於內容的推薦)中,一般來說基於協同過濾的方法比基於內容的方法表現好。但在一些特定的領域如news recommendation領域,基於內容的方法要優於協同過濾方法。原因(1)在news recommendation中,如果要將新的news推薦給用戶,協同過濾方法不能馬上推薦,需要先等待用戶點擊news以產生點擊記錄,然後才能推薦給其他用戶,在news recommendation中,對news的實時性有要求,使用協同過濾方法不能實時地把news推薦給用戶。而基於內容的方法可實時推薦,不需要等待。
(2)基於協同過濾的方法存在“cold start”問題,當一些news不存在點擊記錄時,不能將news推薦給用戶。而基於內容的方法不存在item的冷啓動問題。
2.related work:本文使用了topic model 和tfidf.其中使用topic model來比較news title的相似性。
3.proposed method:news recommendation的步驟有兩個。(1)user profile (2)news ranking。本文圍繞這兩個部分展開,先進行用戶畫像,再進行news的推薦。

1.2 A Framework for Interaction-driven User Modeling of Mobile

(提出了一個擴展用戶畫像的框架(創新1)–>考慮用戶的閱讀模式,即作者提出來的6個要素,接着用幾種方法(求解方法無創新)來求解這些要素,設計了一個app來收集用戶閱讀模式相關數據。
並沒有通過用戶的閱讀模式6要素來進行推薦。)
摘要:在news推薦中,用戶讀了哪些內容對於推薦效果來說是重要的(用戶興趣)(多數研究使用的方式),用戶以某種模式瀏覽、閱讀內容(如閱讀頻率,閱讀的類別分佈等)(閱讀模式)(交互習慣和偏好)(少有研究考慮)也同樣重要
作者提出了一個框架來擴展用戶畫像,這個框架用以對閱讀模式模式進行建模(此框架並不對用戶興趣進行建模)。在進行擴展畫像過程中使用了多種方法,如:推測、變換函數、有監督學習方法。
貢獻(1)對用戶畫像進行擴展。(2)在多種方法上對提出的用戶畫像進行測試,並討論此用戶畫像如何應用在個性化新聞推薦app中。
our work:很多推薦算法(如協同過濾、基於內容的算法、混合算法)被提了出來,但對用戶閱讀模式進行建模的算法還比較少。
在我們之前的work中,我們識別出了三種用戶類型,在以前work的基礎上,我們提出了層次框架模型,能夠分析mobile-sensing數據,以進行用戶建模。層次框架過程如下:手機原始數據、簡單處理變成low-level特徵、函數變換轉化成用戶畫像中閱讀模式6要素。
六要素如下:
頻率:一天之中多少次閱讀?
花費時間:花費在新聞閱讀中的時間?(1小時?2小時?)
閱讀時間段:喜歡在哪個時間段閱讀?(早上、中午,晚上?)
閱讀習慣:粗讀?細讀?
瀏覽策略:從某一板塊選擇點擊新聞?瀏覽全部板塊點擊新聞?(計算兩個指標,一個是用戶在所有會話中都瀏覽過的新聞類型(代表着用戶的類型偏好),另一個是用戶指在某個回話中點擊過的新聞類型(代表着用戶是隻瀏覽了少數類型還是瀏覽了多數類別),從而知道用戶的瀏覽策略。)
地點:家中?單位?室外?
4、buiding user profile:
4.1 data collection:作者爲了測試自己提出的算法,設計了一個APP–Habito News,在谷歌軟件商店中上架,主要對象是大學生社交網絡寫手,但因爲軟件已上架,也不排除有其他的一些人員。作者最終選定了47名用戶。(用戶至少要使用這個app兩週,這樣才能收集足夠的數據。)用戶閱讀模式建模所需要的數據都來自於這個app。
app用戶在安裝Habito News時會被要求填一個表格和做一個問卷。表格包括性別、年齡等人口統計學信息。問卷包括了以下6個問題(每個問題是單項選擇):
(1) How often do you read news on your mobile device? [a.
Many times b. Once c. Occasionally]
(2) How much time a day do you spend reading news on
your mobile device? [a. 0-5 min b. 5-10 min c. 10+ min]
(3) How do you look for stories of interest? [a. All b. Particular c. Both]
(4) How do you read a news story? [a. Detailed b. Skimming c. Scanning]
(5) Where do you often read news? [a. Home b. Work c.
Public Transport]
(6) What time of the day do you usually read news? [a.
Morning b. Afternoon c.Evening]
這6個問題對應着6個用戶閱讀模式factor。
4.2 modeling the six factors
對於頻率、閱讀時間、閱讀時間段,可以比較容易地得出來,但對於其餘三個factors,作者使用三種方法進行學習,前兩種方法效果沒有baseline(在類別中,全都預測爲最多的那一類)好,第三種是監督學習方法,對3個factor中的每一個都訓練一個隨機森林(RF)分類器。
分類的結果:
在這裏插入圖片描述
4.2.1 Preparing the datasets for the analysis
收集到的數據存在“缺失值”,地理位置沒有缺失值,但其餘的數據可能具有缺失值,因爲用戶是根據自己的需求來閱讀新聞。剛開始選擇了47個用戶,有些用戶缺乏必要的值,刪去了,還剩33個用戶。還有些用戶下載軟件不久就卸載了,這樣的用戶也刪除。最後,作者的數據包括198天的數據(所有用戶的天數加在一起),103個特徵字段。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章