用戶畫像常用方法（相關論文）

原創

鸡汤本汤

2020-06-29 07:09

文章目錄

1.英文文獻

1.英文文獻

1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)

摘要：news recommendation 中使用的較多的用戶畫像方法是從用戶讀過的article獲取信息，如title,text,click-through data。本文探索一種新的用戶畫像方法，數據來源是tweets，re-tweets，hashtags，從這些數據中提取keywords 來構建用戶畫像。（數據來源的創新）
1. introduction：在推薦的兩種方法（基於協同過濾的推薦和基於內容的推薦）中，一般來說基於協同過濾的方法比基於內容的方法表現好。但在一些特定的領域如news recommendation領域，基於內容的方法要優於協同過濾方法。原因（1）在news recommendation中，如果要將新的news推薦給用戶，協同過濾方法不能馬上推薦，需要先等待用戶點擊news以產生點擊記錄，然後才能推薦給其他用戶，在news recommendation中，對news的實時性有要求，使用協同過濾方法不能實時地把news推薦給用戶。而基於內容的方法可實時推薦，不需要等待。
（2）基於協同過濾的方法存在“cold start”問題，當一些news不存在點擊記錄時，不能將news推薦給用戶。而基於內容的方法不存在item的冷啓動問題。
2.related work：本文使用了topic model 和tfidf.其中使用topic model來比較news title的相似性。
3.proposed method：news recommendation的步驟有兩個。（1）user profile （2）news ranking。本文圍繞這兩個部分展開，先進行用戶畫像，再進行news的推薦。

1.2 A Framework for Interaction-driven User Modeling of Mobile

（提出了一個擴展用戶畫像的框架（創新1）–>考慮用戶的閱讀模式，即作者提出來的6個要素，接着用幾種方法（求解方法無創新）來求解這些要素，設計了一個app來收集用戶閱讀模式相關數據。
並沒有通過用戶的閱讀模式6要素來進行推薦。）
摘要：在news推薦中，用戶讀了哪些內容對於推薦效果來說是重要的（用戶興趣）（多數研究使用的方式），用戶以某種模式瀏覽、閱讀內容（如閱讀頻率，閱讀的類別分佈等）（閱讀模式）（交互習慣和偏好）（少有研究考慮）也同樣重要。
作者提出了一個框架來擴展用戶畫像，這個框架用以對閱讀模式模式進行建模（此框架並不對用戶興趣進行建模）。在進行擴展畫像過程中使用了多種方法，如：推測、變換函數、有監督學習方法。
貢獻（1）對用戶畫像進行擴展。（2）在多種方法上對提出的用戶畫像進行測試，並討論此用戶畫像如何應用在個性化新聞推薦app中。
our work：很多推薦算法（如協同過濾、基於內容的算法、混合算法）被提了出來，但對用戶閱讀模式進行建模的算法還比較少。
在我們之前的work中，我們識別出了三種用戶類型，在以前work的基礎上，我們提出了層次框架模型，能夠分析mobile-sensing數據，以進行用戶建模。層次框架過程如下：手機原始數據、簡單處理變成low-level特徵、函數變換轉化成用戶畫像中閱讀模式6要素。
六要素如下：
頻率：一天之中多少次閱讀？
花費時間：花費在新聞閱讀中的時間？（1小時？2小時？）
閱讀時間段：喜歡在哪個時間段閱讀？（早上、中午，晚上？）
閱讀習慣：粗讀？細讀？
瀏覽策略：從某一板塊選擇點擊新聞？瀏覽全部板塊點擊新聞？（計算兩個指標，一個是用戶在所有會話中都瀏覽過的新聞類型（代表着用戶的類型偏好），另一個是用戶指在某個回話中點擊過的新聞類型（代表着用戶是隻瀏覽了少數類型還是瀏覽了多數類別），從而知道用戶的瀏覽策略。）
地點：家中？單位？室外？
4、buiding user profile:
4.1 data collection：作者爲了測試自己提出的算法，設計了一個APP–Habito News,在谷歌軟件商店中上架，主要對象是大學生社交網絡寫手，但因爲軟件已上架，也不排除有其他的一些人員。作者最終選定了47名用戶。（用戶至少要使用這個app兩週，這樣才能收集足夠的數據。）用戶閱讀模式建模所需要的數據都來自於這個app。
app用戶在安裝Habito News時會被要求填一個表格和做一個問卷。表格包括性別、年齡等人口統計學信息。問卷包括了以下6個問題（每個問題是單項選擇）：
(1) How often do you read news on your mobile device? [a.
Many times b. Once c. Occasionally]
(2) How much time a day do you spend reading news on
your mobile device? [a. 0-5 min b. 5-10 min c. 10+ min]
(3) How do you look for stories of interest? [a. All b. Particular c. Both]
(4) How do you read a news story? [a. Detailed b. Skimming c. Scanning]
(5) Where do you often read news? [a. Home b. Work c.
Public Transport]
(6) What time of the day do you usually read news? [a.
Morning b. Afternoon c.Evening]
這6個問題對應着6個用戶閱讀模式factor。
4.2 modeling the six factors
對於頻率、閱讀時間、閱讀時間段，可以比較容易地得出來，但對於其餘三個factors，作者使用三種方法進行學習，前兩種方法效果沒有baseline（在類別中，全都預測爲最多的那一類）好，第三種是監督學習方法，對3個factor中的每一個都訓練一個隨機森林（RF）分類器。
分類的結果：

4.2.1 Preparing the datasets for the analysis：
收集到的數據存在“缺失值”，地理位置沒有缺失值，但其餘的數據可能具有缺失值，因爲用戶是根據自己的需求來閱讀新聞。剛開始選擇了47個用戶，有些用戶缺乏必要的值，刪去了，還剩33個用戶。還有些用戶下載軟件不久就卸載了，這樣的用戶也刪除。最後，作者的數據包括198天的數據（所有用戶的天數加在一起），103個特徵字段。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

用戶畫像常用方法（相關論文）

文章目錄

1.英文文獻

1.1 User Profile Extraction from Twitter for Personalized News Recommendation(2014)

1.2 A Framework for Interaction-driven User Modeling of Mobile

開源高性能結構化日誌模塊NanoLog

杭州的 IT 崩盤了麼？

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

Undefined citation warnings/I found no \citation commands --while

核函數及SVM核函數的選擇

將虛擬機本地csv文件導入hive

centos7使用清華鏡像安裝miniconda3並且創建新的環境

生成requirements.txt文件，用於記錄所有依賴包及版本號

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結