騰訊信息流內容理解技術實踐

導讀:目前信息流推薦中使用的內容理解技術,主要有兩部分構成:

1. 門戶時代和搜索時代遺留的技術積累:分類、關鍵詞以及知識圖譜相關技術;

2. 深度學習帶來的技術福利:embedding。但是分類對於興趣點刻畫太粗,實體又容易引起推薦多樣性問題,而 embedding 技術又面臨難以解釋的問題。這次主要介紹在信息流推薦中,騰訊是如何做內容理解克服上述問題的。主要包括:

  • 項目背景

  • 興趣圖譜

  • 內容理解

  • 線上效果

項目背景

1. 內容理解技術演進

① 門戶時代:1995~2002年,主要代表公司:Yahoo、網易、搜狐、騰訊。互聯網初期,因爲數據較少,因此需要一個內容聚合的地方,人們才能夠快速的找到信息。因此,門戶通過 "內容類型" 對內容進行整理,然後以頻道頁形式滿足用戶需求。因爲數據少,初期由人工對新聞進行分類。隨着數據的增多,靠人工分類已經變得不現實,因此各大公司紛紛引入分類技術,自動化文本分類。此後,文本分類技術發展迅速。

② 搜索/社交時代:2003年~至今,主要代表公司:搜狗、騰訊、Google、百度。隨着網絡的普及,數據的數量和類型的豐富,門戶網站已經不能夠承載信息分發的任務。於是,一種新的信息分發技術誕生——搜索。搜索除了需要分類信息以外,還需要精確知道文章是 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章