個性化閱讀的過去、現在和未來一

這是現在窩窩團研發副總裁寫的關於個性化閱讀的文章，很經典，他本人是國內語義網絡的先行者，有自己獨到的見解，內容都是乾貨，甚至連做個性化閱讀的配置都給出來了。摘抄如下：

以前曾經撰文講過Topic Engine的過去、現在和未來。Topic Engine是一個生生不息的應用方向，因爲從News Group、郵件列表、聊天室、論壇、Google News、博客圈子、羣組。。。，人們一直因話題（有人也叫主題，英文爲Topic）而聚集而交友，話題一直在生生不息層出不窮，組織形式在不斷變異。

現在再講講個性化閱讀的過去、現在和未來，也算是這個話題的延續。

一、概念定義

泛泛地說，只要是根據用戶的歷史行爲（發言、標籤等數據，點擊流、分享、收藏、推薦、跳過等動作），動態決定哪些資訊內容（論壇帖子、新聞資訊、博客、微博、等）呈現給用戶，都叫個性化閱讀。

二、歷史階段

2005年～2007年：

這個階段還沒有Social數據，所以：

首先需要用戶選定對哪些分類頻道感興趣，比如歷史、人文、明星、體育等。稍微聰明一點的做法，不讓用戶選分類，而是問用戶幾個問題，然後就大致匹配出用戶的興趣點。

其次，系統決定給用戶展現哪些分類的資訊。

隨着用戶點擊，資訊實時不斷變化，點擊越多，系統越瞭解用戶的閱讀喜好。

這階段的問題是：

1、利用成熟的協同過濾算法，但由於都在追求實時計算，運算量較大，有一定技術門檻；

2、對用戶背景還是不夠了解，僅僅通過用戶點擊流終究太淺。

3、普遍存在冷啓動問題。

2008年～2010年：

有了Twitter，有了Facebook，有了Social Graph，個性化閱讀器紛紛利用Twitter/Facebook帳號登錄，展現的資訊是用戶自己好友的Timeline聚合，主要是合併那些被諸多好友推薦的熱點鏈接、圖片和視頻。不過，這波潮過去之後，像http://thoora.com/ 、http://twittertim.es/等都沒有找到足夠的用戶羣，還沒有像2005年殺出來的TechMeme那麼成功。

這階段的問題是：

1、依賴於Twitter/Facebook的Social Graph，依賴於好友推送，可供閱讀的數據過少，可供計算的數據過少，限制了自身應用的發展；

2、除非與Twitter保持良好的關係，能拿到 Streaming Firehose 接口，提前積累用戶數據，否則用戶Timeline信息需要積累一段時間，造成大量用戶登錄後沒有可閱讀的數據。

2010年：

FlipBoard殺出重圍，自動排版技術獨步天下。

2011年：

隨着國內新浪微博、豆瓣等擁有Interest Graph（興趣圖譜）+Social Graph（社交圖譜）海量數據的網站崛起，成爲主流數據源，如何把2005年到2010年這些探索擇其優點都整合起來，成爲一個大課題。

Zite的橫空出世，被衆人熱捧爲“Flipboard Killer”，強調的是基於社會化關係的個性化推薦閱讀方式。而Flipboard目前的戰略重點主要還是集成各種社會化應用及內容源，並以其創造性的閱讀體驗方式展現出來。國內已經有幾家也在Zite的方向上，尤其是iPad應用上，動了起來。

三、熱門？還是個性化？

在2009年SXSW大會上，SheGeeks 直言不諱：『

熱門內容（Popularity）已經過時了，某種程度上令人討厭。

我不想知道什麼是最流行的，Techmeme已經幫我做到了。我想知道什麼東西和我相關。我們需要更多“相關性過濾服務”。』

此時，會有幾種做法：

1、以熱點資訊爲主（先有蛋），以社交圖譜爲輔（後引入雞）：將社交圖譜引入熱點資訊閱讀中，像Quora（或中國的知乎）一樣按人來隔離不同話題（不同熱點）的討論。Zite的方式類似於此。

2、以社交圖譜爲主：組織一度好友和二度好友的數據，做好數據挖掘。曾經有人在很久遠的年代說過，“建立一個Social Network，每一個用戶都推薦出自己喜歡的內容，那麼被推薦得最多的，就一定是大多數人最受歡迎的內容。如果把這些推薦內容的用戶區分成不同的羣體，就會得到特定羣體歡迎的內容。Digg的想法就源於此。不過，這需要用戶有足夠的動力去推薦自己喜歡的內容，否則，Network也無法形成”。

3、以人爲閱讀中心：有人很多年前說過“許多人的blog閱讀體驗和閱讀閒談專欄是相似的，他們選擇讀什麼不讀什麼的判斷依據不是話題，而是作者，因爲只有這樣才能保證閱讀到的內容的質量”。

4、以Topic爲中心：用戶定義或發掘用戶感興趣的Topic，只要是一篇文章談及了用戶關注的某一個主題，那麼就推送給他。或者來自於不同人的文章集中地探討某個話題，那麼把這些文章自動聚合爲一個Dialogue（虛擬對話），推送給用戶。

除了第一種做法之外，我曾經嘗試過其他三種做法。在中國的大環境下，要麼數據過少，要麼數據質量不高，都不能很好地做到有“發現、探索”、“新鮮、有趣”的衝擊力。

當Social能完整地提供三重元素時：
1、你的身份標識（Indentity）：Who you are；
2、你的聯繫人或圈子（Contacts）：Who you know；
3、你的網際行爲（Activities）：What you do 。

那麼，Social Graph，Interrest Graph，再聯合熱點資訊，揉入2005年以來的協同過濾算法，至少能做到make something people want吧。

四、Interest Graph的變化

    以前，鄭昀針對不同人羣做的信息聚合，單純從內容分類（也就是靠自然語言處理的自動分類算法）做，屬於從信息本身下手。這種方式有一個問題：
   某一類人羣，雖然有一些集中的閱讀點，但還有邊緣的共同興趣。舉例，如IT人羣，雖然共享和推薦的大多數是IT科技文章，但也涌現出很多受歡迎的興趣點，如韓寒的文章，如冷笑話，如創意趣味產品。
    這也就是爲何基於 Tag 方式的閱讀模式，以及基於指定主題的追蹤模式，都不容易持久耐用的原因。一個人羣的閱讀興趣點是比較模糊的。對於一個人來說，如果一個信息過濾器供應點科技，供應點娛樂，適當補充些人文歷史，就能保證一定的粘度。
    所以，鄭昀後來覺得從內容分類，由於不引入人工，只靠比較大條的自然語言處理分類，對於博文、微博、論壇帖子等文字質量不穩定的信息會分得很粗糙，所以改變思路，從人羣分類開始做。
    也就是，劃分出目標人羣，依靠人羣來挑揀信息，NLP算法爲輔。這樣有一個額外的好處，人羣的興趣點在動態變，短期地變，長期地變，但由於鎖定人羣，所以篩選出來的信息也在變。而相比之下，自動分類做出的信息，隔幾個月或半年後，就要重新訓練機器，因爲往往信息包含的語言特徵變了。
    這也是信息聚合中的一個實際考慮點。

現在，中國也有了自己的Interest Graph，比如新浪微博，它的數據天然就表明一個人的興趣喜好，以及連續波動，都可以跟蹤和挖掘出來。以前依靠遍歷Twitter、Google Reader、FriendFeed的好友所得到的社羣分離，現在通過新浪微博等Social Graph都可以得到類似的。

五、人員配比

一般我對這個領域（Topic Engine啦、個性化閱讀啦、Meme Tracker啦），研發人員配比是這麼建議的：

爬蟲2人，
文本挖掘4人（新詞發現+分詞+分類一個人，實體識別與發現+情感趨勢分析一個人，事件識別與發現一個人，User Interest Profile一個人），
數據挖掘和分析2人，
Web前端展現（包括手持設備）3人，
產品經理1人，
12人是一個比較不錯的開局。

待續。敬請期待。

個性化閱讀的過去、現在和未來一

一、概念定義

二、歷史階段

三、熱門？還是個性化？

四、Interest Graph的變化

五、人員配比

指閱CTO談個性化閱讀

談談讀Tapworthy中文版第一章的感受

由非誠勿擾看女性如何選擇感情

android中如何自定義標題欄

關於格林威爾科技有限公司的企業網站的用戶體驗分析

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結