個性化閱讀的過去、現在和未來一

                這是現在窩窩團研發副總裁寫的關於個性化閱讀的文章,很經典,他本人是國內語義網絡的先行者,有自己獨到的見解,內容都是乾貨,甚至連做個性化閱讀的配置都給出來了。摘抄如下:

              以前曾經撰文講過Topic Engine的過去、現在和未來。Topic Engine是一個生生不息的應用方向,因爲從News Group、郵件列表、聊天室、論壇、Google News、博客圈子、羣組。。。,人們一直因話題(有人也叫主題,英文爲Topic)而聚集而交友,話題一直在生生不息層出不窮,組織形式在不斷變異。

    現在再講講個性化閱讀的過去、現在和未來,也算是這個話題的延續。

一、概念定義

    泛泛地說,只要是根據用戶的歷史行爲(發言、標籤等數據,點擊流、分享、收藏、推薦、跳過等動作),動態決定哪些資訊內容(論壇帖子、新聞資訊、博客、微博、等)呈現給用戶,都叫個性化閱讀。

二、歷史階段

2005年~2007年:

    這個階段還沒有Social數據,所以:

首先需要用戶選定對哪些分類頻道感興趣,比如歷史、人文、明星、體育等。稍微聰明一點的做法,不讓用戶選分類,而是問用戶幾個問題,然後就大致匹配出用戶的興趣點。

其次,系統決定給用戶展現哪些分類的資訊。

隨着用戶點擊,資訊實時不斷變化,點擊越多,系統越瞭解用戶的閱讀喜好。

這階段的問題是:

1、利用成熟的協同過濾算法,但由於都在追求實時計算,運算量較大,有一定技術門檻;

2、對用戶背景還是不夠了解,僅僅通過用戶點擊流終究太淺。

3、普遍存在冷啓動問題。

2008年~2010年:

    有了Twitter,有了Facebook,有了Social Graph,個性化閱讀器紛紛利用Twitter/Facebook帳號登錄,展現的資訊是用戶自己好友的Timeline聚合,主要是合併那些被諸多好友推薦的熱點鏈接、圖片和視頻。不過,這波潮過去之後,像http://thoora.com/http://twittertim.es/等都沒有找到足夠的用戶羣,還沒有像2005年殺出來的TechMeme那麼成功。

這階段的問題是:

1、依賴於Twitter/Facebook的Social Graph,依賴於好友推送,可供閱讀的數據過少,可供計算的數據過少,限制了自身應用的發展;

2、除非與Twitter保持良好的關係,能拿到 Streaming Firehose 接口,提前積累用戶數據,否則用戶Timeline信息需要積累一段時間,造成大量用戶登錄後沒有可閱讀的數據。

2010年:

    FlipBoard殺出重圍,自動排版技術獨步天下。

2011年:

    隨着國內新浪微博、豆瓣等擁有Interest Graph(興趣圖譜)+Social Graph(社交圖譜)海量數據的網站崛起,成爲主流數據源,如何把2005年到2010年這些探索擇其優點都整合起來,成爲一個大課題。

    Zite的橫空出世,被衆人熱捧爲“Flipboard Killer”,強調的是基於社會化關係的個性化推薦閱讀方式。而Flipboard目前的戰略重點主要還是集成各種社會化應用及內容源,並以其創造性的閱讀體驗方式展現出來。國內已經有幾家也在Zite的方向上,尤其是iPad應用上,動了起來。

social media

三、熱門?還是個性化?

    在2009年SXSW大會上,SheGeeks 直言不諱:『

熱門內容(Popularity)已經過時了,某種程度上令人討厭。

我不想知道什麼是最流行的,Techmeme已經幫我做到了。我想知道什麼東西和我相關。我們需要更多“相關性過濾服務”。

    此時,會有幾種做法:

1、以熱點資訊爲主(先有蛋),以社交圖譜爲輔(後引入雞):將社交圖譜引入熱點資訊閱讀中,像Quora(或中國的知乎)一樣按人來隔離不同話題(不同熱點)的討論。Zite的方式類似於此。

2、以社交圖譜爲主:組織一度好友和二度好友的數據,做好數據挖掘。曾經有人在很久遠的年代說過,“建立一個Social Network,每一個用戶都推薦出自己喜歡的內容,那麼被推薦得最多的,就一定是大多數人最受歡迎的內容。如果把這些推薦內容的用戶區分成不同的羣體, 就會得到特定羣體歡迎的內容。Digg的想法就源於此。不過,這需要用戶有足夠的動力去推薦自己喜歡的內容,否則,Network也無法形成”。

3、以爲閱讀中心:有人很多年前說過“許多人的blog閱讀體驗和閱讀閒談專欄是相似的,他們選擇讀什麼不讀什麼的判斷依據不是話題,而是作者,因爲只有這樣才能保證閱讀到的內容的質量”。

4、以Topic爲中心:用戶定義或發掘用戶感興趣的Topic,只要是一篇文章談及了用戶關注的某一個主題,那麼就推送給他。或者來自於不同人的文章集中地探討某個話題,那麼把這些文章自動聚合爲一個Dialogue(虛擬對話),推送給用戶。

    除了第一種做法之外,我曾經嘗試過其他三種做法。在中國的大環境下,要麼數據過少,要麼數據質量不高,都不能很好地做到有“發現、探索”、“新鮮、有趣”的衝擊力。

    當Social能完整地提供三重元素時:
1、 你的身份標識(Indentity):Who you are;
2、 你的聯繫人或圈子(Contacts):Who you know;
3、 你的網際行爲(Activities):What you do 。

    那麼,Social Graph,Interrest Graph,再聯合熱點資訊,揉入2005年以來的協同過濾算法,至少能做到make something people want吧。

四、Interest Graph的變化

    以前,鄭昀針對不同人羣做的信息聚合,單純從內容分類(也就是靠自然語言處理的自動分類算法)做,屬於從信息本身下手。這種方式有一個問題:Social Media Iceberg
   某一類人羣,雖然有一些集中的閱讀點,但還有邊緣的共同興趣。舉例,如IT人羣,雖然共享和推薦的大多數是IT科技文章,但也涌現出很多受歡迎的興趣點,如韓寒的文章,如冷笑話,如創意趣味產品。
    這也就是爲何基於 Tag 方式的閱讀模式,以及基於指定主題的追蹤模式,都不容易持久耐用的原因。一個人羣的閱讀興趣點是比較模糊的。對於一個人來說,如果一個信息過濾器供應點科技,供應點娛樂,適當補充些人文歷史,就能保證一定的粘度。
    所以,鄭昀後來覺得從內容分類,由於不引入人工,只靠比較大條的自然語言處理分類,對於博文、微博、論壇帖子等文字質量不穩定的信息會分得很粗糙,所以改變思路,從人羣分類開始做。
    也就是,劃分出目標人羣,依靠人羣來挑揀信息,NLP算法爲輔。這樣有一個額外的好處,人羣的興趣點在動態變,短期地變,長期地變,但由於鎖定人羣,所以篩選出來的信息也在變。而相比之下,自動分類做出的信息,隔幾個月或半年後,就要重新訓練機器,因爲往往信息包含的語言特徵變了。
    這也是信息聚合中的一個實際考慮點。

    現在,中國也有了自己的Interest Graph,比如新浪微博,它的數據天然就表明一個人的興趣喜好,以及連續波動,都可以跟蹤和挖掘出來。以前依靠遍歷Twitter、Google Reader、FriendFeed的好友所得到的社羣分離,現在通過新浪微博等Social Graph都可以得到類似的。

五、人員配比

    一般我對這個領域(Topic Engine啦、個性化閱讀啦、Meme Tracker啦),研發人員配比是這麼建議的:

爬蟲2人,
文本挖掘4人(新詞發現+分詞+分類一個人,實體識別與發現+情感趨勢分析一個人,事件識別與發現一個人,User Interest Profile一個人),
數據挖掘和分析2人,
Web前端展現(包括手持設備)3人,
產品經理1人,
12人是一個比較不錯的開局。

待續。敬請期待。

 

            

  

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章