TikTok抖音國際版留存背後的數據和算法推演

導讀:最近在朋友組織的創業羣聽到了一些前輩和同行討論的話題,收穫很大,拿出來分享給大家。這個話題就是TikTok在美國的留存率一年之內取得了大幅上漲,有哪些地方做對了呢?本文將站在算法工程師的角度做一些個人的猜想和推演,不吝拙見,以求拋磚引玉,望不妥之處請批評指正。

01 部分結論:TikTok的大幅上漲來源

1. 供給側 ( 努力 )

  • 內容量大幅提升:主要來自於開放跟拍權限,加上低門檻創作工具和爆款內容的持續引流。

  • 內容審覈效率的提升:機器審覈準確率提高。

2. 運營側 ( 努力 )

  • 海外團隊的本土化運營能力持續在增強,local團隊對內容生態的把控,更豐富多元化

3. 營銷側 ( 努力 )

  • PR品牌的持續曝光以及泛娛樂戰略資源的深入

4. 匹配側 ( 努力 )

  • 泛化的內容加算法可看性更強,留存也漲

  • 用戶活躍度的升高,結合進一步泛化內容源 ( 低門檻創作工具和爆款內容的持續引流,刺激投稿和創作 )

5. 其它 ( 運氣 )

  • 疫情期間,多出來的宅家線上娛樂時間,也是不可忽視的一大因素

  • 其它未洞察的點

02 拆分

1. 內力

如何判定哪些是曝款內容哪些是違規有風險內容,越早的識別爆款可以越早地給予流量,持續爆款新內容流入資源池;從供給端來說,持續的流量也可以讓內容生產者的積極性提高,可以持續的從其它平臺逐步遷移有生產能力的KOL或KOC;從消費端來說,讓用戶總能看到新穎、驚喜的內容,從而提升留存。從匹配側來說,爲用戶快速找到感興趣且優質的內容滿足當前消費;爲用戶展現全方位泛化的內容;精細化地進行回訪留存等長期建模;新內容的審覈與爆款引流算法配合。

2. 外力

Local團隊對於美國本土化的理解,對於持續內容生態的把控可以帶來算法之外的東西;這一部分屬於外力,通過外力推動數據的齒輪開始運轉,後期就是算法和數據逐步帶來良性循環;也可以認爲是算法和數據中的專家知識。

PR、品牌持續曝光,內容生態的佈局,爲內容的生產和消費做鋪墊。

可能抖音走在了飛輪效應那條路上,但是現在只在7或者8這個位置,將來想在美國突破1億DAU,那需要在接下來的若干發展中繼續踩準節奏。

03 數據與算法可以發力的點

藉着上面的問題,今天想分享的是,這裏面數據和算法可以做什麼;如何審覈出有風險的內容,識別優質的內容;識別出來了優質內容,如何引爆 ( 算法預測準確率不是百分百,如何及時止損 );精準匹配用戶和內容,且在最大化短期匹配效率的同時如何兼顧長期留存 ( 讓你嗨,但不能讓你太嗨;玩遊戲也是一樣,太簡單和太難都會讓留存不好 );讓有爆款能力的內容生產者,拿到更多的流量,提高其積極性 ( 這裏談論的更多是全站維度 );如何識別趨勢,讓雖然不是爆款內容生產者但是滿足一定圈層的內容生產者,能夠精準地觸達其能夠覆蓋的用戶並且獲得那個圈層內的流量;泛內容生態下,如何在現有流量體系下做一定干預,給予流量或者限制流量。

要想變強不能有短板,短板就是你的生命線,有短板的越變越小,有長板的越變越強。

1. 如何審覈出有風險的內容,識別優質的內容

相關技術:語音轉文本, 標題、內容敏感詞識別, 圖像識別 ( 黃色、暴力、相似內容 ),新品爆款預測。

通過上述技術對內容進行初步審覈,然後進行小流量測試 ( 其關注的粉絲或內容匹配的類型背後感興趣的人羣 ),如果流量效果表現良好,再通過用戶衆包的理念對內容進行把控 ( 降低人力審覈壓力 ),推薦系統分發過程中引入舉報途徑。這裏技術和算法的本質是通過算法和數據結合的方式,大幅提升信息密度,在海量內容被創作的時候,審覈人力無須每個都做審覈,而是對可能違規內容進行審覈,如下圖。通過人工檢測和舉報並被確認的違規內容,持續地數據積累,未來機器檢測會越來越準。

爆款和優質內容的挖掘至關重要,因爲這部分內容承載了平臺大部分的播放量,也是吸引用戶留存的重要載體。

產品通過算法和數據也可以一定程度上自動化地挖掘出可能可以引爆的內容點,比如通過類比電商挖掘模式中的種子自動化流程,如下圖。

2. 識別出來了優質內容,如何引爆 ( 算法預測準確率不是百分百,如何及時止損 )

通過新品測試流程,將流量利用最大化,這裏可以通過一定概率統計手段進行平滑 ( 同樣是20%的點擊率,一個曝光是100w,一個是100,後者相對不置信 ),在逐漸積累流量持續進行流量調整;因爲你從低點擊率上省下來給到了高點擊率的商品上,這中間可以通過一些EE的策略或者簡單的統計可以完成部分的工作,如下圖。

這裏面也涉及幾個問題,就是內容類的產品,不像電商的商品,有很多內容具有較短的生命週期,特別是熱點類、時政類的內容,或者優質內容衰退的過程,比如下圖。

這部分可能成爲爆款快速,但也會快速冷卻,所以整套優質候選爆款內容需要持續不斷地、快速地被識別出來,並快速獲得流量;因爲爆款普通內容也存在隨着播放量和覆蓋人羣的上升,完播率及引流轉化效率降低的過程(因爲沒有適合任何人口味的短視頻),這時候也需要適時地將這部分流量打到新的爆款上;這些不是不好的內容,是內容已經過了時效或合適人羣已經覆蓋十之七八了,需要降溫。

3. 精準匹配用戶和內容,且在最大化短期匹配效率的同時如何兼顧長期留存 ( 讓你嗨,但不能讓你太嗨;玩遊戲也是一樣,太簡單和太難都會讓留存不好 )

可以借鑑下面的拆解方式。

我們以某天的匹配來看,首先DAU代表了當日的流量,當日我們需要做好匹配 ( 也就是y這個因子 ),其次我們需要更加註重的是x因素,n代表了累計效應。

換個角度,每日的DAU=新客UV+老客UV,這裏面老客UV是前面公式x帶來的,在互聯網用戶天花板明顯的情況下,獲客成本持續走高,老客維護就是如何在精準匹配的同時,讓用戶時常回產品看看。

從交互來看,全屏幕式沉入讓用戶儘可能沉浸,自動循環播放刺激人的視聽,下滑切換讓人獲得即時滿足,不可預測的內容提供間歇性變量獎勵,強大的推薦機制個性化快速匹配用戶實時需求,讓用戶上癮。這中間需對內容和用戶進行解構,提取出用戶和內容背後的項目特徵,然後找到合適的模型進行預估,最終以預估值進行排序和展現。

先說短期匹配效率上的發力點,我們可以通過算法和數據建模,來最大化目標量。流量分發權重可以進行干預,並且不同的干預手段會帶來完全不一樣的產品最終形態演變。

以快手舉例:

快手促使主播和粉絲進行更多交互。通過算法推薦,粉絲關注的用戶的作品出現在發現頁的可能性更高,動態功能讓用戶有類 似朋友圈的體驗,且關注頁和個人主頁方便通知用戶主播發布新作品和開始直播,因此快手和用戶的互動更加頻繁:快手用戶刷關注頁的比例高於抖音。未來快手希望將這一比例提升到80%。稠密用戶關係網絡意味着更高遷移成本。和抖音等側重內容的平臺相比,快手平臺的遷移成本更高,用戶留存度更高。注:本段以及下面2張圖來自峯瑞資本-黃海老師的研究報告/公衆號:黃海的消費業觀察。

所以,相對而言快手希望流量更加扁平,做了一些流量的控制 ( 雖然頭部流量還是聚集 )。

我們以電商來舉例,x很大程度上會被平臺的商品供應豐富程度、價格、履約/物流速度、後期商品使用、退換貨等等後端服務所影響。內容領域相對電商更難具象化,可能是娛樂性、多樣性、新穎性、驚喜性等,可以通過對若干指標數據化後,評估長期留存與相關短期指標的關係,最終在推薦或者搜索層面進行干預,比如下圖多樣性與長期留存的關係。

可以嘗試在推薦系統中引入一定的多樣性控制,可以帶來長期指標的提升,儘量將模型帶入去全局最優解。這部分的工作也是希望通過興趣探索在用戶某類興趣衰減明顯時,有其它主題內容可以承載用戶接下來的時長,比如剛開始用戶被漂亮小姐姐的視頻吸引,進來以後有時尚、護膚、彩妝、美食、健身、旅行、影視等等其它內容持續地滿足他,所以需要在他進來的有限次數中,發現內容平臺上更大的世界。

4. 讓有爆款能力的內容生產者,拿到更多的流量,提高其積極性 ( 這裏談論的更多是全站維度 )

首先你得對內容生產者進行分層,將平臺內的內容生產者進行區分,並根據對平臺最終的貢獻將他們分層,如下圖。

對平臺內容生產者分層後,可以根據其流量配比進行調整,金字塔的底層需要被快速地識別,並將流量減少到可控範圍內的最低;前2層需要被鼓勵,特別是特色生產者需要流量傾斜,以保證其積極性,對於價值生產者所需流量不夠的情況下,可以在非價值生產者內容流量中傾斜一部分。特色內容生產者可以類比第一個主題分享爆款種子內容篩選流程類似,可以通過部分種子特色內容生產者找到更多的特色內容生產者。

流量如何控制呢,我們可以看下分配流程,當然這個是借鑑淘寶的商品流量分配模式,如上圖所示。通過數據化和算法的方式先對整個流量體系進行拆解,將流量拆分成若干主要模塊,並通過流量控制系統進行干預,可以實現用戶時長、完播率、瀏覽深度不變的情況下,內容流量分佈的調整 ( 至少電商中可以做到gmv不變的情況下,流量實現分配目標的80%-90% )。

逐步完成幾類正反饋:

  • 初級反饋:點贊數、粉絲數;

  • 中級反饋:被推薦,獲取到了更大的流量;

  • 高級反饋:對於優秀內容生產者,變現的可能變大。

5. 如何識別趨勢,讓雖然不是爆款內容生產者但是滿足一定圈層的內容生產者,能夠精準地觸達其能夠覆蓋的用戶並且獲得那個圈層內的流量

在推薦系統中,由於算法模型是基於數據的,如果你不做小圈層的區分,很容易較大覆蓋率的人羣喜好會覆蓋小圈層用戶的興趣,因爲模型在訓練過程中天然就是兼顧大概率的類別的,除非你對建模過程進行干預,比如對小比例的label進行加權等操作。

南抖音北快手格局的打破,或者快手進攻一、二線城市都是需要突破圈層,逐漸嘗試將新圈層的人逐步拉進產品內部;同樣B站也是,需要將非二次元愛好者逐步拉入誇大DAU;那如果沒有干預或者一些做一些精細化的手段,很難有突破,因爲每次引流進來的新圈層用戶對老圈層的內容不滿意,最終離開 ( 周杰倫入駐快手,前期進來的一、二線城市的用戶留存好,過半個月基本留存就慘不忍睹了;抖音也有進攻快手腹地,但是留存差的情況 );這也是一般用戶增長團隊的一個非常重要的事情。

破圈層有三個事情要做,第一通過產品目標定位清楚需要擴的人羣,或者通過站內數據分析發現潛力羣體,第二通過深入地挖掘找到他們的一些興趣點和話題,並開始進行內容延展,第三內容體系夠完善加上更精準的分羣推薦及體驗的區隔,最終可以培養產品內新圈層的人羣,只有這羣人到達一定體量,接下來就是數據和算法的事情了,他們會通過內容和人羣算法爲他們帶來個性化的體驗。這裏給一篇小紅書在做15歲以下小學和初中生的留存的案例:

https://zhuanlan.zhihu.com/p/58241575

新圈層的需求如何發現呢,上述文章中有幾種方案,一種方案是分析現有產品體系下某些關鍵指標低的羣體,然後根據他們站內的行爲,配合這批用戶進來的初期,進行冷啓動或者適合內容的篩選與補充。在很多年前你做產品,你的種子用戶決定了你產品未來;現在這個階段也是,只不過這個階段,對於需要擴圈的產品來說,他們需要時不時地去維護新進來圈層的種子用戶,並讓他們消費和生產更多這個圈層喜歡的內容,帶來圈層的擴大。

如何洞察呢?可以通過站內數據,比如搜索詞、搜索主題環比變化情況 ( 見下圖 ),用戶消費內容效率的環比情況;分羣再看上述指標的情況;

6. 泛內容生態下,如何在現有流量體系下做一定干預,給予流量或者限制流量

這一塊類似商品的新內容體系方案,需要強制在流量側給予傾斜,對新類型內容進行扶持;當然這裏面其實也可以做到用數據和算法驅動,提升效率。

04 總結

數據和算法是0,初期的冷啓動和運營是1,大於1還是小於1很關鍵,這個考驗的就是創始人團隊的能力;如果小於1,後面加0都是無用功,如果大於1,後面加零就是快速地增長。比如我所從事的電商領域,不只是前臺的流量精準匹配 ( 推薦、搜索 ) 做好就可以了,你還需要有優質的貨品,極快極好的履約 ( 物流、退換貨 ) 等等,算法和數據只是其中一塊,但是是產品成長路上重要的一塊。

如何系統性地構建數據與算法體系,並跟其他構建系統的模塊手拉手,構建飛輪效應,逐漸擴圈是接下來互聯網產品持續增長的動力。

今天的分享就到這裏,謝謝大家。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章