如何利用人工智能技術提高網文生產的運營效率?

在杭州雲棲小鎮舉辦的2050@2019大會上,“第四範式先薦”召集了《新媒體結合人工智能後的裂變》主題新生論壇,來自閱文集團的陳煒於分享瞭如何利用人工智能,提高網文生產整個週期的運營效率。

以下是演講實錄:

演講嘉賓簡介:

陳煒於,閱文集團智能業務中心負責人,負責閱文集團的智能技術建設,包括推薦,搜索,用戶畫像,文本挖掘,內容風控等數據智能方向。曾在百度負責精準廣告系統,用戶畫像系統,百度推薦,用戶線下大數據,新零售等項目的研發工作。

今天非常開心來到這裏向大家分享我們的工作內容和實踐感悟。首先做一下自我介紹,我叫陳煒於,來自閱文集團,負責整體的智能業務版塊。接下來我將先從網絡文學的歷史談起。

 

網文的發展歷史

其實從1994年中國進入互聯網時代起,網文就已經開始發展了,那時候主要是在水木清華BBS上傳播。1998年,痞子蔡的一本書出版,業內普遍認爲這是中國網絡文學發展的元年。

2002年,起點中文成立,它是閱文集團的前身。2008年,盛大文學成立,收購了起點中文網、紅袖添香等小說網站。2013年騰訊文學成立,2015年整合盛大文學,成立了閱文集團。                                             

2017年年底閱文集團在香港上市,作爲行業領先的一個IP培育平臺和數字閱讀平臺,我們旗下有多款閱讀APP,包括起點讀書APP和QQ閱讀APP,同時我們擁有1000多萬部作品儲備,還有770萬名創作者和數億的用戶。

接下來進入今天的主題,談談我們如何把人工智能和內容運營進行結合。

 

“網文內容生產和運營是一個漫長的週期,通過智能可以撬動週期,加快提速”

一篇網文從生產到最終體現出它的價值,會經過很多步驟。第一步,作家會去寫一些主題的網文;第二步,我們平臺方需要去審覈網文的內容是否合規;第三步,如果內容合規,且判定這個網文是有優勢的,我們會進行簽約,再把內容輸出給讀者,然後作者可以獲得一些收益。內容在電子閱讀市場獲得一些收益後,還可以作爲IP授權改編成影視、動漫或者遊戲作品,獲得一些額外收益,這叫做內容增值。

從整體的內容生命週期來看,這其實是一個非常漫長的一個過程。舉個例子,在內容消費階段,一篇文章寫出來到完結,可能需要經歷一年到兩年的時間,再到它孵化出來IP可能需要3~5年的時間,週期很長。我們是希望通過智能去撬動整體的一個週期,去加快整體週期的一些提速,進而能夠更快的去形成一些內容的變現,這塊我們統一叫做閱文的內容大腦

 

智能內容生成:下面介紹一下我們閱文內容大腦具體如何賦能這五個階段。第一塊是在作者的內容生成階段,閱文內容大腦可以幫助作者做一些輔助的內容工作,比如一些前文回顧,還可以幫助預測內容趨勢,譬如最近現實主義的戲很火,內容大腦可以推出來最近可能會比較火的現實主義網文。比如《戰狼》出來後軍旅片比較火,那軍旅相關的IP可能就會很吃香,可以把這些趨勢反饋給作者,讓作者來寫一些軍旅類型題材的網文。

智能內容審覈:第二方面在內容審覈階段,我們可以幫助內容審覈做一些智能的反黃反黑涉政的識別,以前每篇文章都需要經過人工來審覈,代價是比較大的,通過智能的手段可以幫助內容審覈的效率提升

幫助編輯識別優質內容:另外在編輯內容的簽約上,我們在內容識別的時候可以更高效地識別一些低質書。以前編輯與作者簽約之前,必須把全文兩三百章的內容看完,工作量太大了,編輯們每天可能只能看一部作品,這樣效率比較低,我們幫編輯去做一些智能低質識別的工作,通過文章的標籤識別我們可以判斷該文哪些標籤是現在比較熱門的,哪些標籤是現在沒有的,幫助我們更好地去判斷這篇文章的一些內容。

智能推薦:內容簽約結束後,我們就會推送給讀者,讓讀者進行內容消費,這裏還會用到內容智能分發、推薦、搜索等等一些提高內容分發效率的手段。通過內容大腦更好地理解內容後,就可以幫助推薦做更精準的內容分發。其中包括像推薦理由、導語、內容匹配度以及標籤展示、感知增強等方面的建設

 

幫助IP上下游加速理解內容 實現內容增值:最後一個在閱文是比較特殊的,就是IP的內容,我們現在不僅僅是做網文,還需要網文做更多價值的泛化,如果說網文的價值是1, IP的價值可能是100,要從1做到100,我們需要去挑選哪些內容是值得我們去投入的,哪些內容是在未來有很大市場空間的。通過閱文內容大腦可以通過內容理解,幫助IP的上下游更快速地瞭解一篇網文的具體內容,它的架構、世界觀是否值得改編,它的背景是否是宏大,預期發展規模如何。這些工作以前是每個IP上下游把全本書都簡單看一遍,但很多網文都有上千章的章節,整體的效率其實是極低的。

所以我們閱文內容大腦,都是爲了賦能整個內容流轉效率而服務的。

閱文.png 

閱文內容大腦技術架構

接下來再講一下我們閱文內容大腦的整體架構。首先通過我們的AGC數據和UGC數據,AGC數據就是作者生產的數據。第二個就是UGC數據,比如在每篇內容下面,會有很多的評論,還有一些書單,書單是一個PGC數據。我們把所有數據給進行整合,形成一個基礎的信息庫,這一步是把數據變成信息的一個過程

有了信息後,我們再做一些知識挖掘,知識挖掘採用了自然語言處理,包括實體的識別,它是講人的?講地點的?講事件的?還是講一個物體的等等。第二個是三元組的提取,三元組就是主謂賓,比如某某戰勝了某某、或者某某把某某打死了等等。然後結合我們自己的行業知識,我們行業有很多新的輸入,包括角色的一些關係,整體事件的脈絡,整體世界觀架構的設計等等,這些知識結合起來,形成閱文自己的一個知識圖譜基於這些知識圖譜,我們在上層做一個知識的表示,就是把挖掘完的知識通過可視化的手段展現出來特別是展現給編輯讀者,因爲底層的知識是看不出太多含義的,但是通過一些可視化手段,就可以很好地理解這個知識是代表什麼東西。

第四步就是知識的一個應用。知識在挖掘出來以後,會再次產生出一些應用,賦能到業務端的一些內容生產、分發、消費和增值上面

整體的閱文大腦架構就是這樣,今天我會重點介紹內容理解這一方面。因爲只有真正做到內容理解,我們才能對整篇網文內容做更好地瞭解。

 

第一步其實是詞粒度,就是如何把一篇文章歸納到一個標籤,歸納到一個詞,能夠讓讀者很快知道這篇文章講的是什麼故事。舉個簡單例子,看爽文,爽文就是它這篇文章節奏非常快,看了很爽,讀者能夠通過這種標籤化很快就可以get到這篇文章大概是什麼類型。

另外一個是句粒度,通過標籤粒度我們只能得到具體的一個信號點,但是通過句粒度,我們可以輸出一些跟這篇文章相關的一些情況,能夠更好地在語意上面進行一些聚焦

第三步是考慮網文這個比較特殊的場景而形成的長文粒度,現在業內所有的理解是基於短文粒度的,比如說新聞資訊,但是長文粒度是最近纔開始進行一些研究。長文粒度和短文有很大的不同。比如像2000章左右的網文,他需要去提取每一個事件的脈絡,去提取整體網文的人物關係

最後一個是機器上面的隱向量粒度,就是通過我們前面識別的一些結果,是人可理解的標籤也好,興趣點也好,關鍵句也好,讓機器自動去理解計算,把每一篇文章投影到高維向量裏面,得到一些隱含的向量知識,直接供機器使用

 

內容理解中的詞粒度

然後講一下詞粒度化,我們其實整體梳理了網文中一些詞的表示,第一塊就是最上層,最上層其實是一個分類。這個分類是業內已經約定俗成了的,經過很長時間積累得到的一些具體的分類。

中層是我們在建設的一些標籤,這種標籤是從我們自己權威的邊際角度出發,用標籤描述一些內容,包括像穿越、鑑寶、懸疑、吐槽、學霸,校花等等,都是我們整體標籤體系中的一些標籤關鍵詞。

 

最下層的標籤量還要更大,上層分類大概是百級別數量的一個分類,中層標籤是千級別的數量。泛化到下層,是萬級別的興趣點向量。舉個例子,諸葛亮、孔明、貂蟬,這些都是有可能出現的一些興趣點。包括籃球、足球、羽毛球等。

所有這些標籤化可以做相互的對應關係。比如像下層的標籤孔明,貂蟬,可以映射到中層標籤的某一個歷史朝代,然後再映射到上層,比如說歷史的一些小說等等,他們都有一些關聯關係。

 

內容理解中的句粒度

接下來講一講句粒度,通過一些簡單的物料,比如說AGC物料和書單的UGC物料,去生成一個推薦語。推薦展示只有一個小豆腐塊的位置,如何把網文豐富的內容濃縮展示在豆腐塊裏,這是一個有些技術難度的任務。

現在展示一般都展示簡介,只是通過簡介大部分人是看不懂這篇文章到底是講什麼東西的,所以我們通過AGC和UGC的一些數據提取了一些推薦語,推薦與生成的話主要是從我們AGC或者UGC數據裏面去抽取,把語義比較強、表達能力比較好的一些句子抽取出來

第二個是通過智能生成,通過翻譯的手段去關聯,把語義相近的一些詞翻譯過來,形成一些新的句子。通過這兩個步驟來形成一個網文的推薦語的候選。然後再在下面做一層篩選,比如根據點擊率做排序,再進行一些精細化的優選。

 

內容理解中的長文結構

接下來講講我們對長文結構的理解,第一條線是對於人物線的理解,第二條線是對事件線的理解。事件線方面我們需要準備一些候選三元組,就是什麼人在什麼地點做了什麼樣的事情,或者是對某人幹了什麼樣的事情。然後在上層會做一個角色的識別,以及實體的對齊,把角色識別出來,是人還是一個物體,這個人是不是主角,和其餘人是什麼關係等。

第二步,基於角色的識別去抽取他們之間的關係。每章每句都去挖掘它的事件,然後再歸納起來,最後全文形成一個整體的事件脈絡。

事件脈絡還會引入一些用戶行爲的數據,因爲用戶只有在關鍵情節纔會花大時間去閱讀。

內容理解—隱含向量

第四個是內容的隱含向量,向量就是每一個內容都有很多的屬性,包括興趣點、作者、標籤的屬性,他們之間都可以構成一個圖,如果在圖中隨機遊走的話,可以得到一條條複合序列。通過學習這些生成序列中的近鄰關係,得到每個節點的隱語義向量表示。

今天的分享就到這裏,謝謝。

 

 

 


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章