如何利用人工智能技術提高網文生產的運營效率？

在杭州雲棲小鎮舉辦的2050@2019大會上，“第四範式先薦”召集了《新媒體結合人工智能後的裂變》主題新生論壇，來自閱文集團的陳煒於分享瞭如何利用人工智能，提高網文生產整個週期的運營效率。

以下是演講實錄：

演講嘉賓簡介：

陳煒於，閱文集團智能業務中心負責人，負責閱文集團的智能技術建設，包括推薦，搜索，用戶畫像，文本挖掘，內容風控等數據智能方向。曾在百度負責精準廣告系統，用戶畫像系統，百度推薦，用戶線下大數據，新零售等項目的研發工作。

今天非常開心來到這裏向大家分享我們的工作內容和實踐感悟。首先做一下自我介紹，我叫陳煒於，來自閱文集團，負責整體的智能業務版塊。接下來我將先從網絡文學的歷史談起。

網文的發展歷史

其實從1994年中國進入互聯網時代起，網文就已經開始發展了，那時候主要是在水木清華BBS上傳播。1998年，痞子蔡的一本書出版，業內普遍認爲這是中國網絡文學發展的元年。

2002年，起點中文成立，它是閱文集團的前身。2008年，盛大文學成立，收購了起點中文網、紅袖添香等小說網站。2013年騰訊文學成立，2015年整合盛大文學，成立了閱文集團。

2017年年底閱文集團在香港上市，作爲行業領先的一個IP培育平臺和數字閱讀平臺，我們旗下有多款閱讀APP，包括起點讀書APP和QQ閱讀APP，同時我們擁有1000多萬部作品儲備，還有770萬名創作者和數億的用戶。

接下來進入今天的主題，談談我們如何把人工智能和內容運營進行結合。

“網文內容生產和運營是一個漫長的週期，通過智能可以撬動週期，加快提速”

一篇網文從生產到最終體現出它的價值，會經過很多步驟。第一步，作家會去寫一些主題的網文；第二步，我們平臺方需要去審覈網文的內容是否合規；第三步，如果內容合規，且判定這個網文是有優勢的，我們會進行簽約，再把內容輸出給讀者，然後作者可以獲得一些收益。內容在電子閱讀市場獲得一些收益後，還可以作爲IP授權改編成影視、動漫或者遊戲作品，獲得一些額外收益，這叫做內容增值。

從整體的內容生命週期來看，這其實是一個非常漫長的一個過程。舉個例子，在內容消費階段，一篇文章寫出來到完結，可能需要經歷一年到兩年的時間，再到它孵化出來IP可能需要3～5年的時間，週期很長。我們是希望通過智能去撬動整體的一個週期，去加快整體週期的一些提速，進而能夠更快的去形成一些內容的變現，這塊我們統一叫做閱文的內容大腦。

智能內容生成：下面介紹一下我們閱文內容大腦具體如何賦能這五個階段。第一塊是在作者的內容生成階段，閱文內容大腦可以幫助作者做一些輔助的內容工作，比如一些前文回顧，還可以幫助預測內容趨勢，譬如最近現實主義的戲很火，內容大腦可以推出來最近可能會比較火的現實主義網文。比如《戰狼》出來後軍旅片比較火，那軍旅相關的IP可能就會很吃香，可以把這些趨勢反饋給作者，讓作者來寫一些軍旅類型題材的網文。

智能內容審覈：第二方面在內容審覈階段，我們可以幫助內容審覈做一些智能的反黃反黑涉政的識別，以前每篇文章都需要經過人工來審覈，代價是比較大的，通過智能的手段可以幫助內容審覈的效率提升。

幫助編輯識別優質內容：另外在編輯內容的簽約上，我們在內容識別的時候可以更高效地識別一些低質書。以前編輯與作者簽約之前，必須把全文兩三百章的內容看完，工作量太大了，編輯們每天可能只能看一部作品，這樣效率比較低，我們幫編輯去做一些智能低質識別的工作，通過文章的標籤識別我們可以判斷該文哪些標籤是現在比較熱門的，哪些標籤是現在沒有的，幫助我們更好地去判斷這篇文章的一些內容。

智能推薦：內容簽約結束後，我們就會推送給讀者，讓讀者進行內容消費，這裏還會用到內容智能分發、推薦、搜索等等一些提高內容分發效率的手段。通過內容大腦更好地理解內容後，就可以幫助推薦做更精準的內容分發。其中包括像推薦理由、導語、內容匹配度以及標籤展示、感知增強等方面的建設。

幫助IP上下游加速理解內容實現內容增值：最後一個在閱文是比較特殊的，就是IP的內容，我們現在不僅僅是做網文，還需要網文做更多價值的泛化，如果說網文的價值是1， IP的價值可能是100，要從1做到100，我們需要去挑選哪些內容是值得我們去投入的，哪些內容是在未來有很大市場空間的。通過閱文內容大腦可以通過內容理解，幫助IP的上下游更快速地瞭解一篇網文的具體內容，它的架構、世界觀是否值得改編，它的背景是否是宏大，預期發展規模如何。這些工作以前是每個IP上下游把全本書都簡單看一遍，但很多網文都有上千章的章節，整體的效率其實是極低的。

所以我們閱文內容大腦，都是爲了賦能整個內容流轉效率而服務的。

閱文內容大腦技術架構

接下來再講一下我們閱文內容大腦的整體架構。首先通過我們的AGC數據和UGC數據,AGC數據就是作者生產的數據。第二個就是UGC數據，比如在每篇內容下面，會有很多的評論，還有一些書單，書單是一個PGC數據。我們把所有數據給進行整合，形成一個基礎的信息庫，這一步是把數據變成信息的一個過程。

有了信息後，我們再做一些知識挖掘，知識挖掘採用了自然語言處理，包括實體的識別，它是講人的？講地點的？講事件的？還是講一個物體的等等。第二個是三元組的提取，三元組就是主謂賓，比如某某戰勝了某某、或者某某把某某打死了等等。然後結合我們自己的行業知識，我們行業有很多新的輸入，包括角色的一些關係，整體事件的脈絡，整體世界觀架構的設計等等，這些知識結合起來，形成閱文自己的一個知識圖譜。基於這些知識圖譜，我們在上層做一個知識的表示，就是把挖掘完的知識通過可視化的手段展現出來，特別是展現給編輯讀者，因爲底層的知識是看不出太多含義的，但是通過一些可視化手段，就可以很好地理解這個知識是代表什麼東西。

第四步就是知識的一個應用。知識在挖掘出來以後，會再次產生出一些應用，賦能到業務端的一些內容生產、分發、消費和增值上面。

整體的閱文大腦架構就是這樣，今天我會重點介紹內容理解這一方面。因爲只有真正做到內容理解，我們才能對整篇網文內容做更好地瞭解。

第一步其實是詞粒度，就是如何把一篇文章歸納到一個標籤，歸納到一個詞，能夠讓讀者很快知道這篇文章講的是什麼故事。舉個簡單例子，看爽文，爽文就是它這篇文章節奏非常快，看了很爽，讀者能夠通過這種標籤化很快就可以get到這篇文章大概是什麼類型。

另外一個是句粒度，通過標籤粒度我們只能得到具體的一個信號點，但是通過句粒度，我們可以輸出一些跟這篇文章相關的一些情況，能夠更好地在語意上面進行一些聚焦。

第三步是考慮網文這個比較特殊的場景而形成的長文粒度，現在業內所有的理解是基於短文粒度的，比如說新聞資訊，但是長文粒度是最近纔開始進行一些研究。長文粒度和短文有很大的不同。比如像2000章左右的網文，他需要去提取每一個事件的脈絡，去提取整體網文的人物關係。

最後一個是機器上面的隱向量粒度，就是通過我們前面識別的一些結果，是人可理解的標籤也好，興趣點也好，關鍵句也好，讓機器自動去理解計算，把每一篇文章投影到高維向量裏面，得到一些隱含的向量知識，直接供機器使用。

內容理解中的詞粒度

然後講一下詞粒度化，我們其實整體梳理了網文中一些詞的表示，第一塊就是最上層，最上層其實是一個分類。這個分類是業內已經約定俗成了的，經過很長時間積累得到的一些具體的分類。

中層是我們在建設的一些標籤，這種標籤是從我們自己權威的邊際角度出發，用標籤描述一些內容，包括像穿越、鑑寶、懸疑、吐槽、學霸，校花等等，都是我們整體標籤體系中的一些標籤關鍵詞。

最下層的標籤量還要更大，上層分類大概是百級別數量的一個分類，中層標籤是千級別的數量。泛化到下層，是萬級別的興趣點向量。舉個例子，諸葛亮、孔明、貂蟬，這些都是有可能出現的一些興趣點。包括籃球、足球、羽毛球等。

所有這些標籤化可以做相互的對應關係。比如像下層的標籤孔明，貂蟬，可以映射到中層標籤的某一個歷史朝代，然後再映射到上層，比如說歷史的一些小說等等，他們都有一些關聯關係。

內容理解中的句粒度

接下來講一講句粒度，通過一些簡單的物料，比如說AGC物料和書單的UGC物料，去生成一個推薦語。推薦展示只有一個小豆腐塊的位置，如何把網文豐富的內容濃縮展示在豆腐塊裏，這是一個有些技術難度的任務。

現在展示一般都展示簡介，只是通過簡介大部分人是看不懂這篇文章到底是講什麼東西的，所以我們通過AGC和UGC的一些數據提取了一些推薦語，推薦與生成的話主要是從我們AGC或者UGC數據裏面去抽取，把語義比較強、表達能力比較好的一些句子抽取出來。

第二個是通過智能生成，通過翻譯的手段去關聯，把語義相近的一些詞翻譯過來，形成一些新的句子。通過這兩個步驟來形成一個網文的推薦語的候選。然後再在下面做一層篩選，比如根據點擊率做排序，再進行一些精細化的優選。

內容理解中的長文結構

接下來講講我們對長文結構的理解，第一條線是對於人物線的理解，第二條線是對事件線的理解。事件線方面我們需要準備一些候選三元組，就是什麼人在什麼地點做了什麼樣的事情，或者是對某人幹了什麼樣的事情。然後在上層會做一個角色的識別，以及實體的對齊，把角色識別出來，是人還是一個物體，這個人是不是主角，和其餘人是什麼關係等。

第二步，基於角色的識別去抽取他們之間的關係。每章每句都去挖掘它的事件，然後再歸納起來，最後全文形成一個整體的事件脈絡。

事件脈絡還會引入一些用戶行爲的數據，因爲用戶只有在關鍵情節纔會花大時間去閱讀。

內容理解—隱含向量

第四個是內容的隱含向量，向量就是每一個內容都有很多的屬性，包括興趣點、作者、標籤的屬性，他們之間都可以構成一個圖，如果在圖中隨機遊走的話，可以得到一條條複合序列。通過學習這些生成序列中的近鄰關係，得到每個節點的隱語義向量表示。

今天的分享就到這裏，謝謝。

如何利用人工智能技術提高網文生產的運營效率？

藍橋15屆stema編程題密碼鎖-動態規劃 C++和Python最後一道題

2021看雪SDC議題回顧 | SaTC：一種全新的物聯網設備漏洞自動化挖掘方法

C# 代碼學習

Kafka存儲機制

aws語音呼叫調用，告警電話

【轉】[C#] WebAPI 防止併發調用二（冥等性）

一個簡單的MD5加鹽

HTTP URL 詳解

得物 ZooKeeper SLA 也可以 99.99%

創新工具：2024年開發者必備的一款表格控件（二）

愛奇藝個性化推薦排序實踐

人工智能領域的頂級學術會議大全（二）

人工智能領域的頂級學術期刊大全（一）

學習推薦系統必看的10篇RecSys論文，收藏！（官方推薦）

關於推薦系統，RecSys 2019大會都討論了什麼？（附論文下載）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結