企業服務交互機器人將向多模態演進

這幾年，企業服務賽道異常火熱，AI技術的創新和落地應用在提高企業服務效率上發揮了重要作用。相對於 TO C 端的聊天機器人，運用到企業服務場景中的智能交互機器人對垂直領域知識的專業度和回答的精確度有着更高的要求。現階段的智能交互機器人還存在一些侷限性，在形象化、擬人化、情感洞察方面瓶頸凸顯，對此，追一科技提出了一系列解決方案，包括語音語義聯合建模、文本風格遷移等。

在11月21-22日召開的AICon全球軟件開發大會（北京站）2019 現場，InfoQ有幸採訪到了追一科技AI Lab高級算法研究員徐易楠，他分享了追一科技目前在企業服務智能交互機器人上的研究和探索，並就下一代交互機器人的發展趨勢發表了看法。

以下爲InfoQ與徐易楠對話全文，有刪減。

InfoQ：您自何時因何契機加入追一科技，目前在追一主要負責哪些工作？

徐易楠：我2016年加入追一科技，當時是畢業了回國找工作，個人比較傾向於去創業公司，因此沒有去應聘大公司的崗位。當時在和CEO聊的時候，感覺是想踏踏實實做事情的風格，也和自己目標契合，所以就加入了。

目前在追一主要負責對話系統和多模態融合算法等前沿技術的探索與實踐工作。

InfoQ：從技術的角度看，運用於企業服務場景中，主要服務 TO B 端的智能交互機器人與 TO C端的聊天機器人有什麼區別？

徐易楠：2B機器人在很多方面和2C機器人都有差別，首先，其兩者定位上就有較大區別，2B其代表着一個企業或者機構，是一個嚴肅、認真、負責的形象，而C端機器人更多的是一個風趣、幽默的形象；其次對於服務場景，2B機器人知識來源於企業內部的業務流程積累，側重於在一個限定場景內解決問題，因此用戶對其解決問題的期望也很高，而2C機器人則相反，其知識範疇爲全領域，均有所涉及但瞭解不夠深入；再者對於其效果，2B機器人需要做到穩重、準確，不能出什麼差錯，而C端機器人則要求較低，不會回答可以插諢打科，反顯風趣。單從技術角度來說，2B機器人要準確識別用戶問題是否是自己能力範圍內的，針對範圍外的要予以澄清，範圍內的問題要準確回答。

InfoQ：您剛提到，企服智能機器人更多關注垂直領域的知識，我個人理解，爲讓用戶增強信任，機器人需要對這些知識掌握的更加深入，從技術的角度，如何實現這種“深度”？

徐易楠：一方面，從語料入手，積累這些垂直領域的語料，樹立與全領域語料的差異性。另一方面，從行業知識入手，將垂直行業的知識做編碼或者將其做成知識圖譜化，並設法加入到模型中去。

InfoQ：在多模態情感分析方面，追一的智能交互機器人最近有哪些新的進展？

徐易楠：多模態是追一非常看重的方向，多模態特別在交互場景有非常重要的意義。我們認爲多模態未來會在AI三大領域之外形成自己獨立的技術路徑，因此我們正在積極投入研究。

具體到情感分析上，我們在做一個情感計算的模塊，希望融合語音、文本、視覺的一些信息去做綜合判斷，目前已經取得一定效果，語音加文本的聯合建模方式已經落地，並已經服務我們的智能培訓、質檢、坐席助理等產品。預計在年底，還會融合加入視覺部分，並推出相應的產品應用。

InfoQ：語音加文本建模最大的技術優勢是什麼？

徐易楠：有時候在一些場景，ASR不可避免的會有些錯誤，比如通用ASR對於領域知識識別效果有限，領域關鍵詞識別錯誤通常會導致意圖識別錯誤。爲解決這類問題，我們希望用語音的一些信息去彌補在文本上的差異，從而達到比較好的效果。我們現在主要利用ASR語音識別的文本結果，原始的音頻信息作爲聯合建模的“輸入”，並得到最終判斷。

比如同音字的語音識別上，以“改天”和“改簽”爲例，這種語音很相近但實際意義差距較大的詞，只用文本建模很容易識別錯誤，這時可以加入一些語音信息糾正錯誤，這是語音加入到文本里建模的一個優勢。

InfoQ：在識別用戶的細微情緒變化方面，機器人是怎麼做的？

徐易楠：目前追一在情感識別方面還是主要集中在語音、文本和視覺及其融合技術上面，能夠做到根據人說話的時間點變化形成情感變化曲線。在視覺方面，目前正在嘗試在人臉整個區域做情感分析之外，也能針對一些局部區域做相關分析。

InfoQ：交互機器人在和人進行交互的過程中，有時會出現熱情過度的情況、有時會出現對人愛答不理的情形，您認爲，怎樣才能達到一個很「自然」的對話效果？

徐易楠：對話是一個交互的過程，其必然會包含兩部分：信息的獲取以及輸出。

在信息獲取方面，一是需要機器人針對當前對話的語境給出一個合理的判斷，比如用戶很憤怒、高興等不同心情的對話策略都是不同的；二是要對用戶對話的內容準確理解，知道用戶在說什麼、想表達什麼。三是要對用戶畫像有個合理的理解，知道用戶偏好哪一種對話方式，比如某個用戶比較偏嚴肅，如果對話過程中一味的幽默風趣，體驗也不太好。基於以上信息，我們纔有可能去做一個全面的、合理的判斷，做到全面理解用戶訴求。

在理解用戶訴求後，要做到自然的對話效果，還需要有較好的對話回覆。做到好的回覆，我們最先想到的當然是使用規則進行回覆生成，可以實現配好針對不同用戶、不同語境、不同問句的回覆，這個也能做到較好的水平。這個就和我們讀書時候參加的考試一樣，針對某些問題有些固定的回答套路，懂得這些套路，考試中就能得到一個不錯的分數，但是再想往更高層次去走，我們要做到深度理解問題並作出相應的回答。其實這時候可以考慮更多樣化的對話生成，結合企業知識的生成模型可以達到該目的。

InfoQ：企業服務交互式機器人目前在發展和應用中面臨的最大挑戰是什麼，有什麼比較好的技術解決方案嗎？

徐易楠：我覺得在我們的服務中遇到的一個比較多的問題是“可複製能力不夠”。企業服務機器人屬於面向某一垂直領域，覆蓋範圍較窄的一類對話機器人，如何從一個場景快速遷移到相似或相近的一些場景裏？這是目前大家遇到的一個比較普遍的問題。如果有一個辦法能做到快速複製的話，就能極大的降低成本。

針對這個問題，追一目前採用以下方法做優化：第一是數據複用，利用無監督學習構建相似樣本，將相似領域的語料或其他數據利用起來，通過主動學習選擇最有效的樣本進行模型訓練，從而降低達到同樣效果所需要的標註數據量；第二，對模型做優化，運用零樣本或少樣本學習、元學習等技術提升模型在相似、相近場景裏的效果。此外，我們也在考慮模型複用，運用遷移學習、終生學習等技術，將之前場景中訓練出的模型複用到後續的相似、相近場景中去，這樣我們就能在後續場景的模型訓練中使用到之前場景積累到的知識，從而提高使用效果。在這個過程中，因爲數據量在擴大，可能出現數據容量不足的問題，對此我們會在模型容量達到限度時擴大模型的參數量去獲取新的知識，最終達到效果層面的持續提升。

但是這個點不是從技術角度就能完全解決的，它是一個系統工程，需要技術、工程和業務部門通力配合去解決的。

InfoQ：這幾年，企業服務賽道很火，您認爲，未來下一代企業服務機器人將具備怎樣的特質？

徐易楠：我覺得下一代機器人要有智能的大腦、親切的聲音、擬人的形象。

智能的大腦就是要有強大的自然語言理解能力，能夠帶着語境和知識背景理解用戶的問題，能夠作出具備人格化的，有溫度的，擬人化的表達，能夠在對話中不斷自我進化、學習知識。準確判斷自己的能力邊界，做到能回答的準確回答，不能回答的不能錯誤回答。

親切的聲音就是要交互機器人有自己靈巧的嘴，用帶着情感的聲音，準確的做出對用戶的回覆。

擬人的形象是指交互機器人有自己的形象，能夠配合對話內容，做出一些表情動作、肢體動作，不再是一個冷冰冰的機器人，提升用戶的體驗。

InfoQ：您覺得未來1-3年或者1-5年，企業服務機器人會是怎樣的發展趨勢？

我覺得多模態交互會是一個發展趨勢，現在很多廠商會將其運用到交互系統中去，我估計可能幾年後，多模態交互機器人會比較多的出現在市場上，這也算是交互機器人擬人形象塑造延伸的一個部分。現在業內嘗試多模態交互機器人多偏向3D模型技術路線。我們的思路不太一樣，更多希望直接驅動一個真人形象說話，讓用戶感覺更真實、更親切。

另外，我認爲還有兩個技術點會是未來的發展趨勢，一是如何解決“答非所問”問題，目前的交互機器人對一些常識性的知識不能做到很好的理解，這很容易導致“答非所問”。對於這個問題，現在學術界和工業界都在研究。二是，文本生成技術，因爲自然語言本身的一些特性，文本生成的難度比較大，文本生成距離落地還有很長的路要走。

嘉賓介紹：

徐易楠，追一科技AI Lab高級算法研究員，畢業於美國密西根大學安娜堡分校，主要研究方向爲文本的向量化表達、語義匹配、對話系統、生成算法及多模態融合算法等。目前在追一科技主要從事相關前沿技術探索與實踐工作，持有國家發明專利十餘項，作爲主要完成人完成國家自然科學基金課題一項。

企業服務交互機器人將向多模態演進

商湯之後，又有8家企業被美國列入投資黑名單，AI四小龍全部中招

月活1.3億，月交互次數達20億，OPPO小布助手技術與應用探祕

2021，百度飛槳交出最新成績單

被美國列入投資黑名單，商湯科技緊急迴應；傳19家互聯網大廠裁員；Log4j 爆“核彈級”漏洞，波及Flink等十餘個項目 | AI一週資訊

全球首個知識增強千億大模型來了！2600億參數，代碼將在近期開源

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結