探索語言交互技術在政務數字化的應用

摘要：在智慧城市的建設中，政府也希望能夠使用新技術來提供更好的服務。

最近去公積金中心辦理逐月還貸的業務，由於害怕排隊時間較長，還沒到上班時間就早早排隊去了。正當我等待得百無聊賴之時，坐旁邊的一位小兄弟對着手機說：轉1000塊錢給我媽。我看他用手機人臉識別了一把，看樣子是轉賬成功了，開心地繼續刷手機。作爲一名業內人士，對這位孝順的小兄弟，我心生感（kui）慨（jiu）之餘，立馬想到，如果我能對着手機說：幫我辦下公積金還貸業務，然後能很快辦完，我就可以不用在這等而是去加班奮鬥了。很可惜，我的願望暫時不能實現。

好的消息是，隨着目前智慧城市建設的推進，政府也希望能夠藉助數字化手段，提高政府治理能力，方便市民辦理各項業務。這其中，採用語音作爲交互方式的新興應用也逐步出現。事實上，在一些發達國家，也能看到這類應用。比如在推行數字政府的新加坡，可以通過像LifeSG[[1]]這類應用用語音來獲取政務服務。在2019年4月份，英國數字政府部門上線語音查詢政府公開信息的服務，用戶在家可以通過Google Home或者Amazon Alexa智能音箱直接查詢http://GOV.UK網站上超過12,000項政府信息，市民可通過語音完成的任務範圍逐漸擴大，從“國家最低工資標準”到“我如何申請一個新的護照”等等，並且陸續上線更多的查詢服務，比如辦理結婚手續的詳細過程等[[2]]。

那爲什麼會出現很多基於語音的應用呢？我們注意到，儘管由於新冠疫情影響，全球智能音箱出貨量在2020年增長了13%，在2019年第四季度出貨量約爲4900萬臺[[3]]。而早在2016年，谷歌號稱，在谷歌app中有20%的搜索是通過語音來完成。這些事實說明，越來越多的家庭和個人習慣使用語音來進行交互，而且語音交互式未來的一個趨勢。在智慧城市的建設中，政府也希望能夠使用新技術來提供更好的服務。我們簡單分析下語音交互應用（VUI）的優勢。

VUI的優勢

首先，說話是人最自然的溝通方式。如果系統能夠提供一個用會話進行交互的接口，那麼，用戶不需要學習，只要提問題，就能獲得系統的反饋。其次，說話比打字要快得多。大家經常用語音助手查天氣，定鬧鐘，是因爲比起打開幾個APP頁面，再搜索查詢的城市或者撥選鬧鐘時間，直接通過簡單的語音指令就能完成，後者更加快速。對於一些輸入文字諮詢問題的場景，語音輸入也要比打字快得多。再者，說話的方式可以解放雙手。現實生活中，有很多工作場景不方便使用手去操作屏幕，比如你在廚房做飯想查看菜譜，交警執勤時想查看路況信息，製造工人操作時想查看零件參數，忙着改良裝備的鋼鐵俠想查看家門口的監控，等等。VUI提供了與系統交互的另外一個渠道，多渠道地交互，才能收穫更自然順暢的體驗。由於這幾個主要優勢，VUI被看作是未來應用交互的趨勢。除此之外，有些設備可能不具備顯示屏，或者屏幕很小，VUI可能是更好或者唯一能選擇的交互方式。

既然VUI具有這麼多的有點，那麼如何設計VUI呢？首先我們先看下VUI的設計原則。

VUI設計原則

在討論設計原則之前，對VUI的設計，有幾個前提：第一，語音交互過程通常要短，並保持最少的來回對話次數；第二，即使正處於忙時，並且沒辦法集中注意力時，用戶仍然能夠通過對話來完成任務；第三，完成同樣的任務，VUI方式比使用GUI交互方式更順暢[4]。然後我們來看下具體的設計原則：

1.理解用戶的真實意圖。

目前的對話應用，大多在任務型對話機器人領域取得一定的成功。一個意圖通常對應一個具體的待執行任務，比如“我想把客廳的等關掉”，對應的就是一個簡單的任務。然而，在設計VUI時，我們不應該假設用戶的表述時很準確的，也就是用戶對同一件事的表達多種多樣。如何準確理解用戶的意圖，是VUI的關鍵。

更重要的是，如果想要獲得更自然的交互方式，VUI系統需要理解很多背景知識。比如，當你說“我想處理下汽車違章事件”，你期望能夠獲得的響應是，“XX路的違章處理中心離你最近，你可以在17點前帶上駕駛證、行車證前往辦理”。這需要VUI系統能夠了解辦事的相關流程和地點，所需要的材料，以及相關部門的上班時間等等。相反，如果你得到的響應是一步接着一步向你確認信息，其中某一步很可能還出錯，那麼體驗肯定是令人崩潰的。

最難的一點是，用戶很多表述是非常模糊的，或者需要某種共識來理解對話的意圖，比如“公積金管理中心是996上班嗎？”，用戶想要查詢的是上班時間。對於這類問題，很多解決方案會藉助知識圖譜，來構建行業內的共享知識，以期望更加智能地交互。我們相信，隨着技術的進步，機器理解對話的意圖將會越來越準確。

2.理解上下文信息

理解對話過程中的上下文，再做出響應是非常體現“智能”的方面。這裏的上下文包含幾個方面：物理上下文，也就是感知用戶所處的位置，用戶正在做的事情；情感上下文：也就是當前用戶的心情狀態；對話上下文：也就是對話過程中，前面說的話包含的信息，以及理解話題是否已經轉移。只有充分了解用戶，才能給出最合適的答案，增強用戶粘性。

3.協同方式回覆

VUI是幫助我們同機器或者設備進行交互，完成某項任務或者獲得某個答案，但值得注意的是，如果僅僅給個正確答案，會給人“冰冷”的感覺，更何況，由於很難理解用戶意圖和上下文信息，其實給出正確答案並不容易。這要求在設計VUI時，需要以協同的方式，與用戶進行交互。有三種方法：1）如果用戶的問題太模糊，那就詢問更多的細節；2）如果答案是“否”，那麼給出其它的可選建議，或者滿足所說的意圖的一種方式；3）給出比期望值更多的信息，當然不是要拉開對話的主題。比如，當用戶詢問： “我要辦理戶口遷移”，系統可能沒辦法執行這一任務，可以回覆：“當前戶口轉移需要現場辦理，您可以前往XXX地點辦理。”

4.回覆具有多樣性

如果對同樣情形，每次都是一樣的答案，會顯得比較單調。儘量設置幾種不同的回覆，來應對用戶的同樣的意圖，然後隨機選擇。

5.關注隱私數據的處理

政務領域會涉及到很多敏感和隱私的數據，比如獲取資產證明的官方文檔，或者是查詢人事信息等。在注重VUI提供操作遍歷的同時，也需要關注對隱私數據的處理。

6.建立鑑權機制

權限機制是大多數應用都會考慮的問題，對於VUI應用，目前的技術手段很難通過聲音識別身份，可能需要結合傳統的鑑權機制。

有了VUI的設計原則後，我們來看下，在政務領域，VUI具有哪些應用場景。

G2C應用場景

G2C場景主要是指，政府提供面向市民的手機APP，或者小程序，以提供便捷的政務服務，市民可以用它來查詢政府公開數據和信息，辦理業務等。

有國外同行分析了在數字政府領域構建基於語音的應用的需求以及可能存在的機會點，通過訪談了多位政府工作人員以及具備VUI工程經驗的工程師，探討基於語音的應用場景[5]，得到的結果如圖Figure 1所示。這些場景，我們認爲在國內智慧城市項目中，也具有可參考性。

Figure 1 G2C 語音助手場景分析

G2G應用場景

G2G場景主要是指，面向政府部門內部，提供數字化的手段，優化各部門間的協同辦公流程，將一些重複流程自動化，提高日常辦公效率等。

在政務辦公內部，根據目前的調研，現有產品大都集中在Figure 2所示的場景。這些場景，從技術上來說，只是把對話機器人在其他領域的成功複製到了政務領域，當然，解決好這些場景的需求，也是很有價值的。單就語音查找文件來說，在政府推行無紙化辦公的今天，如何快速方便地找到需要的文檔，甚至能夠理解文檔裏的內容，直接給出答案，是提高工作效率很有效的手段，這可能是融入到日常辦公工作過程中的常用功能。

Figure 2 G2G場景語音助手場景分析

經過以上的分析，我們有了設計原則，也有了應用場景。如果我們再把VUI其中的技術元素再拆解開，將合適的元素與應用場景相結合，就有可能搞出一塊創新性的應用。

VUI的技術元素拆解

語音助手的技術框架如Figure 3所示。藉助目前深度學習在這一領域的發展，語音識別、自然語言理解等核心模塊準確率很高，而且模型泛化性較強。在構建語音助手時，可以選擇自己開發相關模型，也可以藉助雲服務。甚至，幾家主要的雲服務提供商都有自己的構建語音助手的框架，用戶只需要關注行業語料以及業務對話流程，無需關注底層技術細節。比如華爲雲對話機器人服務[[6]]、百度雲Unit平臺[[7]]，微軟QnA Maker[[8]]以及Amazon Lex[[9]]等。

Figure 3 語音助手技術元素拆解

顯然，對技術元素的拆解，還可以更細。本文就不再展開，有興趣的讀者，可以參考華爲在這方面的技術進展總結[[10]]。

總結

語音交互技術在政務領域的數字化應用是一個不可忽略的趨勢，本文分析瞭如何構建VUI的技術原則，並分析了在政務領域VUI的應用場景。試圖通過VUI的技術分解，以及應用場景的結合，探索構建政務領域語音交互技術的應用。

[[1]]https://www.life.gov.sg/

[[2]] Government Digital Service: Government uses Alexa and Google Home to make

services easier to access. https://www.gov.uk/government/news/government-uses-

alexa-and-google-home-to-make-services-easier-to-access, accessed: 2021-01-05

[[3]] Global smart speaker Q4 2019, full year 2019 and forecasts https://www.canalys.com/newsroom/-global-smart-speaker-market-Q4-2019-forecasts-2020, accessed: 2021-01-05

[[4]] Dasgupta R . Voice User Interface Design: Moving from GUI to Mixed Modal Interaction[M]. 2018.

[[5]] Baldauf M, Zimmermann H D. Towards Conversational E-Government[C]//International Conference on Human-Computer Interaction. Springer, Cham, 2020: 3-14.

[[6]] https://support.huaweicloud.com/cbs/

[[7]] https://ai.baidu.com/unit/home

[[8]] https://www.qnamaker.ai/

[[9]] https://aws.amazon.com/cn/lex/

[[10]] 對話機器人70年：科幻與現實的交融 https://www.jianshu.com/p/e0f98f01b158

本文分享自華爲雲社區《語音交互技術在政務領域的應用》，原文作者：夕可石。

點擊關注，第一時間瞭解華爲雲新鮮技術~

探索語言交互技術在政務數字化的應用

VUI的優勢

VUI設計原則

1.理解用戶的真實意圖。

2.理解上下文信息

3.協同方式回覆

4.回覆具有多樣性

5.關注隱私數據的處理

6.建立鑑權機制

G2C應用場景

G2G應用場景

VUI的技術元素拆解

總結

Kafka存儲機制

HTTP URL 詳解

從零開始學架構V2-架構設計基礎知識-3

得物 ZooKeeper SLA 也可以 99.99%

攻擊者正在利用AI，對保險公司發起大規模欺詐

MySQL 通過 systemd 啓動時 hang 住了……

一種極簡單的SpringBoot單元測試方法| 京東零售技術團隊

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結