QA綜述

產品:
1. 聊天:小黃雞
2. 服務:
Google now (deep learning)
Apple SIRI
IBM watson (deepQA)
MS 小冰+小娜 (deep learning)
光年無限 圖靈機器人 (deepQA) +蟲洞語音助手
訊飛語點

需求:
1. 聊天:始終保持會話持續。每週解鎖一項技能?
2. 服務:解決用戶問題。e.g.京東購物

目標:不盲目追求龐大的用戶數,而是追求用戶的高度粘性。

流程:
1. Q
(1) Preprocessing: 分詞、NER, RE, entity linking
(2) 問題/答案分類:5W1H; informational (事實、列表、定義), navigational, transactional
(3) 查詢擴展、意圖, e.g. 埃菲爾鐵塔有多高?m, km, inch
2. D (knowledge-graph http://www.ccf.org.cn/sites/adl/ADL55.rar adl55150107)
3. Matching (從聊天語料中獲取上下文語義相關的模板, slots)
4. 生成答案(及驗證)
5. 會話控制

數據:
1. MS
bing: 300億網頁,60億中文網頁
6年積累,全部公開的中文聊天記錄,從中精煉出1500萬條記錄(>1000條模板)+情緒語料
0.7%的速度擴大規模
E/2014: 600萬註冊用戶,6億次對話,人均1200條/月
舉個栗子,問小冰
(1) 寶寶過敏怎麼辦?小冰答:在可控條件下多接觸直至脫敏,或者不接觸(全網只有百度知道有這條回答;反而如果用必應搜,排名靠後)
(2) LG和三星哪家冰箱好?小冰問:什麼型號?並給出一條網友評論。
2. 海天瑞聲
聊天室bbs: 4,000萬字+4,300萬字

團隊:
小冰:100人(前端50人(4個編輯模板)),1200多人(STC)
IBM: >20研究員

問題:
1. 意圖分析:回家
2. 多輪交互、會話控制:
向前:蘋果的CEO? google的呢?MS的呢?
向後:多想幾步,例如,天氣、帶傘、給家人帶傘
讀心機器人:取熵最大/信息增益最大

錯誤分析:
1. 終點
2. 高頻 vs. 長尾

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章