練習題 - 基於快速文本標題匹配的知識問答實現（二，實現篇）

承接練習題 - 基於快速文本標題匹配的知識問答實現（一，基礎篇），前篇主要把qdr這個項目解剖了一下，現在開始應用做一下問答。
可以看到qdr這個項目的特點是：可以快速比對兩個文本之間的相似性，而且計算tfidf、bm25、lm三款模型的速度很快。
那麼本輪知識問答的設計源於此：

先儲備一批問答語料，一問一答比較合適；
把問題進行分詞,變爲文本序列；
載入qdr模型之中，進行訓練；
- 先trainer，統計詞條頻次 / 單詞存在的文檔數量兩個數據；
- Scoring，把trainer的統計數據QueryDocumentRelevance載入，變爲文本集合；
新查詢句，分詞；
分詞之後的查詢句在model中比對，得到最大相似的query對，
從query找到對應的answer

接下來會演示：一個極其簡單的demo + 一部分百度問答語料的demo.

相關code + 數據集，可見筆者github：mattzheng/qdrQA
其中，baidu_demo.py是基於一部分百度問答語料；demo1.py是簡單示範案例

1 知識問答簡單demo

import os
import unittest
import numpy as np
from qdr import ranker,trainer
from tempfile import mkstemp 
from qdr import QueryDocumentRelevance

class qdrQA(object):
    def __init__(self, query, document):
        self.query = query
        self.document = document
        assert len(self.query)==len(self.document), "Inconsistent length on both query and document."
        self.qd = self.TrainModel()
        self.scorer = QueryDocumentRelevance(self.qd._counts,self.qd._total_docs)

    def TrainModel(self):
    # 模型統計詞條頻次 / 單詞存在的文檔數量兩個數據
        qd = trainer.Trainer()
        qd.train(self.query)
        return qd

    def update(self,query_update,document_update):
        # 模型update
        qd2 = trainer.Trainer()
        qd2.train(query_update)
        self.qd.update_counts_from_trained(qd2)   # 合併兩個容器的訓練集
        self.query = self.query + query_update
        self.document = self.document + document_update

    def QueryAnswer(self,input_sentence,select_model = 'tfidf',limit = 0):
    # 查詢語句
        #query_scores = np.array([self.scorer.score(input_sentence,qu)[select_model] for qu in self.query])
        query_scores = np.array([qu[select_model] for qu in self.scorer.score_batch(input_sentence,self.query)])

        if query_scores.max() > limit:
            answer = self.document[query_scores.argmax()]
        else:
            answer = 'sorry,no match sentence.'
        return answer

以上就是基於qdr進行簡單的封裝，其中

TrainModel()是訓練模塊；
update()是如果有新的語料可以隨機更新（非常方便！）；
QueryAnswer()，問答匹對。

進行簡單測試：

# 數據集
query = [['信用積分','在','哪裏','查詢'],['螞蟻積分','可以','兌換','什麼','東西'],['信用積分','兌換','什麼','性價比','比較','高']]
document = ['可以在首頁查詢','螞蟻積分可以兌換商城中很多東西','信用積分性價比最高兌換物品是蘋果手機']
# 建模
qdr = qdrQA(query,document)
# 問答
select_model = 'tfidf'
input_sentence = ['信用積分','查詢']
limit = 0
print qdr.QueryAnswer(input_sentence,limit = 0)
>>> 可以在首頁查詢

以上是輸入文字序列，其中query對需要分詞，因爲這樣可以增加匹配概率。
那麼如果新加語料，如何訓練：

# 模型更新
query_update = [['信用積分','與','螞蟻積分','的','區別']]
document_update = ['區別主要集中在商城兌換品']
qdr.update(query_update,document_update)

# 問答
select_model = 'tfidf'
input_sentence = ['信用積分','與','螞蟻積分','區別']
print(qdr.QueryAnswer(input_sentence))
>>> 區別主要集中在商城兌換品

很方便的直接更新，只要與訓練語料格式保持一致。

2 部分百度問答語料的問答

該百度問答語料截取自：【語料】百度的中文問答數據集WebQA

import json 
import jieba


# 問答
def qaPrint(input_sentence,select_model = 'tfidf',limit = 0):
    query_scores = np.array([qu[select_model] for qu in qdr.scorer.score_batch(input_sentence,qdr.query)])
    similar_answer = ''.join(qdr.query[query_scores.argmax()])
    print 'query is : ', ''.join(input_sentence) 
    print 'most similar query is : ', similar_answer
    print 'answer is :',qdr.QueryAnswer(input_sentence,limit = 0) 

def QueryJieba(input_sen):
    return [i.encode('utf-8') for i in list(jieba.cut(input_sen))]

# 數據準備
qa = open("/mnt/qdr/me_test.ann.json", "r").read()
qa = eval(qa)

query_bd = []
answer_bd = []
for qa_ in qa.values():
    if (qa_['question']!='') and (qa_['evidences'].values()[0]['evidence']!=''):
        query_bd.append(qa_['question'])
        answer_bd.append(qa_['evidences'].values()[0]['evidence'])

# jieba
query_bd_jieba = [list(jieba.cut(wo.decode('unicode-escape'))) for wo in query_bd]

# format processing
query_bd_jieba = [[i.encode('utf-8') for i in q]  for q in query_bd_jieba]
answer_bd = [q.encode('utf-8')  for q in answer_bd]

# 模型訓練
qdr = qdrQA(query_bd_jieba,answer_bd)

# 提問
input_sen = '沙漠最大的叫什麼？'
qaPrint(QueryJieba(input_sen))

>>> query is :  沙漠最大的叫什麼？
>>> most similar query is :  世界上最大的沙漠叫什麼名字?
>>> answer is : 撒哈拉沙漠撒哈拉沙漠面積爲860萬平方公里，是世界上最大的沙漠，佔據了北非大部分地區。

# 提問2
input_sen = '最淺的海是哪裏'
qaPrint(QueryJieba(input_sen))

>>> query is :  最淺的海是哪裏
>>> most similar query is :  世界上最淺的海叫什麼？
>>> answer is : 亞速海平均深度8米，最深處也只有14米，是世界上最淺的海記得采納啊

加載數據，把問題數據進行jieba分詞，其中，qdr模型接受utf-8格式,需要轉化一下格式。
這邊簡單寫了一下，提問之後，返回給你最相似的問題以及對應的答案。

延伸：單獨來看，一些小模塊的應用：

1、獲得該批語料單詞的idf值

qdr.scorer.get_idf('沙漠')
>>> 7.321188556739478

2、單獨的文本匹配模塊

qdr.scorer.score_batch(QueryJieba('沙漠最大的叫什麼？'),[QueryJieba('最淺的海是哪裏')])
>>> [{'bm25': 0.43801802356073943,
  'lm_ad': -28.28692876400435,
  'lm_dirichlet': -27.58677603082954,
  'lm_jm': -33.64719347947683,
  'tfidf': 0.014088049093832688}]

練習題 - 基於快速文本標題匹配的知識問答實現（二，實現篇）

目錄

1 知識問答簡單demo

2 部分百度問答語料的問答

延伸：單獨來看，一些小模塊的應用：

1、獲得該批語料單詞的idf值

2、單獨的文本匹配模塊

關於接口協議，你必須要知道這些！

一鍵自動化博客發佈工具,用過的人都說好(頭條篇)

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

01 穩定性（一）如何應對事故並做好覆盤？

線程池那些坑爹的參數-核心線程數&最大線程數&工作隊列

Stream流常用方法總結

TensorFlow-Serving的使用實戰案例筆記（tf=1.4）

python | 高效統計語言模型kenlm：新詞發現、分詞、智能糾錯

python | 關鍵詞快速匹配檢索小工具 pyahocorasick / ahocorapy

網絡表情NLP（一）︱顏文字表情實體識別、屬性檢測、新顏發現

練習題︱ python 協同過濾ALS模型實現：商品推薦 + 用戶人羣放大

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

練習題 - 基於快速文本標題匹配的知識問答實現（二，實現篇）

目錄

1 知識問答簡單demo

2 部分百度問答語料的問答

延伸：單獨來看，一些小模塊的應用：

1、 獲得該批語料單詞的idf值

2、單獨的文本匹配模塊

1、獲得該批語料單詞的idf值