百度AI的語音識別與語音合成

原創

醉酒诗人

2020-06-23 08:57

機器人語音問答的需要，調用百度AI的語音識別

這裏的思路很簡單，就是用百度的API，初始化客戶端，然後輸入參數進行調用。

代碼


import wave
import pyaudio
from aip import AipSpeech,AipNlp
from playsound import playsound
 
""" 你的 APPID AK SK """
APP_ID = '****'
API_KEY = '****'
SECRET_KEY = '****'
 
# 讀取文件
def get_file_content(filePath):
    with open(filePath, 'rb') as fp:
        return fp.read()
    
    
# 錄音功能
def record_content():
    CHUNK = 1024
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 16000
    RECORD_SECONDS = 3
 
    WAVE_OUTPUT_FILENAME = "audio.wav"
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT, channels=CHANNELS,
                    rate=RATE, input=True,
                    frames_per_buffer=CHUNK)
    print("* recording")
 
    frames = []
    for j in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)
 
    print("* done recording")
 
    stream.stop_stream()
    stream.close()
    p.terminate()
 
    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()
    print("done ------------------------------   ")
    return WAVE_OUTPUT_FILENAME
 
 
# 生成語音功能客戶端
client_audio = AipSpeech(APP_ID, API_KEY, SECRET_KEY)
 
# 語音錄製
filePath = record_content()
 
# 語音識別
result_audio = client_audio.asr(get_file_content(filePath), 'wav', 16000, {
    'dev_pid': 1536,
})
content_audio = result_audio['result'][0]
print(content_audio)
 
 
# 自然語音處理客戶端
client_nlp = AipNlp(APP_ID, API_KEY, SECRET_KEY)
 
# text = "百度是一家高科技公司"
text = content_audio
 
""" 調用詞法分析 """
xx = client_nlp.lexer(text)
content_answer = xx['items'][0]['item']
 
# 語音合成
try:
    result_answer  = client_audio.synthesis(content_answer, 'zh', 1, {
    'vol': 5,
})
except Exception as e:
    print(e)
 
# 語音寫入
if not isinstance(result_answer, dict):
    with open('audio.mp3', 'wb') as f:
        f.write(result_answer)
 
# 語音播放
playsound('audio.mp3')

錄音

首先將對方的語音錄下，存爲 **.wav 音頻文件，其中原始 PCM 的錄音參數必須符合 16k 採樣率、16bit 位深、單聲道，支持的格式有：pcm（不壓縮）、wav（不壓縮，pcm編碼）、amr（壓縮格式）


# 錄音功能
def record_content():
    CHUNK = 1024
    FORMAT = pyaudio.paInt16
    CHANNELS = 1
    RATE = 16000
    RECORD_SECONDS = 3
 
    WAVE_OUTPUT_FILENAME = "audio.wav"
    p = pyaudio.PyAudio()
    stream = p.open(format=FORMAT, channels=CHANNELS,
                    rate=RATE, input=True,
                    frames_per_buffer=CHUNK)
    print("* recording")
 
    frames = []
    for j in range(0, int(RATE / CHUNK * RECORD_SECONDS)):
        data = stream.read(CHUNK)
        frames.append(data)
 
    print("* done recording")
 
    stream.stop_stream()
    stream.close()
    p.terminate()
 
    wf = wave.open(WAVE_OUTPUT_FILENAME, 'wb')
    wf.setnchannels(CHANNELS)
    wf.setsampwidth(p.get_sample_size(FORMAT))
    wf.setframerate(RATE)
    wf.writeframes(b''.join(frames))
    wf.close()
    print("done ------------------------------   ")
    return WAVE_OUTPUT_FILENAME

識別

然後將錄音文件進行識別

代碼如下


# 語音識別
result_audio = client_audio.asr(get_file_content(filePath), 'wav', 16000, {
    'dev_pid': 1536,
})
content_audio = result_audio['result'][0]
print(content_audio)

處理


# 自然語音處理客戶端
client_nlp = AipNlp(APP_ID, API_KEY, SECRET_KEY)
 
# text = "百度是一家高科技公司"
text = content_audio
 
""" 調用詞法分析 """
xx = client_nlp.lexer(text)
content_answer = xx['items'][0]['item']

回答

語音文件識別結束之後，將其寫入到本地文件，並進行播放（python幾種播放方法）


# 語音合成
try:
    result_answer  = client_audio.synthesis(content_answer, 'zh', 1, {
    'vol': 5,
})
except Exception as e:
    print(e)
 
# 語音寫入
if not isinstance(result_answer, dict):
    with open('audio.mp3', 'wb') as f:
        f.write(result_answer)
 
# 語音播放
playsound('audio.mp3')

需要解決的問題（有建議請評論告知，感謝！）：

1.不定長語音文件的判定（音頻文件時長不固定，根據說話時長來確定）

2.一羣人中確定一個說話人接收指令

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

百度AI的語音識別與語音合成

代碼

錄音

識別

處理

回答

再談23種設計模式（3）：行爲型模式（學習筆記）

Power Automate Desktop 安裝完，登錄後老是提示one driver 錯誤

微前端學習筆記(4):從微前端到微模塊之EMP與hel-micro方案探索

微前端學習筆記（1）：微前端總體架構概述，從微服務發微

985 碩士程序員，空窗 4 個月沒有 Offer！

一文搞懂 Spring 循環依賴

賽博鬥地主——使用大語言模型扮演Agent智能體玩牌類遊戲。

VScode右鍵打開(添加到右鍵)

記一次 .NET某工控視覺自動化系統卡死分析

WindowsServer--SQL Server搭建主從同步實現讀寫分離 - 事務性分發

如何下載網頁上的視頻？

樹莓派pip更換國內源（解決了爲什麼樹莓派更換了pip源還是用的官網的問題？）

【LeetCode】64. 最小路徑和（動態規劃--中等）

初探pyaudio

【PAT】A1045 Favorite Color Stripe (30分)（動態規劃初級--兩種方法LIS和LCS做）

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結