每次會員到訪都需要。會員自主結賬或找導購才能被發現。或者需要一個人員站在門口,並且對會員都全部瞭解,才能對會員到訪進行更好服務的接待。
小帥爲了免去這些操作呢。就想到了百度AI。語音合成。再結合第三方的人臉庫會員到訪推送。做了一個簡單的會員到訪語音提醒推送小工程。
下面我們就一起看一下整體流程吧~
實現步驟
Step1:成爲百度AI開放平臺的開發者
我們有賬號之後登錄,並且點擊此處(百度語音)創建一個應用,如下圖
然後就能看到創建完的應用和 APPID、API KEY 以及 Secret KEY了
Step2:準備數據
語音合成是將文本轉換爲可以播放的音頻文件的服務,我們從大姚的訂單庫中找一段訂單信息的文本如下:
三分鐘前,由北京市順義區二經路與二緯路交匯處北側,北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)
Step3: 編寫一個語音合成示例程序
有 第一步 的 API KEY 以及 Secret KEY,以及 第二步 的數據,我們就可以寫一個示例代碼調用百度AI開放平臺的文字識別能力
準備開發環境
小帥選擇用 Java來快速搭建一個原型,關於如何安裝Java。可以參考百度經驗哦~。百度AI有很完善的API文檔、和封裝調用更方便的工具包。接下來小帥就用Maven搭建工程環境
pom.xml配置如下:
<!-- https://mvnrepository.com/artifact/com.baidu.aip/java-sdk -->
<dependency>
<groupId>com.baidu.aip</groupId>
<artifactId>java-sdk</artifactId>
<version>4.12.0</version>
</dependency>
編寫代碼
粘貼以下內容,不要忘記替換你的 APPID APIKEY 以及 SECRETKEY 和 圖片文件
運行main方法即可
import com.baidu.aip.speech.AipSpeech;
import com.baidu.aip.speech.TtsResponse;
import com.baidu.aip.util.Util;
import org.json.JSONObject;
import java.util.HashMap;
public class Sample {
//第一步創建應用獲取的三個值
private static String APPID = "你的 App ID";
private static String APIKEY = "你的 Api Key";
private static String SECRETKEY = "你的 Secret Key";
public static void main(String[] args) {
// 初始化一個AipSpeech
AipSpeech client = new AipSpeech(APPID,APIKEY,SECRETKEY);
// 調用接口 第二步準備的圖片
HashMap<String, Object> options = new HashMap<>();
//合成的文本內容
String text = "三分鐘前,由北京市順義區二經路與二緯路交匯處北側,北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)";
//發音人選擇
/**
* 度小宇=1,度小美=0,度逍遙=3,度丫丫=4
* 度博文=106,度小童=110,度小萌=111,度米朵=103,度小嬌=5
**/
options.put("per","0");
//語速,取值0-9,默認爲5中語速
options.put("spd", "3");
TtsResponse res = client.synthesis(text , "zh", 1, options);
byte[] data = res.getData();
JSONObject res1 = res.getResult();
if (data != null) {
try {
Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3");
} catch (IOException e) {
e.printStackTrace();
}
}
if (res1 != null) {
System.out.println(res1.toString());
}
}
}
保存接口返回語音byte[] 轉存爲MP3格式文件。這裏說明一下默認返回就是MP3格式的數據哦。如果想要其他格式
//3爲mp3格式(默認);
//4爲pcm-16k;
//5爲pcm-8k;
//6爲wav(內容同pcm-16k);
//注意aue=4或者6是語音識別要求的格式,但是音頻內容不是語音識別要求的自然人發音,所以識別效果會受影響。
options.put("aue","3");
語音合成 單例加載。10次測試耗時如下(單位:ms(毫秒))。第一次需要加載一次AUTH。耗時多了一些。後續基本都持平在710ms以內
發送請求到返回數據耗時:1493
發送請求到保存文件耗時:1495
發送請求到返回數據耗時:611
發送請求到保存文件耗時:612
發送請求到返回數據耗時:609
發送請求到保存文件耗時:610
發送請求到返回數據耗時:473
發送請求到保存文件耗時:474
發送請求到返回數據耗時:549
發送請求到保存文件耗時:550
發送請求到返回數據耗時:673
發送請求到保存文件耗時:674
發送請求到返回數據耗時:754
發送請求到保存文件耗時:755
發送請求到返回數據耗時:676
發送請求到保存文件耗時:676
發送請求到返回數據耗時:582
發送請求到保存文件耗時:582
發送請求到返回數據耗時:662
發送請求到保存文件耗時:663
發送請求到返回數據平均耗時:708.2ms
發送請求到保存文件平均耗時:709.1ms
for (int i = 0; i < 10; i++) {
// 調用接口
String text = "三分鐘前,由北京市順義區二經路與二緯路交匯處北側,北京首都國際機場T3航站樓 去往 東城區北三環東路36號喜來登大酒店(北京金隅店)";
HashMap<String, Object> options = new HashMap<String, Object>();
options.put("per", "0");
options.put("spd", "3");
long startTime = System.currentTimeMillis();
TtsResponse res = client.synthesis(text, "zh", 1, options);
byte[] data = res.getData();
if (data != null) {
long endTime = System.currentTimeMillis();
System.out.println("發送請求到返回數據耗時:"+(endTime - startTime));
try {
Util.writeBytesToFileSystem(data, "F:\\testaudio\\度小美Demooutput.mp3");
long saveEndTime = System.currentTimeMillis();
System.out.println("發送請求到保存文件耗時:"+(saveEndTime - startTime));
} catch (IOException e) {
e.printStackTrace();
}
}
JSONObject res1 = res.getResult();
if (res1 != null) {
System.out.println(res1.toString());
}
System.out.println();
}
以上數據可以看出。平均耗時在0.7s上下。如果服務器配置賊6、帶寬也賊寬。應該耗時還會更低哦
接下來。咱們就拿語音合成的服務。來結合實際業務做一個小的功能哦~
會員到訪語音提醒搞起來
簡單看一下業務流程圖。主要看語音合成、語音提醒部分即可
人臉會員識別可以看百度AI的官方解決方案 https://ai.baidu.com/solution/faceidentify
本業務中人臉識別、攝像頭廠商暫時沒用百度AI。這一點我也很無奈。迫於公司要求呀。如果再來一次選擇。絕對強制提議選擇百度AI(怕太便宜而告終 你懂得)
接口調用封裝,並符合業務系統使用
簡單說明一下:
案例中Java後端部分整體使用SpringBoot框架 JDK1.8
1.會員人臉照片信息上傳這一步小帥設計的是定時任務去執行語音信息並進行合成操作。所以需要對Java的定時任務、任務調度有一定了解哦
2.定時任務就是對人臉會員信息讀取並進行會員到訪語音提示音頻文件合成
會員信息採集
會員到訪提示音發音類型默認 度米多。也可以根據會員不同給不同的發音類型哦~
- 會員提示音類型修改
下拉選擇精品音庫 或 基礎音庫 的具體類型即可
- 後端會員人臉信息處理
/**
* 會員人臉信息添加
* @param csFace
* @return
*/
@AutoLog(value = "會員人臉信息添加")
@ApiOperation(value="會員人臉信息添加", notes="會員人臉信息添加")
@PostMapping(value = "/add")
public Result<CsFace> add(@RequestBody CsFace csFace) {
Result<CsFace> result = new Result<CsFace>();
csFaceGroup group = new csFaceGroup();
try {
//這裏存人臉信息到人臉庫就不演示了。人臉庫存入成功後業務系統再記錄
csFaceService.save(csFace);
//把會員人臉信息提交給JOB等待後續執行。方便前端頁面交互不等待
//人臉會員信息只是在一個JobFace類中增加一個List容器 public static List<CsFace> vipFaceMap=new ArrayList<CsFace>();
JobFace.vipFaceMap.add(csFace);
result.success("添加成功!");
} catch (Exception e) {
log.info(e.getMessage());
result.error500("操作失敗-人臉服務存在異常");
}
return result;
}
- 會員到訪定製提示音頻合成定時任務
import cn.hutool.core.date.DatePattern;
import cn.hutool.core.date.DateUtil;
import cn.netand.common.factory.BDFactory;
import cn.netand.modules.csface.entity.CsFace;
import cn.netand.modules.csface.service.ICsFaceService;
import com.baidu.aip.speech.AipSpeech;
import com.baidu.aip.speech.TtsResponse;
import com.baidu.aip.util.Util;
import lombok.extern.slf4j.Slf4j;
import org.quartz.Job;
import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.beans.factory.annotation.Value;
import java.io.File;
import java.text.SimpleDateFormat;
import java.util.Arrays;
import java.util.Date;
import java.util.HashMap;
import java.util.List;
/**
* @Description 人臉會員音頻生成
* @author 小帥丶
* @className VipVoiceJob
* @Date 2019/11/20 22:11
**/
@Slf4j
public class VipVoiceJob implements Job {
@Value(value = "${xiaoshuai.path.upload}")
private String uploadpath;
@Autowired
private GeneralDealBeanUtil generalDealBeanUtil;
@Autowired
private ICsFaceService csFaceService;
//獲取音頻合成的客戶端
AipSpeech aipSpeech = BDFactory.getAipSpeech();
@Value(value = "${xiaoshuai.domainVoice}")
private String domainVoice;
/**
* 度小宇=1,度小美=0,度逍遙=3,度丫丫=4
* 度博文=106,度小童=110,度小萌=111,度米朵=103,度小嬌=5
**/
private static final List<String> audioType = Arrays.asList("1","0","3","4","106","110","111","103","5");
private static final String LANGUAGE_ZH = "zh";
private static final Integer CTP = 1;
private static final String AUDIO = ".mp3";
//任務執行詳情
@Override
public void execute(JobExecutionContext jobExecutionContext) throws JobExecutionException {
System.out.println("execute VipVoiceJob = " + DateUtil.format(new Date(), DatePattern.NORM_DATETIME_PATTERN));
List<CsFace> vipFaceMap = JobFace.vipFaceMap;
int vipFaceSize = vipFaceMap.size();
if(vipFaceSize>0){
vipFaceMap.forEach(csFace -> {
//獲取會員信息
try {
generalAudio(csFace);
csFace.setVoiceStatus(1);
csFaceService.updateById(csFace);
}catch (Exception e){
System.out.println(e.getMessage());
csFace.setVoiceStatus(2);
csFaceService.updateById(csFace);
}
});
JobFace.vipFaceMap.clear();
}
}
/**
* @Description 生成全部音庫音頻文件
* @Author 小帥丶
* @Date 2019/11/20 23:28
* @param face 會員人臉數據
* @return void
**/
public void generalAudio(CsFace face){
String ctxPath = uploadpath;
String bizPath = "audios";
File file = new File(ctxPath + File.separator + bizPath + File.separator + face.getId());
if (!file.exists()) {
file.mkdirs();// 創建文件根目錄
}
long startTime = System.currentTimeMillis();
audioType.forEach(audioTypeStr->{
HashMap<String, Object> options = new HashMap<>();
//合成的文本內容
String text = "XX門店提醒 "+face.getName()+" 會員到訪";
//發音人選擇
options.put("per",audioTypeStr);
//語速,取值0-9,默認爲5中語速
options.put("spd", "3");
String fileName = audioTypeStr+AUDIO;
TtsResponse response = aipSpeech.synthesis(text,LANGUAGE_ZH,CTP,options);
byte[] data = response.getData();
if (data != null) {
try {
String savePath = file.getPath() + File.separator +fileName;
String filePath = bizPath + File.separator + face.getId() + File.separator + fileName;
if(null!=face.getVoiceType()&&face.getVoiceType().equals(Integer.parseInt(audioTypeStr))){
filePath = filePath.replace("\\", "/");
face.setVoicePath(filePath);
face.setVoiceUrl(domainVoice+filePath);
}
Util.writeBytesToFileSystem(data, savePath);
} catch (Exception e) {
System.out.println(e.getMessage());
}
}
});
long endTime = System.currentTimeMillis();
System.out.println("總耗時 = " + (endTime - startTime) + "ms");
}
}
- 添加一條定時任務
這裏是5秒執行一次。其實可以根據自我需求來定義。定時任務形式也不是必須。
- 會員音頻提示文件生成
數字代表的是發音類型。每添加一個會員。則會生成所有發音類型的音頻文件哦。方便後續給每個到訪會員給定不同聲音的提醒
會員到訪APP推送
非百度AI人臉會員解決方案哦~ 不要問爲什麼不用百度AI的。上面已經給出說明了。
1.攝像頭抓怕推送到人臉庫系統
2.人臉庫系統對比並推送結果到內部業務系統
3.內部業務系統|人臉庫系統推送給APP(小帥使用前者)
下圖是一個gif。會演示app收到推送彈窗並播放語音提醒。