VC 下Microsoft Speech SDK5.1開發小結

VC 下Microsoft Speech SDK 5.1 開發小結

1.首先開發得需要Microsoft Speech SDK 5.1的支持,以下是下載地址

http://www.microsoft.com/downloads/en/details.aspx?FamilyID=5e86ec97-40a7-453f-b0ee-6583171b4530

2.下載後,執行安裝

下載完畢後首先安裝SpeechSDK51.exe,然後安裝中文語言補丁包SpeechSDK51LangPack,然後展開
speechsdk51MSM.exe,這些都是自解壓文件,解壓後執行相應的setup程序到你要的目錄,默認C:\Microsoft Speech SDK 5.1.對應的開發參考手冊爲sapi.chm,詳細描述了各個函數的細節等.

3.VC的環境配置

在應用SDK的開發前當然得需要對工程環境進行配置,我用的是VS2003(其他情況類似),配置的過程如下:

工具->選項->項目->VC++目錄,在"顯示以下內容的目錄"下拉框中選擇"包含目錄"項,添加一項C:\Program   Files\Microsoft   Speech   SDK   5.1\Include到目錄中去。再選擇"庫文件"項,添加一項C:\Program   Files\Microsoft   Speech   SDK   5.1\Lib\i386到目錄中去.

4.其他準備項

基礎的配置已經完成,那麼接下來的工作就是要包含編譯的頭文件了,所以先將頭文件和庫文件包含進來

#include <sapi.h>
#include <sphelper.h>
#include <spuihelp.h>

#pragma comment(lib,"ole32.lib")   //CoInitialize CoCreateInstance需要調用ole32.dll
#pragma comment(lib,"sapi.lib")    //sapi.lib在SDK的lib目錄,必需正確配置

具體其他函數所需要的頭文件可參考sapi.chm手冊.

5.源文件修改項

看上去上面的部分配置完成後就大功告成了,其實還不全是,當你編譯時就會出錯:

c:\program files\microsoft speech sdk 5.1\include\sphelper.h(769) : error C4430: missing type specifier - int assumed. Note: C++ does not support default-int
c:\program files\microsoft speech sdk 5.1\include\sphelper.h(1419) : error C4430: missing type specifier - int assumed. Note: C++ does not support default-int
c:\program files\microsoft speech sdk 5.1\include\sphelper.h(2373) : error C2065: 'psz' : undeclared identifier
c:\program files\microsoft speech sdk 5.1\include\sphelper.h(2559) : error C2440: 'initializing' : cannot convert from 'CSpDynamicString' to 'SPPHONEID *'
No user-defined-conversion operator available that can perform this conversion, or the operator cannot be called
c:\program files\microsoft speech sdk 5.1\include\sphelper.h(2633) : error C2664: 'wcslen' : cannot convert parameter 1 from 'SPPHONEID *' to 'const wchar_t *'
Types pointed to are unrelated; conversion requires reinterpret_cast, C-style cast or function-style cast
Speech代碼編寫時間太早,語法不嚴密。而VS2003(及以上)對於語法檢查非常嚴格,導致編譯無法通過。修改頭文件中的以下行即可正常編譯:
Line 769
    修改前: const ulLenVendorPreferred = wcslen(pszVendorPreferred);
    修改後: const unsigned long ulLenVendorPreferred = wcslen(pszVendorPreferred);
Line 1418
    修改前: static CoMemCopyWFEX(const WAVEFORMATEX * pSrc, WAVEFORMATEX ** ppCoMemWFEX)
     修改後: static HRESULT CoMemCopyWFEX(const WAVEFORMATEX * pSrc, WAVEFORMATEX ** ppCoMemWFEX)
Line 2372
    修改前: for (const WCHAR * psz = (const WCHAR *)lParam; *psz; psz++) {}
     修改後: const WCHAR * psz; for (psz = (const WCHAR *)lParam; *psz; psz++) {}
Line 2559
    修改前: SPPHONEID* pphoneId = dsPhoneId;
     修改後: SPPHONEID* pphoneId = (SPPHONEID*)((WCHAR *)dsPhoneId);
Line 2633
     修改前: pphoneId += wcslen(pphoneId) + 1;
     修改後: pphoneId += wcslen((const wchar_t *)pphoneId) + 1;
好了,編譯通過,下面可以正式編寫程序了。
6.SAPI實現TTS(Text to Speech)
  • 1. 首先要初始化語音接口,一般有兩種方式:
       ISpVoice* pVoice;
       ::CoInitialize(NULL);
       HRESULT hr =CoCreateInstance(CLSID_SpVoice, NULL, CLSCTX_ALL,IID_ISpVoice, (void **)&pVoice);
       然後就可以使用這個指針調用SAPI函數了,例如
       pVoice->SetVolume(50);//設置音量
       pVoice->Speak(str.AllocSysString(),SPF_ASYNC,NULL);

    另外也可以使用如下方式:
    CComPtr<ISpVoice>   m_cpVoice;
    HRESULT hr = m_cpVoice.CoCreateInstance(CLSID_SpVoice );
   在下面的例子中都用這個m_cpVoice變量。CLSID_SpVoice的定義位於sapi.h中。

  • 2. 獲取/設置輸出頻率。

   SAPI朗讀文字的時候,可以採用多種頻率方式輸出聲音,比如:8kHz 8Bit Mono、8kHz 8BitStereo、44kHz 16BitStereo等,在音調上有所差別。具體可以參考sapi.h。

   可以使用如下代碼獲取當前的頻率配置:
   CComPtr<ISpStreamFormat> cpStream;
   HRESULT hrOutputStream =m_cpVoice->GetOutputStream(&cpStream);
   if (hrOutputStream ==S_OK)
   {
       CSpStreamFormat Fmt;
       hr = Fmt.AssignFormat(cpStream);
       if (SUCCEEDED(hr))
       {
           SPSTREAMFORMAT eFmt = Fmt.ComputeFormatEnum();
       }
   }
    SPSTREAMFORMAT 是一個ENUM類型,定義位於sapi.h中,這樣eFmt就保存了獲得的當前頻率設置值。每一個值對應了不同的頻率設置。

    通過如下代碼設置當前朗讀頻率:
    CComPtr<ISpAudio>   m_cpOutAudio; //聲音輸出接口
    SpCreateDefaultObjectFromCategoryId( SPCAT_AUDIOOUT,&m_cpOutAudio ); //創建接口

    SPSTREAMFORMAT eFmt = SPSF_8kHz8BitMono; //SPSF_8kHz 8Bit Mono這個參數可以參考sapi.chm手冊

    CSpStreamFormat Fmt;
    Fmt.AssignFormat(eFmt);
    if (m_cpOutAudio )
    {
       hr = m_cpOutAudio->SetFormat(Fmt.FormatId(), Fmt.WaveFormatExPtr() );
    }
    else hr = E_FAIL;

    if(SUCCEEDED( hr ) )
   {
       m_cpVoice->SetOutput( m_cpOutAudio, FALSE );
   }

  • 3. 獲取/設置播放所用語音。

   引擎中所用的語音數據文件一般保存在SpeechEngines下的spd或者vce文件中。安裝sdk後,在註冊表中保存了可用的語音,比如英文的男/女,簡體中文的男音等。位置是:
   HKEY_LOCAL_MACHINE\Software\Microsoft\Speech\Voices\Tokens
SAPI的缺點是不能支持中英文混讀,在朗讀中文的時候,遇到英文,只能逐個字母讀出。所以需要程序自己進行語音切換。

(1) 可以採用如下的函數把當前SDK支持的語音填充在一個組合框中:
    // SAPI5helper function in sphelper.h

    CWnd* m_wnd = GetDlgItem(IDC_COMBO_VOICES);
    HWND hWndCombo = m_wnd->m_hWnd; //組合框句柄
      HRESULT hr =SpInitTokenComboBox( hWndCombo , SPCAT_VOICES );
    這個函數是通過IEnumSpObjectTokens接口枚舉當前可用的語音接口,把接口的說明文字添加到組合框中,並且把接口的指針作爲LPARAM 保存在組合框中。
    一定要記住最後程序退出的時候,釋放組合框中保存的接口:
    SpDestroyTokenComboBox( hWndCombo );
    這個函數的原理就是逐個取得combo裏面每一項的LPARAM數據,轉換成IUnknown接口指針,然後調用Release函數。
(2) 當組合框選擇變化的時候,可以用下面的函數獲取用戶選擇的語音:
    ISpObjectToken* pToken = SpGetCurSelComboBoxToken( hWndCombo );

(3) 用下面的函數獲取當前正在使用的語音:
    CComPtr<ISpObjectToken> pOldToken;
    HRESULT hr = m_cpVoice->GetVoice( &pOldToken);
(4) 當用戶選擇的語音和當前正在使用的不一致的時候,用下面的函數修改:
    if(pOldToken != pToken)
    {       
         // 首先結束當前的朗讀,這個不是必須的。
         HRESULT hr = m_cpVoice->Speak( NULL,SPF_PURGEBEFORESPEAK, 0);
         if (SUCCEEDED (hr) )
            hr = m_cpVoice->SetVoice( pToken );
     }
(5) 也可以直接使用函數SpGetTokenFromId獲取指定voice的Token指針,例如:
      WCHAR pszTokenId[] =L"HKEY_LOCAL_MACHINE\\Software\\Microsoft\\Speech\\Voices\\Tokens\\MSSimplifiedChineseVoice";
    SpGetTokenFromId(pszTokenID , &pChineseToken);

  • 4 開始/暫停/恢復/結束當前的朗讀

要朗讀的文字必須位於寬字符串中,所以從文本框中讀取的字符串類型CString必須轉換成爲WCHAR型,如下(m_strText爲文本框變量):
    CString strSpeak;
m_strText.GetWindowText(strSpeak);
WCHAR   wChar[256];
memset(wChar ,0,256);
MultiByteToWideChar( CP_ACP , 0 , strSpeak , strSpeak.GetLength() , wChar , 256);
   這樣就將文本框中的字符串strSpeak轉化爲WCHAR型的wChar變量中了.
   開始朗讀的代碼:
   hr =m_cpVoice->Speak( wChar, SPF_ASYNC |SPF_IS_NOT_XML, 0 );
   如果要解讀一個XML文本,用:
   hr =m_cpVoice->Speak( wChar, SPF_ASYNC |SPF_IS_XML, 0 );

   暫停的代碼:   m_cpVoice->Pause();
   恢復的代碼:   m_cpVoice->Resume();
   結束的代碼:(上面的例子中已經給出了)
   hr =m_cpVoice->Speak( NULL, SPF_PURGEBEFORESPEAK,0);

  • 5 跳過部分朗讀的文字

   在朗讀的過程中,可以跳過部分文字繼續後面的朗讀,代碼如下:
   ULONG ulGarbage = 0;
   WCHAR szGarbage[] =L"Sentence";
   hr =m_cpVoice->Skip( szGarbage, SkipNum,&ulGarbage );
   SkipNum是設置要跳過的句子數量,值可以是正/負。
   根據sdk的說明,目前SAPI僅僅支持SENTENCE這個類型。SAPI是通過標點符號來區分句子的。

  • 6 播放WAV文件。SAPI可以播放WAV文件,這是通過ISpStream接口實現的:

   CComPtr<ISpStream>    cpWavStream;
   WCHAR      szwWavFileName[NORM_SIZE] = L"";

   USES_CONVERSION;
   wcscpy( szwWavFileName, T2W(szAFileName ) );//從ANSI將WAV文件的名字轉換成寬字符串

   //使用sphelper.h 提供的這個函數打開wav 文件,並得到一個 IStream 指針
   hr = SPBindToFile(szwWavFileName, SPFM_OPEN_READONLY, &cpWavStream);
   if( SUCCEEDED( hr ) )
   {
        m_cpVoice->SpeakStream( cpWavStream, SPF_ASYNC, NULL);//播放WAV文件
   }

  • 7 將朗讀的結果保存到wav文件
       TCHARszFileName[256];//假設這裏面保存着目標文件的路徑
       USES_CONVERSION;
       WCHAR m_szWFileName[MAX_FILE_PATH];
       wcscpy( m_szWFileName,T2W(szFileName) );//轉換成寬字符串

   //創建一個輸出流,綁定到wav文件
   CSpStreamFormat OriginalFmt;
   CComPtr<ISpStream> cpWavStream;
   CComPtr<ISpStreamFormat>    cpOldStream;
   HRESULT hr =m_cpVoice->GetOutputStream(&cpOldStream );
   if (hr == S_OK) hr =OriginalFmt.AssignFormat(cpOldStream);
   else hr =E_FAIL;
   // 使用sphelper.h中提供的函數創建 wav文件
   if (SUCCEEDED(hr))
   {
      hr = SPBindToFile( m_szWFileName, SPFM_CREATE_ALWAYS,&cpWavStream,&OriginalFmt.FormatId(),OriginalFmt.WaveFormatExPtr() );
    }
   if( SUCCEEDED( hr ) )
   {
      //設置聲音的輸出到 wav 文件,而不是speakers
      m_cpVoice->SetOutput(cpWavStream, TRUE);
    }
    //開始朗讀
    m_cpVoice->Speak( wChar, SPF_ASYNC |SPF_IS_NOT_XML, 0 );

    //等待朗讀結束
    m_cpVoice->WaitUntilDone( INFINITE );
    cpWavStream.Release();

    //把輸出重新定位到原來的流
    m_cpVoice->SetOutput( cpOldStream, FALSE );

  • 8 設置朗讀音量和速度
       m_cpVoice->SetVolume((USHORT)hpos); //設置音量,範圍是 0 -100
       m_cpVoice->SetRate(hpos); //設置速度,範圍是 -10 - 10
  • 9 設置SAPI通知消息。

       SAPI在朗讀的過程中,會給指定窗口發送消息,窗口收到消息後,可以主動獲取SAPI的事件,根據事件的不同,用戶可以得到當前SAPI的一些信息,比如正在朗讀的單詞的位置,當前的朗讀口型值(用於顯示動畫口型,中文語音的情況下並不提供這個事件)等等。要獲取SAPI的通知,首先要註冊一個消息:
   m_cpVoice->SetNotifyWindowMessage( hWnd,WM_TTSAPPCUSTOMEVENT, 0, 0 );
   這個代碼一般是在主窗口初始化的時候調用,hWnd是主窗口(或者接收消息的窗口)句柄。WM_TTSAPPCUSTOMEVENT是用戶自定義消息。在窗口響應WM_TTSAPPCUSTOMEVENT消息的函數中,通過如下代碼獲取sapi的通知事件:

    CSpEvent        event; // 使用這個類,比用 SPEVENT結構更方便

    while(event.GetFrom(m_cpVoice) == S_OK )
    {
        switch( event.eEventId )
        {
         ...
        }
    }

   eEventID有很多種,比如SPEI_START_INPUT_STREAM表示開始朗讀,SPEI_END_INPUT_STREAM表示朗讀結束等。
   可以根據需要進行判斷使用。

7.總結

還有一些關於xml的支持可以參考sapi.chm幫助手冊,感謝網絡原作提供的資源,有iwaswzq,yaooo等
發佈了0 篇原創文章 · 獲贊 6 · 訪問量 12萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章