VoiceXML簡介

 

簡單來說,VoiceXML就是語音網絡世界的HTML,一種用於語音應用的開放標準的標記語言。VoiceXML的問世使得爲HTML發展起來的web體系也能夠輕鬆地創建和使用語音應用。

 

發展歷史:

  1995年AT&T研究院的Dave Ladd, Chris Ramming, Ken Rehor以及Curt Tuckey在頭腦風暴關於互聯網會如何改變電話應用的時候,產生了一些新的想法:爲什麼不設計這樣一個系統來運行一種可以解析某種語音標記語言的語音瀏覽器,用來把互聯網的內容和服務提供到千家萬戶的電話上。於是,AT&T就開始“電話網絡項目”(Phone Web Project)。之後,Chris繼續留在AT&T,Ken去了朗訊,Dave和Curt去了摩托羅拉。1999年初的時候,他們分別在各自的公司邁出了語音標記語言規範實質性的第一步。因爲他們的密友關係,這幾家公司合作成立了一個VoiceXML論壇組織,IBM也作爲一個創始公司加入了進來。

  1999年3月至8月,這個論壇的一個小組發佈了VoiceXML 0.9版本。

  2000年3月,VoiceXML 1.0問世。

  一個月後,VoiceXML論壇把1.0規範提交給了權威的World Wide Web組織(W3C)。

  2000年5月,W3C接手了這個VoiceXML 1.0規範。

  2001年10月,VoiceXML 2.0試驗版問世。

  2002年4月,最後一個版本的2.0試驗版發佈。

  2003年1月,VoiceXML 2.0正式版發佈。

 


就像HTML默認需要一個圖形化的web瀏覽器,輸入輸出裝置(通常是鍵盤,鼠標),VoiceXML也默認需要一個帶音頻輸入輸出,以及鍵盤輸入的語音瀏覽器。語音瀏覽器中的語音識別部分負責處理語音輸入。語音輸出可以是錄音,也可以是語音瀏覽器的TTS(Text-To-Speech)合成語音輸出。

語音瀏覽器通常是運行在同時和互聯網(Internet)以及公共交換電話網(PSTN)相連的專用語音通道節點上。這種語音通道可以支持數千通話同時進行,可以被當今世界超過15億電話訪問。


VoiceXML自面世以來能夠高速發展主要得益於這樣幾個方面的因素:

1、萬維網(WWW)的高速發展和普及

2、基於電腦的語音識別和TTS語音合成技術的突破性發展

3、萬維網超越臺式電腦的傳播(比如智能手機)

VoiceXML 2.0 是一個用於創建自動語音識別 (ASR) 和互動式語音應答 (IVR) 應用的可擴展標記語言 (XML)。VoiceXML繼承了XML的標籤風格。一個VoiceXML應用通常由多個文件(document)構成,這些文件均爲.vxml後綴,由標記xml以及vxml版本開始。

<?xml version="1.0"?>

<vxml version="2.0">

在vxml標籤下,document由多個離散的對話元素組成,稱爲表單(form)。每個form有各自的名稱,且負責執行對話的一個部分。form標籤底下含有一系列的用來執行應用的各種任務的元素,大體上可分爲兩類:field item和control item。Field item負責從通話者吸收信息,給變量賦值,也可能包含有一些指令用來告訴通話者應該說些什麼,一些語法規則來定義如何解析通話者說的話等等。Control item則負責一些非識別的任務。

Field item包含<field>, <record>, <transfer>, <object>, <subdialog>,Control item包含<block>, <initial>。

看一個VoiceXML文件的小例子:

<?xml version="1.0"?>
<vxml application="tutorial.vxml" version="2.0">
    <form id="someName">
        <block>
            <prompt> Created by tutee 
        </block>
    </form>
</vxml>


 


 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章