亞馬遜宣佈Transcribe支持實時音頻轉錄功能

編譯:chux

出品:ATYUN訂閱號

在新推出的Comprehend服務之後,亞馬遜今天宣佈其自動語音識別(ASR)服務Amazon Transcribe獲得對實時轉錄的支持。

實時音頻轉錄功能本週可用,使開發人員能夠將流傳輸到Transcribe並實時接收文本腳本。AWS機器學習部高級產品經理Paul Zhao,Amazon Transcribe高級軟件工程師Paul Kohan表示,它利用數據傳輸協議HTTP / 2在應用程序和轉錄之間傳輸音頻和轉錄,特別是HTTP / 2的雙向流實現,它允許應用程序同時發送和接收數據。

“實時轉錄使各種垂直行業的用例受益,包括聯絡中心,媒體和娛樂,法庭記錄保存,財務和保險,”Zhao和Kohan在博客中寫道,“在媒體中,新聞或節目的直播可以從現場字幕中受益。視頻遊戲公司可以使用流式轉錄來滿足遊戲內聊天的可訪問性要求,幫助有聽力障礙的玩家。在法律領域,法庭可以利用實時轉錄來實現速記,而律師也可以在實時成績單之上進行法律註釋以用於存放目的。在企業生產力方面,公司可以利用實時轉錄動態捕捉會議記錄。”

不過實時轉錄並不是什麼新鮮事了:如谷歌的雲語音到文本服務,Twilio的語音識別API,以及IBM的Watson Speech to Text。但是Zhao和Kohan聲稱,轉錄的解決方案會導致“更快”和“更具反應性”的結果。

亞馬遜製作了一個示例應用程序,演示瞭如何使用Amazon Web Services軟件開發工具包來利用實時音頻流。它在Github上以開源形式提供。

亞馬遜轉錄在4月份與Translate一起公開發布。它目前支持16 kHz和8kHz音頻流;多種音頻編碼,如WAV,MP3,MP4和FLAC;多種語言,包括美國英語,西班牙語,英國英語,澳大利亞英語和加拿大法語。

預構建的AI API處於AWS的其他AI服務套件中,其中Lex用於自然語言理解,Polly用於語音生成,Rekognition用於圖像處理。

代碼:github.com/aws-samples/aws-transcribe-streaming-example-java

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章