老羅推薦的訊飛語音,有這些 know-how

導語:其實,老羅發佈會上宣傳了97%這個數字,我們達到這個數字其實已經有一兩年時間了。

老羅推薦的訊飛語音,有這些 know-how | 硬創公開課

據說,看了錘子手機發佈會的人,印象最深的就是老羅演示訊飛語音輸入那一段(從視頻的第100分鐘開始)。很多人表示自己受到了深深的震撼。但“震撼”之餘,我們也應該冷靜下來,清醒地認識到語音輸入的春天,在科技史上已經來過 N 次了。究竟是什麼,讓2016年的語音輸入變得不一樣,讓訊飛的語音輸入變得不一樣?

爲了解答這個問題,雷鋒網請來了訊飛輸入法產品總監,或者用時髦的說法“訊飛輸入法之父”,爲大家解解饞。 

嘉賓簡介

翟吉博,訊飛輸入法產品總監。2009年以碼農的身份加入科大訊飛,2010年創建訊飛輸入法並擔任產品總監至今,參與了訊飛輸入法從0發展到4億用戶的全過程,曾經3天時間就寫出了訊飛輸入法的Demo,目前訊飛輸入法月活躍用戶超過1億。

背景介紹:

湖北黃岡人,畢業於上海交大

2009年,以碼農身份入職科大訊飛

2010年創建訊飛輸入法,並擔任產品經理至今

也許是最會寫代碼的產品經理

老羅推薦的訊飛語音,有這些 know-how | 硬創公開課

問答精華回顧:

Q1

雷鋒網:很多大公司的重要產品,起初可能只是幾個員工的小嚐試,比如 Google 的很多產品是這麼誕生的。那麼對於訊飛來說,做輸入法的契機是什麼,這個產品是怎麼誕生的?

訊飛翟吉博:關於訊飛輸入法的誕生,這裏給大家講一段故事。2010年的時候,當時我在訊飛研究院,我記得iPhone4發佈的當天晚上,我跟我上級,就iPhone4做了一個討論,我們認爲,iPhone上基於觸屏的全鍵盤輸入體驗,不太好。原因在於屏幕太小,而手指又像,一根蘿蔔那麼粗。經過腦暴,我們考慮到,把訊飛的語音技術結合到輸入上來。完了我就自己動手開始做,很快就出了一個demo,因爲我原來是做過手寫識別,還有拼音的這個技術,所以這個demo也包含了,語音手寫還有拼音的功能。

這個demo拿出來給他老大看,他覺得,不能僅僅是做個demo,後面我們就對市場進行,研究和分析,寫了一個立項書,而且在公司層面也獲得了通過,其實我們組建幾人的小團隊在杭州封閉開發了三四個月,然後在10月28號,我們對外發布了第一個版本。

Q2

雷鋒網:外界看來,訊飛是一家toB業務爲主的公司,做 toC 的產品,最需要突破的地方是什麼?

訊飛翟吉博:我認爲最需要突破的地方,還是在思維方式以及配套的團隊體系方面。從面向行業客戶到直接面向消費者的,需要更多的去考慮用戶的需求。然後整個團隊的開發運營推廣的流程和體系需要重新構建。

在2011年的時候,訊飛,面向消費者成立了一個移動互聯事業部。現在,訊飛輸入法就在這個部門下面。我們部門其他的產品還有,靈犀語音助手(前身叫訊飛語點)、在幾年前iPhone上推出的一款叫訊飛口訊的,也風靡一時當時曾經,在app store的排行首位。訊飛輸入法的團隊,在這幾年也有一個很大的發展從最早,只有幾個人的,小的開發團隊,現在發展到包含了從前到後,完整的職能,一共接近二百人。

Q3

雷鋒網:訊飛輸入法早期的用戶羣和使用場景有什麼特點?

訊飛翟吉博:我們早期的種子用戶,有個典型特徵都是偏極客的,他們對語音技術關注度比較高,有不少用戶提到他們原來在電腦上,就體驗使用過IBM的語音技術。然後他們,會全天候的,不停的來測試我們的系統,並且提出各種各樣的設想和改進意見。

Q4

雷鋒網:講真,這次訊飛的語音輸入法被老羅猛推了一把,你和你的小夥伴們是一種怎樣的感受?

訊飛翟吉博:其實我們事先真沒想到,老羅是以這樣的一種演示方式,足足給了我們這麼長的時間,從現場,觀衆的熱烈響應,還有網絡上的,熱烈反響,給了我們團隊充分的信心。

至於數據嘛,這個請大家看一下,app store的排行榜,短短几天,我們現在已經在(免費)總榜上衝到了第三,在工具(免費)榜上已經,排在了第一。在華爲,小米等應用商店下面,也看到很多用戶的評論,都是和老羅的發佈會有關。

Q5

雷鋒網:一些懂行的人告訴我們,其實老羅在臺上演示的兩段內容輸入,還是非常有侷限性的,說的幾乎都是常用語,換言之就是機器最容易識別的東西。裏邊沒有任何專有詞彙,中英混雜,同音字等等等等。你們怎麼看?

訊飛翟吉博:其實老羅現場也提到了在那樣的一個環境下做語音輸入的演示,本來就是一件很有挑戰的事情,因爲環境的噪聲還有回聲的干擾,對於技術來說,是比較困難的一個問題。另外大家可以關注到老羅的一個非常即興的方式,它的語料是很開放的,而且語速也很快。這種方式相比封閉的,比如說繞口令的,這種語料,難度其實大很多。

當然對於專有詞彙還有中英文混合這些,也會加大識別的難度。我理解老羅,也是想保證現場的效果,所以,在即興的語料上,沒有加大這方面的難度。

Q6

雷鋒網:所以,語音輸入的春天真的又來了嗎?我們報道科技很多年,其實每隔幾年人們就會提語音輸入的突破,但到頭來會發現,路還很長,需要技術的突破也需要整個大環境的變化。你們在語音輸入的一線,講講你們的感覺吧?

訊飛翟吉博:那根據我們現在的理解,目前的語音技術的應用,可能還是主要分爲這幾個場景:

  • 第一個是在即時通訊應用裏邊。作爲比較實用的就是把語音轉成文字;

  • 第二個是語音搜索,他和前者的區別,更多的是一些關鍵詞的匹配;

  • 第三個就是在類似siri這樣的語音助手中,做上下文的對話以及理解。

那其實我們輸入法在第一種應用,當中可以看到,整個的語音用戶佔比的發展趨勢,從最早的每天幾個百分點,到現在接近20%,有些語音用戶已經養成非常穩定的使用習慣,而且這個趨勢仍然在增長中。我認爲這個比例現在還沒有到達,應有的用戶覆蓋。不過另一方面,我們認爲基於手機這種觸屏爲主的設備,語音不會是完全主流的,那在下一個萬物互聯和VR設備流行的時代,我相信語音技術的春天會,真正到來。

Q7

雷鋒網:語音輸入的技術突破有多大?給詳細講講。

訊飛翟吉博:從這幾年發展來回顧,語音輸入技術可以分爲幾個階段:

第一個階段。在我們,10年剛推出的時候,整個的識別率是初步的達到了使用門檻,字正確率只有70%多還不到80%;

第二個階段。那隨着用戶越來越多積累了大量的數據,通過大數據的訓練來驅動,使得整個的識別效果穩步的提升,能夠到達90%出頭。

第三個階段。2012、13年的時候,那我們,使用了深度學習算法之後,再結合大數據的訓練,使得正確率又有了,更大的突破。

其實,老羅發佈會上宣傳了97%這個數字,我們達到這個數字其實已經有一兩年時間了。

Q8

雷鋒網:訊飛的語音輸入強在哪兒?

訊飛翟吉博:首先要說,深度學習算法出來並相繼普及之後,對於安靜的環境下,日常的句子,大家的語音技術基本都達到了實用的水平。訊飛相對深入的地方表現在,三個方面:

第一,對於口音的適配。我們知道,在中國說普通話的口音是非常廣泛的,那對於不同的口音語音識別的效果,影響很大,訊飛對於各地的口音都有很好的適用,而且對於一些典型的純正的方言也能夠識別;

第二,對於抗環境的干擾方面。比如說在開車的時候,如果開着窗戶,那個噪聲是非常大的,訊飛是目前通過國際大車廠測試唯一達到實用水平的,技術提供商;

第三,對於網絡的依賴方面。我們能夠提供在線和離線無縫結合的方案,而且在離線的識別上面,也達到了很高的識別效果。

Q9

雷鋒網(公衆號:雷鋒網):講一個你和你的小夥伴得意的,關於產品細節的思考吧?

訊飛翟吉博:還是說一下剛纔提到的關於在線離線無縫結合的方案吧,那其實我們剛開始推出離線語音的時候就考慮到,在線語音的優勢是足夠精準,離線語音的優勢是比較可靠,我們能不能在用戶網絡不太穩定的時候,能智能地做一個識別和判斷,把兩者的優勢有一個很好的結合,所以我們現在在產品上,會實現一個從在線到離線智能切換的策略,這也算是一個比較貼心的細節。

Q10

雷鋒網:iPhone 平臺和 Android 平臺,在產品設計上,有怎樣不同的考慮?另外,那個牌子的手機更能發揮訊飛的語音能力?

訊飛翟吉博:首先考慮的是在視覺和交互的規範上,我們會遵循iPhone和安卓系統特定的規範,比如說在iPhone系統上保留的地球鍵,又比如說視覺的風格,這些我們不會,強制去做,兩個平臺的完全統一,其次也要考慮系統的能力和特性上的區別,比如說iPhone系統對於輸入法鍵盤的錄音權限做了限制,所以我們現在迫不得已也只能採用,跳轉的方式來實現語音輸入,當然iPhone也有它的優勢,比如我們可以利用3d touch,來實現利用輸入法鍵盤做很方便的光標移動,這個功能在需要定位修改文字的時候比較方便。

語音輸入對於不同手機來說,更多的是看錄音質量的區別,現在很難籠統地說哪個牌子的手機效果好基本上,採用了雙mic或者是多麥克,然後降噪效果做的不錯的手機,對語音輸入效果都有很大的幫助。

Q11

雷鋒網:語音輸入若想起到更大的作用,被更廣泛地使用,你覺得還應該在哪些方面有所突破?

訊飛翟吉博:首先,在市場教育和用戶習慣培養方面,我覺得羅老師給了我們很好的啓發,比如說從大家比較熟悉的,用微信發語音的場景,讓大衆明白通過語音輸入文字和直接發語音的區別。

另外,在產品和技術本身,我們覺得在個性化方面有很大的發展空間,因爲現在每個人或多或少都有獨特的發音習慣和用詞習慣,未來的語音輸入可以爲每個人量身打造越用越好,我們現在已經在輸入法裏,通過個人賬號實現了,通訊錄人名和定製詞庫的個性化識別,將來還將實現,更深入的個性化功能。

Q12

雷鋒網:最後分享一下你的語音輸入使用習慣吧?

訊飛翟吉博:我個人使用語音的過程,也大概經歷了幾個階段,可能也代表了不少用戶的路徑。

第一個階段。主要還是在克服自己的心理障礙,一開始總是覺得用語音對着手機說話,感覺有點傻,只敢一個人的時候用。

第二個階段。那後面在大街上也經常看到有人用對着微信發語音,好像大家也習以爲然了,所以心裏的障礙慢慢的有所克服,這個階段更多的是對語音識別效果的調校,自己想想怎麼樣能說得更準,而且怎麼樣能有一些方面的修改。

第三個階段。也就是現在的階段,可以說已經達到一個老司機的水平了,可以相對比較得心應手的使用,特別是在移動的狀態下,基本上就靠用語音了。



雷鋒網原創文章,網頁轉載請註明來自雷鋒網,署名作者和原文鏈接。微信轉載授權,請聯繫雷鋒網公衆號(微信ID:leiphone-sz),詳情見轉載須知

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章