10月份語音合成任務安排: 商業化的普通話合成 (質量, 速度, 準確度, 韻律)

-1.0 首先趁着國慶節把9月份的任務完成, 快速整理, 難的或者繁瑣的作爲10月份任務之一, 但不再拓展, 即使拓展, 也只是先記下來, 後來發現還是太多了, 記下來的在下午去完成, 上午8到12點學習新的. 

  • 復現兩篇論文, 結構實現細節進行說明, 訓練步數+batch也標記, 並且以網頁形式做出對比, 尤其是口音clone, 模仿着論文分析, 畫出表格和圖像 (如embedding vec). 代碼備份, 報告完成並備份.
  •  phoneme的放出no-ref-no-vae版本的, 只要中文聲音. 
  • 照着自己琢磨的 "Break it down into text and timbre and accent factors"去實現. 爲了實現效果, 需要琢磨幾個loss的相對設置, 至少要打印出來看一看, 積累經驗. 同時網絡超參數儘量用之前實驗的. 需要新的數據集, vae支持, 新合成的動態加入策略. 和復現論文結合起來搞一篇論文.
  • 更加細緻化分析: 設計實驗讓殘留在各部分的不屬於該部分的信息暴露出來, 在cs部分, 對於language id在decoder部分的炫技. 比如用vad, 比如用stop token一樣的. 當然, 直接加到文本序列, 或者encoder_output也行, 不涉及序列變換.

-1.1 整理interspeech, 至少是ipyb和靜北師兄講的.

-1.1 數據挖掘, 工程化TF2, python細節和算法.

 

0. 0 儘快對接已有數據, 防止出問題. 可以單獨訓練, 可以base+X.

0.1英偉達的代碼跑出來, 分析各個代碼, vocoder在不使用工程技巧的inference時間, 作爲baseline. 看是否不用優化就能忍. 要麼就簡單的分段優化.  看看有沒有分佈式的可能, 或者加大reduction_factor, 真不行了就都延遲2s.

  • T2+GL
  • T2+WaveNet (感覺時間上不靠譜)
  • T2+WaveRNN (感覺時間上不太靠譜)
  • T2 (Nvidia) + WaveGlow
  • 梅林, Merlin, spss的, 作爲速度以及正確率的backup
  • T2+SPTK
  • T2+word
  • T2+...

1. 自己想的線段樹Tacotron-transfermer, 其實和fastspeech很像, 實現它. 處理duration的地方不太優美.

2. 想想怎麼提升普通話的豐富的情感. (重點)

3. 新想法, 同位素, 同分異構. 避免某些訓練不充分產生的問題.

4. 最後弄一個快的ASR, 搞一個"英特爾版本"的.

5. 迭代的 (遞歸的) 殘差網絡, 以及模擬低精度到高精度, 以及模擬數據挖掘中小數位拉出來.

6. 每次改個參數, 改個結構, 就需要全部重頭訓練. 唱歌.

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章