tensorflow的resize_images和pytorch的interpolate

最近在tensorflow v1和pytorch都有寫。

裏面有寫函數具有相同功能。

現在的主要需求是把語音的mel譜tile hopsize倍,但是希望能平滑一些。

推薦2個函數,一個是tensorflow的tf.image.resize_images

一個是pytorch的torch.nn.functional.interpolate

輸入都是4維的數據,所以在送進去之前我都進行過expand_dims/unsqueeze

具體用法就不贅述了,主要知道兩個函數能用差不多作用就足夠了。

裏面的mode有很多種,針對語音來說,bilinear和bicubic都不錯,torch實現的更多一點。

考慮到效率問題,我選擇了bilinear。

不過值得注意的一點是torch默認的數據格式應該是BCHW,tensorflow的是BHWC

而且兩個函數的參數不是很一致,多注意試一下就OK。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章