最近在tensorflow v1和pytorch都有寫。
裏面有寫函數具有相同功能。
現在的主要需求是把語音的mel譜tile hopsize倍,但是希望能平滑一些。
推薦2個函數,一個是tensorflow的tf.image.resize_images
一個是pytorch的torch.nn.functional.interpolate
輸入都是4維的數據,所以在送進去之前我都進行過expand_dims/unsqueeze
具體用法就不贅述了,主要知道兩個函數能用差不多作用就足夠了。
裏面的mode有很多種,針對語音來說,bilinear和bicubic都不錯,torch實現的更多一點。
考慮到效率問題,我選擇了bilinear。
不過值得注意的一點是torch默認的數據格式應該是BCHW,tensorflow的是BHWC
而且兩個函數的參數不是很一致,多注意試一下就OK。