#python #pytorch
Вопрос:
Этот приведенный ниже код генерирует аудиовыход с использованием IPython. Я мог воспроизвести это только в записной книжке(colab), и я хочу экспортировать файл wav.
if len(i) < 1: continue;
print(i)
if raw_input:
if i[-1] != ";": i=i ";"
else: i = ARPA(i)
print(i)
with torch.no_grad(): # save VRAM by not including gradients
sequence = np.array(text_to_sequence(i, ['english_cleaners']))[None, :]
sequence = torch.autograd.Variable(torch.from_numpy(sequence)).cuda().long()
mel_outputs, mel_outputs_postnet, _, alignments = model.inference(sequence)
audio = waveglow.infer(mel_outputs_postnet, sigma=sigma); print(""); ipd.display(ipd.Audio(audio[0].data.cpu().numpy(), rate=hparams.sampling_rate))```
Комментарии:
1. Итак, что же
audio
это такое ? Это просто набор аудиосэмплов? В Python естьwave
модуль, который может создавать файл .wav из массива образцов, если вы можете описать формат.2. @TimRoberts, звук генерируется из модели TTS, которую я обучал с помощью tacotron2, в приведенном выше примере я использовал waveglow в качестве вокодера для создания звука в формате wav с использованием дисплея IPython, который работает только в ноутбуках.
3. На самом деле это не ответ на вопрос. Что ТАКОЕ
audio
? Что это за предмет? Повторяю, если это просто массив образцов,wave
модуль может решить эту проблему.