#machine-learning #deep-learning #speech-recognition
#машинное обучение #глубокое обучение #распознавание речи
Вопрос:
Я хочу использовать Wav2Vec2.0 для извлечения функций из аудиовхода. У меня есть следующие проблемы:
- Мой аудиофайл действительно длинный (более 1 часа), поэтому я просто разделил аудио на несколько сегментов на основе стенограммы. Я хочу извлечь вектор hidden_dim вместо seq_len * hidden_dim из каждого сегмента. Это нормально?
- Как объединить такой seq_len * hidden_dim в вектор hidden_dim? Является ли avg_pool хорошим методом?
- Какой вывод из Wav2Vec2.0 я должен использовать? Как показано на следующих рисунках, следует ли мне использовать выход свертки Z или конечный выход трансформатора C?
Большое спасибо за ваше внимание!