Как использовать Wav2Vec2.0 для извлечения функций из аудио?

#machine-learning #deep-learning #speech-recognition

#машинное обучение #глубокое обучение #распознавание речи

Я хочу использовать Wav2Vec2.0 для извлечения функций из аудиовхода. У меня есть следующие проблемы:

Мой аудиофайл действительно длинный (более 1 часа), поэтому я просто разделил аудио на несколько сегментов на основе стенограммы. Я хочу извлечь вектор hidden_dim вместо seq_len * hidden_dim из каждого сегмента. Это нормально?
Как объединить такой seq_len * hidden_dim в вектор hidden_dim? Является ли avg_pool хорошим методом?
Какой вывод из Wav2Vec2.0 я должен использовать? Как показано на следующих рисунках, следует ли мне использовать выход свертки Z или конечный выход трансформатора C?

Большое спасибо за ваше внимание!