#python #lstm #video-processing #pose-estimation #mediapipe
Вопрос:
Мне нужно классифицировать 2 позы. Для каждой позы у меня есть 60 образцов видео. Но проблема в том, что общее количество кадров в каждом видео разное. В этом случае входные данные для LSTM будут неравномерными. Есть ли какой-нибудь способ решить эту проблему? или нам нужны видео с одинаковым количеством кадров?
Подробно: Входными данными являются ключевые точки, которые извлекаются для каждого кадра. Предположим, что для каждого кадра ключевые точки равны 100, тогда для видео с 60 кадрами общее количество ключевых точек составит 6000. С другой стороны, для видео с 75 кадрами ключевые точки будут равны 7500.
В первом случае (x, y, 6000), во втором случае (x, y, 7500). НО input_shape для LSTM (или любого другого NN) должен быть установлен постоянным (скажем (x, y, 6000)).
Это только для двух случаев. У меня более 50 видео. Как я могу решить эту проблему?
Ответ №1:
- Одним из решений может быть заполнение нуля в дополнение к отсутствующим кадрам. Это позволит общему количеству кадров на видео быть одинаковым для всего набора видео.
- Другой подход к созданию одинакового количества кадров может заключаться в создании нескольких копий первого и последнего кадров и их добавлении.