Как настроить ввод в LSTM ( распознавание позы с помощью видео), если мои видео с переменными кадрами?

#python #lstm #video-processing #pose-estimation #mediapipe

Вопрос:

Мне нужно классифицировать 2 позы. Для каждой позы у меня есть 60 образцов видео. Но проблема в том, что общее количество кадров в каждом видео разное. В этом случае входные данные для LSTM будут неравномерными. Есть ли какой-нибудь способ решить эту проблему? или нам нужны видео с одинаковым количеством кадров?

Подробно: Входными данными являются ключевые точки, которые извлекаются для каждого кадра. Предположим, что для каждого кадра ключевые точки равны 100, тогда для видео с 60 кадрами общее количество ключевых точек составит 6000. С другой стороны, для видео с 75 кадрами ключевые точки будут равны 7500.

В первом случае (x, y, 6000), во втором случае (x, y, 7500). НО input_shape для LSTM (или любого другого NN) должен быть установлен постоянным (скажем (x, y, 6000)).

Это только для двух случаев. У меня более 50 видео. Как я могу решить эту проблему?

Ответ №1:

  1. Одним из решений может быть заполнение нуля в дополнение к отсутствующим кадрам. Это позволит общему количеству кадров на видео быть одинаковым для всего набора видео.
  2. Другой подход к созданию одинакового количества кадров может заключаться в создании нескольких копий первого и последнего кадров и их добавлении.