Пакеты Python для очистки данных корпуса научных статей?

#python #data-cleaning

Вопрос:

У меня есть коллекция научных статей из нескольких журналов в формате pdf. Я хотел бы удалить изображения, уравнения, названия и сноски из каждой статьи. Выполнение этого вручную заняло бы много времени. Любой пакет python, который мог бы помочь в этом?