#html #css #pdf #web-scraping #printing
Вопрос:
Иногда я сохраняю учебные пособия с веб-сайта в виде файла PDF для дальнейшего использования.
Мой текущий ручной рабочий процесс:
- Нажмите на ссылку «показать на одной странице», чтобы получить полное представление статьи на одной странице.
- Откройте инструменты разработки браузера и выберите разделы с рекламой и связанными ссылками с помощью функции проверки и удалите их.
- Распечатайте страницу в формате PDF.
Для этого я использовал браузер Firefox или Chrome, так как они оба обладают необходимой функциональностью и ведут себя в этом отношении очень похоже.
Я заметил, что содержимое, которое я хочу удалить, чтобы получить «чистую печать» содержимого, в основном одно и то же: допустим, все добавления встроены в div с баннером добавления класса.
Есть ли способ автоматизировать эти шаги? Одна из идей состоит в том, чтобы загрузить пользовательский CSS-файл, который мне нужно будет подготовить специально для сайта. Простые правила, например .add-banner { display: none; }
, позволили бы мне скрыть разделы, которые я не хочу печатать.
Я также взглянул на консольные скребки, потому что мне нравится идея вызывать команду с URL-адресом в качестве параметра. Но инструменты, которые я обнаружил, основаны на изображениях, и мне нужен индексируемый PDF-файл, в котором я мог бы искать текст и выбирать части.
Каков наилучший вариант для достижения этой цели?
Комментарии:
1. Если бы владелец контента хотел, чтобы вы могли провести его ребрендинг, он создал бы для этого api или канал.
Ответ №1:
Расширение User CSS из интернет-магазина chrome (бесплатно) позволяет мне добавлять пользовательские правила css на любую загруженную страницу. Можно импортировать и экспортировать правила CSS, а расширение позволяет хранить пользовательский CSS на базе каждого сайта.
Это именно то, что я искал, так как это облегчает и ускоряет удаление ненужных разделов перед печатью.