Как эффективно сравнивать изображения в Python с помощью BeautifulSoup

#python #python-3.x #bash #beautifulsoup #web-crawler

#python #python-3.x #bash #beautifulsoup #веб-сканер

Вопрос:

Я пытаюсь сканировать данные из https://mongolia.gogo.mn/ и https://gogo.mn/ там, где есть двуязычные данные — монгольская и английская версии одной и той же статьи. Однако невозможно автоматически сканировать данные и сопоставлять, какая английская статья соответствует монгольской, потому что их URL-адреса кардинально отличаются. Например, https://mongolia.gogo.mn/r/162466 и https://gogo.mn/r/2e313 . То же самое, что изображение, которое они использовали.

Я написал код, который сравнивает изображения.

 var=`compare -metric AE $1 $2 null: 2>amp;1`
echo $var
  

которые возвращают 0, если два изображения абсолютно одинаковы. Итак, мой план состоит в том, чтобы получить каждую статью с монгольского веб-сайта с его изображениями, а также получить каждую статью на английском языке и, как только у меня будут картинки, сравнить их. Однако на веб-сайте содержится огромное количество статей, из-за которых потребовалось бы так много времени, чтобы сравнить каждую картинку на монгольском языке с каждой картинкой на английском.

Как я могу сопоставить статьи с двух сторон и убедиться, что они соответствуют друг другу?

В конце я хочу, чтобы выходной файл выглядел

 https://gogo.mn/r/2e313,https://mongolia.gogo.mn/r/162466
another_article_en,another_article_mn
  

Комментарии:

1. Я не думаю, что вам нужно сравнивать изображения, только исходный код.

2. @Julia сначала я так и подумал, но потом понял, что есть изображения, которые одинаковы, но имеют разные имена. Так что сравнивать изображения безопаснее

3. Для меня они абсолютно одинаковы ( https://eu.gogo.mn/newsn/thumbnail/1000/images/c/2020/07/259193-31072020-1596164607-1964811574-ф.jpg в обоих случаях)

4. @Julia да, вы правы. Но есть и другие статьи, в которых названия изображений отличаются.

5. Сравните размеры изображений сначала запустите скрипт сравнения только для изображений точно такого же размера.