#python #python-3.x #bash #beautifulsoup #web-crawler
#python #python-3.x #bash #beautifulsoup #веб-сканер
Вопрос:
Я пытаюсь сканировать данные из https://mongolia.gogo.mn/
и https://gogo.mn/
там, где есть двуязычные данные — монгольская и английская версии одной и той же статьи. Однако невозможно автоматически сканировать данные и сопоставлять, какая английская статья соответствует монгольской, потому что их URL-адреса кардинально отличаются. Например, https://mongolia.gogo.mn/r/162466
и https://gogo.mn/r/2e313
. То же самое, что изображение, которое они использовали.
Я написал код, который сравнивает изображения.
var=`compare -metric AE $1 $2 null: 2>amp;1`
echo $var
которые возвращают 0, если два изображения абсолютно одинаковы. Итак, мой план состоит в том, чтобы получить каждую статью с монгольского веб-сайта с его изображениями, а также получить каждую статью на английском языке и, как только у меня будут картинки, сравнить их. Однако на веб-сайте содержится огромное количество статей, из-за которых потребовалось бы так много времени, чтобы сравнить каждую картинку на монгольском языке с каждой картинкой на английском.
Как я могу сопоставить статьи с двух сторон и убедиться, что они соответствуют друг другу?
В конце я хочу, чтобы выходной файл выглядел
https://gogo.mn/r/2e313,https://mongolia.gogo.mn/r/162466
another_article_en,another_article_mn
Комментарии:
1. Я не думаю, что вам нужно сравнивать изображения, только исходный код.
2. @Julia сначала я так и подумал, но потом понял, что есть изображения, которые одинаковы, но имеют разные имена. Так что сравнивать изображения безопаснее
3. Для меня они абсолютно одинаковы (
https://eu.gogo.mn/newsn/thumbnail/1000/images/c/2020/07/259193-31072020-1596164607-1964811574-ф.jpg
в обоих случаях)4. @Julia да, вы правы. Но есть и другие статьи, в которых названия изображений отличаются.
5. Сравните размеры изображений сначала запустите скрипт сравнения только для изображений точно такого же размера.