#python #beautifulsoup #difflib
Вопрос:
У меня странная проблема с difflib. Я пытаюсь выявить различия между двумя URL-адресами, сгруппированными по тегу html в списке. Это прекрасно работает с подмножеством html-если произошло фактическое изменение или если тег не существовал, — но не работает, когда изменений нет. Например, два URL-адреса, которые я удаляю, имеют одинаковые теги. Я ожидал бы, что он выдаст мне пустой список, если не было никаких изменений, и двинется дальше, но вместо этого он выдает ошибку (ошибка обычно заключается в том, что он ничего не может сделать с типом, отличным от string).
Я попытался исправить это, заключив список различий в строку, но в результате получается совершенно пустой список. Я также попытался проверить, является ли тип строкой, и это все еще не работает-проблема, похоже, в этой строке:
changes = [change for change in difflist if change.startswith('-') or change.startswith(' ')]
Заранее благодарю вас за вашу помощь!
from lxml import html, etree
import requests
from bs4 import BeautifulSoup
import difflib
url1 = 'https://www.example.com/1'
url2 = 'https://www.example.com/2'
site1 = requests.get(url1)
doc1 = html.fromstring(site1.content)
tree1 = etree.tostring(doc1,encoding='utf-8',method='html')
soup1 = BeautifulSoup(tree1, "lxml")
site2 = requests.get(url2)
doc2 = html.fromstring(site2.content)
tree2 = etree.tostring(doc2,encoding='utf-8',method='html')
soup2 = BeautifulSoup(tree2, "lxml")
tag_library = ['a', 'abbr', 'address', 'area', 'article', 'aside', 'audio', 'b', 'base', 'bdi', 'bdo', 'blockquote', 'body', 'br', 'button', 'canvas', 'caption', 'cite', 'code', 'col', 'colgroup', 'data', 'datalist', 'dd', 'del', 'details', 'dfn', 'dialog', 'div', 'dl', 'dt', 'em', 'embed', 'fieldset', 'figure', 'footer', 'form', 'h1', 'h2', 'h3', 'h4', 'h5', 'h6', 'head', 'header', 'hgroup', 'hr', 'html', 'i', 'iframe', 'img', 'input', 'ins', 'kbd', 'keygen', 'label', 'legend', 'li', 'link', 'main', 'map', 'mark', 'menu', 'menuitem', 'meta', 'meter', 'nav', 'noscript', 'object', 'ol', 'optgroup', 'option', 'output', 'p', 'param', 'pre', 'progress', 'q', 'rb', 'rp', 'rt', 'rtc', 'ruby', 's', 'samp', 'script', 'section', 'select', 'small', 'source', 'span', 'strong', 'style', 'sub', 'summary', 'sup', 'table', 'tbody', 'td', 'template', 'textarea', 'tfoot', 'th', 'thead', 'time', 'title', 'tr', 'track', 'u', 'ul', 'var', 'video', 'wbr']
tag_library2 = ['abbr', 'h1', 'p', 'nav', 'img']
d = difflib.Differ()
diff = []
for tag in tag_library:
difflist = d.compare(soup1.find_all(tag), soup2.find_all(tag))
changes = [change for change in difflist if change.startswith('-') or change.startswith(' ')]
diff.append(changes)
print(diff)
Ответ №1:
Ах, я понял это-пришлось зайти в каждый список, разделить его и преобразовать каждый элемент в строку:
for tag in tag_library2:
list1 = soup1.find_all(tag)
list1split = []
for el in list1:
list1split.append(str(el))
list2 = soup2.find_all(tag)
list2split = []
for el in list2:
list2split.append(str(el))
difflist = d.compare(list1split, list2split)
# if difflist.contains(str):
changes = [change for change in difflist if change.startswith('-') or change.startswith(' ')]
diff.append(changes)