Как получить элемент с xml.tree с помощью python?

#python #python-3.x #xml

#python #python-3.x #xml

Вопрос:

Я следил за документацией о том, как использовать xml.etree для анализа данных из XML-файла, но, похоже, важная информация отсутствует.

Я использую тот же пример:

 <?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>
  

и для каждой страны я пытаюсь получить year привязку к этой стране. Я попробовал следующий код:

 import sys
import xml.etree.ElementTree as ET

tree = ET.parse(sys.argv[1])
root = tree.getroot()
for child in root:
    print(child.tag, child.attrib. child.get('year')) # or child['year'], or child.find('year').text
  

но, похоже, ни один из них не работает. Как мне извлечь значение для year для каждой из трех стран?

Ожидаемый результат:

 country {'name': 'Liechtenstein'} 2008
country {'name': 'Singapore'} 2011
country {'name': 'Panama'} 2011
  

Дополнение:

Я нашел способ получить «год»:

 import sys
import xml.etree.ElementTree as ET

tree = ET.parse(sys.argv[1])
root = tree.getroot()
for child in root:
    for elem in list(child):
        if elem.tag == 'year':
            print(child.tag, child.attrib, elem.text)
  

Нет ли более простого способа?

Ответ №1:

Какая версия python используется? Для python 3.8 это было бы:

 def get_value(el):
    return el.text if el is not None else None

root = ET.fromstring(xml)

for country in root.findall('country'):
    year = get_value(country.find('year'))
    rank = get_value(country.find('rank'))
    neighbors = country.findall('neighbor')
    neighbor_names = [neighbor.get('name') for neighbor in neighbors]
    print(year, rank, neighbor_names)
  

Ответ №2:

Вы в правильном направлении 🙂 Попробуйте child.findall()

Некоторые замечания относительно ваших попыток:

  • child.get(attribute_name) возвращает атрибут с именем attribute_name элемента child
  • child[] ожидает индекс (т.Е. Целое число)

Комментарии:

1. Какой результат вы получили при использовании child.find() ? Если используется только первый элемент, то метод работает так, как ожидалось в документации: find(match, namespaces=None) Находит совпадение с первым подэлементом. совпадение может быть именем тега или путем .

2. Извините, кажется, работает. Я был уверен, что раньше это выдавало сообщение об ошибке…

Ответ №3:

 import xml.etree.ElementTree as ET


xml = '''<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>'''

root = ET.fromstring(xml)
data = {c.attrib['name']: c.find('year').text for c in root.findall('.//country')}
print(data)
  

вывод

 {'Liechtenstein': '2008', 'Singapore': '2011', 'Panama': '2011'}
  

Ответ №4:

Взгляните на метод Element.iter() .

Следующий фрагмент кода даст вам желаемый результат:

 import sys
import xml.etree.ElementTree as ET

tree = ET.parse(sys.argv[1])
root = tree.getroot()

for child in root.iter('country'):
    for grandchild in child.iter('year'):
        print(child.attrib, grandchild.text)