Как я могу определить функцию для интеграции списков с помощью python?

#python #function #nested-lists #named-entity-recognition

#python #функция #вложенные списки #распознавание именованных объектов

Вопрос:

Я пытаюсь определить функцию, которая перебирает три вида списков списков, каждый список имеет следующую структуру:

 sentiment_labels =  [['B_S', 'O', 'O', 'O'], ['O', 'O', 'B_S', 'O']]
aspect_labels =     [['O', 'B_A', 'O', 'O'], ['O', 'O', 'O', 'B_A']]
modifier_labels =   [['O', 'O', 'BM', 'O'], ['O', 'O', 'O', 'O']]

# those lists contain 'B_A', 'I_S', 'B_S', 'I_S', 'BM', 'IM', and 'O' labels (IOB Tagging)

 

целевой результат должен быть похож:

 labels = [['B_S', 'B_A', 'BM', 'O'], ['O', 'O', 'B_S', 'B_A'] ]
 

Для этой цели я определил следующую функцию:

 # define function to integrate sentiments, aspects, and modifiers lists

def integrate_labels(sentiments_lists, aspects_lists, modifiers_lists):
  all_labels = []
  integrated_label = []

  # iterate through each list, then iterate through each element 
  for sentiment_list, aspect_list, modifier_list in zip(sentiments_lists, aspects_lists, modifiers_lists):
    
    for sentiment, aspect, modifier in zip(sentiment_list, aspect_list, modifier_list):

      # if the element is a sentiment label append it to the integrated_label list
      if sentiment != 'O':
        integrated_label.append(sentiment)

      # if the element is an aspect label append it to the integrated_label list
      elif aspect != 'O':
        integrated_label.append(aspect)

      # if the element is a modifier label append it to the integrated_label list
      elif modifier != 'O':
        integrated_label.append(modifier)

      else:
        integrated_label.append('O')
        
    # now append each integrated_label list to all_labels list
    all_labels.append(integrated_label)
  
  return all_labels
 

Но у меня есть этот результат:

 integrate_labels(sentiment_labels, aspect_labels, modifier_labels)

[['B_S', 'B_A', 'BM', 'O', 'O', 'O', 'B_S', 'B_A'],
 ['B_S', 'B_A', 'BM', 'O', 'O', 'O', 'B_S', 'B_A']]
 

Как я мог бы изменить функцию integrate_labels, чтобы получить целевой результат?

Заранее спасибо!

Комментарии:

1. Что делать, если позиция в нескольких из этих списков не 'O' имеет значения? Использовать верхнюю? Самый нижний?

2. Позиция получит внешнюю метку «O», если нет других начальных или внутренних меток, т.Е. B_A, I_A, B_S, I_S, BM, IM

Ответ №1:

изменить на

 # now append each integrated_label list to all_labels list
all_labels.append(integrated_label.copy())
integrated_label = []