При кластеризации с помощью OpenRefine есть ли способ «исключить» строку в кластере? прямо сейчас кажется, что либо это кластеризует все, либо нет

#openrefine

#openrefine

Вопрос:

При использовании функции кластеризации в OpenRefine вы можете выбрать опцию «Объединить?» для кластеризации строк, которые были объединены с помощью выбранного вами метода, но что, если метод кластеризует большинство из них правильно, за исключением одной строки, которую я вручную определяю, не принадлежит к кластеру, есть ли способ исключить эту конкретную строку из остальной части кластера?

Ответ №1:

К сожалению, в настоящее время нет способа исключить или выбрать подмножество терминов из кластера. Единственные два варианта, о которых я могу подумать, это:

  • а) измените алгоритм кластеризации, который вы используете, чтобы попытаться улучшить кластеризацию, которая не включает неправильные термины
  • б) Перейдите в «обзор кластера» и пометьте строки терминами, которые вы не хотите иметь в кластере (например, путем пометки строк), исключите помеченные строки в фасете и повторно сгруппируйте — тогда это не будет включать ни один из терминов, которые вы не хотели

Комментарии:

1. О, большое спасибо за ответ, поэтому, если я исключу их из фасета, они все равно появятся в исходной базе данных с соответствующей строкой, верно?

2. @JuanLopez Это известное ограничение, и запрос на улучшение отслеживается в нашем выпуске github.com/OpenRefine/OpenRefine/issues/1009 Не стесняйтесь оставлять свои дополнительные комментарии или потребности по этому вопросу. Спасибо!

3. Привет, спасибо за ответ, я вижу, что это происходит с 2015 года, поэтому я предполагаю, что вероятность того, что это будет рассмотрено в ближайшее время, невелика, считаете ли вы, что метод Оуэна — лучший способ преодолеть это? как я спросил Оуэна, если я исключу эти строки из фасета, они все равно появятся в исходной базе данных с соответствующей строкой, верно?

4. Неправильно. Грани всегда влияют на дальнейшие операции в OpenRefine. Это одно из преимуществ Facets! Использование фасетов позволяет вам отфильтровывать шум и нежелательные строки ячеек, которые вы не хотите обрабатывать / очищать / преобразовывать.

5. Привет, Хуан — боюсь, я не совсем понимаю ваш вопрос. Если вы исключите ячейки из своей кластеризации, то строки в этих ячейках больше не будут отображаться в вашем кластере, и поэтому вы не будете вносить в них никаких изменений. Это то, о чем вы спрашивали?