#openrefine
#openrefine
Вопрос:
При использовании функции кластеризации в OpenRefine вы можете выбрать опцию «Объединить?» для кластеризации строк, которые были объединены с помощью выбранного вами метода, но что, если метод кластеризует большинство из них правильно, за исключением одной строки, которую я вручную определяю, не принадлежит к кластеру, есть ли способ исключить эту конкретную строку из остальной части кластера?
Ответ №1:
К сожалению, в настоящее время нет способа исключить или выбрать подмножество терминов из кластера. Единственные два варианта, о которых я могу подумать, это:
- а) измените алгоритм кластеризации, который вы используете, чтобы попытаться улучшить кластеризацию, которая не включает неправильные термины
- б) Перейдите в «обзор кластера» и пометьте строки терминами, которые вы не хотите иметь в кластере (например, путем пометки строк), исключите помеченные строки в фасете и повторно сгруппируйте — тогда это не будет включать ни один из терминов, которые вы не хотели
Комментарии:
1. О, большое спасибо за ответ, поэтому, если я исключу их из фасета, они все равно появятся в исходной базе данных с соответствующей строкой, верно?
2. @JuanLopez Это известное ограничение, и запрос на улучшение отслеживается в нашем выпуске github.com/OpenRefine/OpenRefine/issues/1009 Не стесняйтесь оставлять свои дополнительные комментарии или потребности по этому вопросу. Спасибо!
3. Привет, спасибо за ответ, я вижу, что это происходит с 2015 года, поэтому я предполагаю, что вероятность того, что это будет рассмотрено в ближайшее время, невелика, считаете ли вы, что метод Оуэна — лучший способ преодолеть это? как я спросил Оуэна, если я исключу эти строки из фасета, они все равно появятся в исходной базе данных с соответствующей строкой, верно?
4. Неправильно. Грани всегда влияют на дальнейшие операции в OpenRefine. Это одно из преимуществ Facets! Использование фасетов позволяет вам отфильтровывать шум и нежелательные строки ячеек, которые вы не хотите обрабатывать / очищать / преобразовывать.
5. Привет, Хуан — боюсь, я не совсем понимаю ваш вопрос. Если вы исключите ячейки из своей кластеризации, то строки в этих ячейках больше не будут отображаться в вашем кластере, и поэтому вы не будете вносить в них никаких изменений. Это то, о чем вы спрашивали?