#excel #dax #powerquery
#excel #dax #powerquery
Вопрос:
Итак, в двух словах проблема в том, что у меня 3,0 миллиона разных идентификаторов элементов в одном наборе данных (например, CSV) и 1,0 миллиона идентификаторов элементов в другом наборе данных.
Какой наиболее удобный способ найти все дубликаты? В базовом Excel это было бы простой задачей, но слишком много строк для импорта. Будет ли запрос мощности полезен для моей проблемы?
Я подумал, что если бы вы могли извлечь первые идентификаторы элементов в столбец модели данных A, затем извлечь второй набор данных в столбец B, а затем записать формулу в столбец C, которая проверяет, существует ли отдельный идентификатор элемента, указанный в столбце B, где-нибудь в столбце A, и если да, то значение в столбцеC будет равно 1 (иначе 0).
После этого я мог бы создать сводную таблицу из этой модели данных, где значение столбца C 1 используется в качестве фильтра, а столбец B ItemId представлен в строках.
Извините за неясное объяснение, но может кто-нибудь посоветовать мне, если это хорошая идея, как проверить дубликаты, или если у вас есть идея получше.
Заранее благодарю
Комментарии:
1. Объедините наборы данных в один столбец; затем удалите дубликаты.
2. Я полагаю, что это будет в
Remove Rows
выборе в пользовательском интерфейсе, который вызываетTable.Distinct
функцию.