Имеет ли значение, какой алгоритм вы используете для многократного вменения Цепными уравнениями (МЫШИ)

#imputation #r-mice

Вопрос:

Я видел МЫШЕЙ, реализованных с помощью различных типов алгоритмов, например, случайного леса или стохастической регрессии и т. Д.

Мой вопрос в том, имеет ли значение, какой тип алгоритма, т. Е. Работает ли он лучше всего? Есть ли какие-либо эмпирические доказательства? Я изо всех сил пытаюсь найти какую-либо информацию в Интернете

Спасибо

Ответ №1:

Да, (в зависимости от вашей задачи) может иметь большое значение, какой алгоритм вы выберете.

Вы также можете быть уверены, mice что разработчики не стали бы прилагать усилия для предоставления различных алгоритмов, если бы существовал один алгоритм, который в любом случае всегда работает лучше всего. Потому что, конечно, как и в машинном обучении, теорема «Нет бесплатного обеда» также применима для вменения.

В целом можно сказать, что настройки мышей по умолчанию часто являются хорошим выбором.

Посмотрите на этот пример из виньетки miceRanger, чтобы увидеть, насколько сильно вменения могут отличаться для разных алгоритмов. (реальное распределение отмечено красным цветом, соответствующие множественные вменения-черным)

введите описание изображения здесь

Алгоритм прогнозирования среднего соответствия (pmm), например, гарантирует, что отображаются только условные значения, которые действительно были в наборе данных. Это, например, полезно, когда в данных отображаются только целочисленные значения, такие как 0,1,2,3 (и никаких промежуточных значений). Другие алгоритмы этого не сделают, поэтому при выполнении регрессии они также будут предоставлять интерполированные значения, как на рисунке справа ( поэтому они будут предоставлять вменения, например, 1.1, 1.3,…) Оба решения могут иметь определенные недостатки. Вот почему важно впоследствии реально оценить эффективность вменения. Для этого у мышей существует несколько диагностических схем.