A / B тестирование функции после развертывания

#testing #statistics #product #ab-testing

#тестирование #Статистика #продукт #ab-тестирование

Вопрос:

Вопрос для группы — если мы запустим новую функцию продукта (скажем, новый фильтр в приложении), где на основе предварительной публикации мы видим падение конверсии, но через 2 месяца мы решаем фактически протестировать эту функцию, и результаты будут такими, что существующий вариант(до предварительной публикации) на самом деле было хуже, чем развертывание — сколько из этого вы испытали в своем тестировании? Вопрос для подведения итогов заключается в том, как часто вы наблюдали, как пользователи привыкают к новой функции (даже если она неоптимальна), и как вы количественно оцениваете ее эффект?

Ответ №1:

Стабильный остаточный подъем без эффектов новизны трудно точно определить из-за того, что вы описали. Привычка формируется со временем, и в парадигмах пользовательского интерфейса также приходится иметь дело с инерцией. Один из способов приблизиться к этому — создать долгосрочные задержки, а затем сравнить влияние удерживаемой совокупности от остальных. Тем не менее, я бы рекомендовал сохранить эти задержки крошечными и не поддерживать такие задержки дольше, чем необходимо.

Существуют также обратные тесты, которые отключают функции после их выпуска. Определенно плохой опыт для пользователей, но если вам абсолютно необходимо, вы можете использовать это для измерения влияния ваших существующих функций.

Во всех этих случаях я бы рекомендовал использовать инструмент, помогающий с этими измерениями — что-то вроде Statsig может помочь.

На рисунке ниже люди, которым было предложено, плохо работают по нескольким показателям, и это означает, что предлагаемые функции оказывают сильное положительное влияние.

Недостатки продукта | statsig

Отказ от ответственности: я работаю в Statsig