Подходит ли TraMineR для данных с разной длиной последовательности?

#traminer #sequence-analysis

#traminer #анализ последовательности

Вопрос:

Мои данные содержат последовательность поведения каждого учащегося при посещении страницы во время сеанса обучения. Например (ниже) Студент 1 прочитал инструкции, посетил три страницы («Посещение-посещение-посещение») и повторно посетил одну из страниц («Пересмотреть»). Студент 2 прочитал инструкции и посетил две страницы без какого-либо повторного просмотра.

Ученик 1: Инструкции-Посещение-Посещение-Посещение-Пересмотр

Ученик 2: Инструкции-Посещение-Посещение

Student 3: Instructions-Visit-Visit-Visit-Visit-Visit-Visit-Visit-Visit-Visit-Visit-Visit

Мой вопрос в том, что пакет TraMineR подходит для такого типа данных, где разные люди имеют разную длину последовательности (у ученика 1 5, у ученика 2 3 и т. Д.). Образец данных «mvad», обсуждаемый в виньетке TraMineR (https://cran.r-project.org/web/packages/TraMineR/vignettes/TraMineR-state-sequence.pdf ) имеет информацию о состоянии, полученную в течение определенного периода времени (с июля 93 по июнь 99), что означает, что количество длин последовательностей одинаково для всех людей. Учитывая это различие, я не уверен, можно ли использовать TraMineR для анализа моей даты.

Я попробовал несколько функций TraMineR для своих данных (seqdef, seqfplot и т. Д.). Пока что эти результаты имеют для меня смысл, но я хочу убедиться, прежде чем идти дальше и делать больше (анализ кластеризации и т. Д.). Если у кого-нибудь есть опыт использования TraMineR для этих типов данных, я был бы признателен за ваш вклад. Если TraMineR не подходит для этого, какие-либо предложения по альтернативному подходу? Моя цель — определить и визуализировать основные модели поведения в данных, возможно, с использованием кластерного анализа. Заранее спасибо!

Ответ №1:

Да, вы можете использовать TraMineR для анализа данных с разной длиной последовательности, поскольку TraMineR представляет собой набор инструментов анализа последовательности.

Что важно, когда у вас последовательности неодинаковой длины, так это то, какой алгоритм расстояния вы используете. Оптимальное сопоставление (OM), которое, я считаю, является стандартным и часто используемым стандартом, принимает последовательности неодинаковой длины, поскольку оно использует действия indel (вставка / удаление), чтобы «сделать» последовательности одинаковой длины. Однако другие типы алгоритмов расстояния, такие как расстояния Хэмминга (HAM или DHD), не допускают последовательностей неодинаковой длины. Эти алгоритмы часто используются, когда важна синхронизация, и, вставляя состояния, чтобы сделать последовательности равной длины, аспекты синхронизации искажаются.

Итак, короткий ответ — да, но обязательно ознакомьтесь с типом используемых вами алгоритмов расстояния, чтобы понять, что именно вы измеряете, и каким образом это повлияет на ваши интерпретации.