#apache-spark #regression #mixed-models
#apache-spark #регрессия #смешанные модели
Вопрос:
Возможно ли запустить модель регрессии со смешанными эффектами в Spark? (как мы можем сделать с lme4 в R, с MixedModels в Julia или с Statsmodels MixedLM в Python).
Любой пример был бы отличным.
Я читал, что есть функция GLMix, но я не знаю, может ли пользователь использовать ее напрямую для подгонки модели и получения коэффициентов и p-значений или она может использоваться только внутри библиотек машинного обучения.
Я хотел бы перейти на Spark, потому что мои наборы данных намного больше, чем память.
Существует ли какая-либо другая общая база данных или платформа, способная выполнять что-то подобное потоковой передаче данных с диска?
Я видел только некоторые, способные выполнять простую линейную регрессию.
С уважением
Ответ №1:
Да, это определенно возможно с Spark.
Первое, на что я хотел бы обратить внимание, это довольно популярная библиотека под названием ML Lib. Я не уверен, что это именно та модель, которая вам нужна, но определенно больше, чем «простая линейная регрессия».
В другой библиотеке «linkedin / photon-ml», с которой я не знаком, явно упоминаются модели со смешанным эффектом.
Вот пример использования обобщенного аддитивного драйвера смешанных эффектов:
spark-submit
--class com.linkedin.photon.ml.cli.game.GameTrainingDriver
--master local[*]
--num-executors 4
--driver-memory 1G
--executor-memory 1G
"./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar"
--input-data-directories "./a1a/train/"
--validation-data-directories "./a1a/test/"
--root-output-directory "out"
--feature-shard-configurations "name=globalShard,feature.bags=features"
--coordinate-configurations "name=global,feature.shard=globalShard,min.partitions=4,optimizer=LBFGS,tolerance=1.0E-6,max.iter=50,regularization=L2,reg.weights=0.1|1|10|100"
--coordinate-update-sequence "global"
--coordinate-descent-iterations 1
--training-task "LOGISTIC_REGRESSION"
Комментарии:
1. Библиотека ML не поддерживает модели со смешанными эффектами, только базовые GLM, со штрафом L2 (и L1 amp; elastic net для линейной и логистической регрессии AFAIK)