Модели со смешанными эффектами в Spark или другой технологии

#apache-spark #regression #mixed-models

#apache-spark #регрессия #смешанные модели

Вопрос:

Возможно ли запустить модель регрессии со смешанными эффектами в Spark? (как мы можем сделать с lme4 в R, с MixedModels в Julia или с Statsmodels MixedLM в Python).
Любой пример был бы отличным.

Я читал, что есть функция GLMix, но я не знаю, может ли пользователь использовать ее напрямую для подгонки модели и получения коэффициентов и p-значений или она может использоваться только внутри библиотек машинного обучения.

Я хотел бы перейти на Spark, потому что мои наборы данных намного больше, чем память.

Существует ли какая-либо другая общая база данных или платформа, способная выполнять что-то подобное потоковой передаче данных с диска?
Я видел только некоторые, способные выполнять простую линейную регрессию.

С уважением

Ответ №1:

Да, это определенно возможно с Spark.

Первое, на что я хотел бы обратить внимание, это довольно популярная библиотека под названием ML Lib. Я не уверен, что это именно та модель, которая вам нужна, но определенно больше, чем «простая линейная регрессия».

В другой библиотеке «linkedin / photon-ml», с которой я не знаком, явно упоминаются модели со смешанным эффектом.

Вот пример использования обобщенного аддитивного драйвера смешанных эффектов:

 spark-submit 
  --class com.linkedin.photon.ml.cli.game.GameTrainingDriver 
  --master local[*] 
  --num-executors 4 
  --driver-memory 1G 
  --executor-memory 1G 
  "./build/photon-all_2.10/libs/photon-all_2.10-1.0.0.jar" 
  --input-data-directories "./a1a/train/" 
  --validation-data-directories "./a1a/test/" 
  --root-output-directory "out" 
  --feature-shard-configurations "name=globalShard,feature.bags=features" 
  --coordinate-configurations "name=global,feature.shard=globalShard,min.partitions=4,optimizer=LBFGS,tolerance=1.0E-6,max.iter=50,regularization=L2,reg.weights=0.1|1|10|100" 
  --coordinate-update-sequence "global" 
  --coordinate-descent-iterations 1 
  --training-task "LOGISTIC_REGRESSION"
  

Комментарии:

1. Библиотека ML не поддерживает модели со смешанными эффектами, только базовые GLM, со штрафом L2 (и L1 amp; elastic net для линейной и логистической регрессии AFAIK)