Стратифицированная выборка в Scala

#scala #sampling #resampling

#scala #выборка #повторная выборка

Вопрос:

Я пытаюсь создать эквивалент следующей стратифицированной выборки в scala.

Код Python, который работает должным образом

 stratifiedDF = labeledAllDF.sampleBy('column', fractions={0: 0.2, 1: 1.0}).drop("column")
  

Я попробовал следующий код, но столкнулся с проблемами

 val fractions= Map(0->0.2,1->1)
val approxSample = indexedDS.rdd.sampleByKeyExact(withReplacement = true, fractions = fractions)
  

ОШИБКА —

 value sampleByKeyExact is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]
  

API для стратифицированной выборки предполагает, что я могу использовать sample на RDD, но, похоже, у меня это не работает.

Комментарии:

1. Эта ошибка означает sampleByKeyExact , что это не метод в RDD классе. Однако существует sample метод , который выглядит очень похожим