#scala #sampling #resampling
#scala #выборка #повторная выборка
Вопрос:
Я пытаюсь создать эквивалент следующей стратифицированной выборки в scala.
Код Python, который работает должным образом
stratifiedDF = labeledAllDF.sampleBy('column', fractions={0: 0.2, 1: 1.0}).drop("column")
Я попробовал следующий код, но столкнулся с проблемами
val fractions= Map(0->0.2,1->1)
val approxSample = indexedDS.rdd.sampleByKeyExact(withReplacement = true, fractions = fractions)
ОШИБКА —
value sampleByKeyExact is not a member of org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]
API для стратифицированной выборки предполагает, что я могу использовать sample на RDD, но, похоже, у меня это не работает.
Комментарии:
1. Эта ошибка означает
sampleByKeyExact
, что это не метод вRDD
классе. Однако существуетsample
метод , который выглядит очень похожим