#apache-spark #spark-dataframe #sparkr
#apache-spark #spark-фрейм данных #sparkr
Вопрос:
Я знаю, что для применения определяемой пользователем функции к фрейму данных SparkR можно использовать dapply / gapply . Интересно, является ли хорошей практикой передавать фрейм данных SparkR непосредственно в UDF? например, сначала создайте фрейм данных
df <- createDataFrame(mtcars)
затем передайте фрейм данных в UDF для некоторых преобразований
myFunction <- function(df) {
return( df$mpg * 2)
}
df$new_col <- myFunction(df)
Я попробовал приведенный выше код, и он сработал. Но я просто не уверен, рекомендуется ли это.
Если передача фрейма данных в порядке, могу ли я дополнительно передать столбец в качестве аргумента? например
myFunction <- function(colName) {
return( colName * 2 )
}
df$new_col <- myFunction(df$mpg)
Спасибо.