#pyspark
#pyspark
Вопрос:
Мне непонятно, почему существует вариант park.sql.functions.pandas_df(), использующий итератор pd.Series в дополнение к тому, который принимает только один pd.Series. Какова была бы ситуация, когда мне нужен первый и я не могу одинаково хорошо использовать последний?
Комментарии:
1. Это может помочь также взглянуть на производительность. docs.databricks.com/spark/latest/spark-sql /…
2. @venky__ Я знаю эту ссылку, но все же я не понимаю, зачем это нужно.