#function #pyspark #rdd
#функция #pyspark #rdd
Вопрос:
Я пытаюсь создать функцию, которая удаляет заголовок для RDDS
def remHeader(data):
header = data.first()
data = data.filter(lambda x: x != header)
Однако я ничего не получаю при выполнении функции. Где я ошибаюсь?
Комментарии:
1. верните ваши данные и
data.collect()
.2. Я хочу сохранить ее в том же RDD. Когда я делаю это, а затем запускаю свою функцию, заголовок не удаляется.
3. Вы можете увидеть результат, собрав rdd, но rdd не будет сохранен с помощью collect. просто для проверки вашего результата на среднем шаге.
4. Я хочу, чтобы удаленный сервер был сохранен. Как я могу это сделать?