Создайте функцию удаления заголовка в Pyspark для RDDs

#function #pyspark #rdd

#функция #pyspark #rdd

Вопрос:

Я пытаюсь создать функцию, которая удаляет заголовок для RDDS

 def remHeader(data):
   header = data.first()
   data = data.filter(lambda x: x != header)
  

Однако я ничего не получаю при выполнении функции. Где я ошибаюсь?

Комментарии:

1. верните ваши данные и data.collect() .

2. Я хочу сохранить ее в том же RDD. Когда я делаю это, а затем запускаю свою функцию, заголовок не удаляется.

3. Вы можете увидеть результат, собрав rdd, но rdd не будет сохранен с помощью collect. просто для проверки вашего результата на среднем шаге.

4. Я хочу, чтобы удаленный сервер был сохранен. Как я могу это сделать?