Spark: прочитать все строки после разделителя в текстовом файле

#apache-spark #pyspark

#apache-spark #pyspark

Вопрос:

У меня 10000 текстовых файлов в каталоге, и мне нужно сохранить содержимое из строки с определенной строкой («Содержимое») до конца файла. Как я могу это сделать в spark? Я пытаюсь прочитать все файлы с помощью wholeTextFiles, а затем сопоставить и отфильтровать значения.

Мне нужна только часть «Содержимого» каждого файла

         From :  SIDE A
        To :  SIDE B
        Date : 9999.99
               March 03
=>      Content :
        ----------------------------------------
                Content starts from here            
                and continues until last line 
                of each file.
  

Комментарии:

1. wholeTextFiles выглядит достойным выбором? С этим что-то не так?

2. Достаточно ли мал каждый из текстовых файлов для хранения в памяти (несколько мегабайт, при условии, что у вас нет специального компьютера)?

3. Я не знаю, как отфильтровать здесь первые 6 строк и прочитать часть «Содержимого» каждого файла. файлы по 4 КБ каждый.

4. это не совсем ответ на ваш вопрос, но не могли бы вы переписать свои файлы в командной строке? если вы запустите что-то вроде «tail -n 7 file1 > newfile1», даже для 10000 это займет всего несколько минут