#apache-spark #pyspark
#apache-spark #pyspark
Вопрос:
У меня 10000 текстовых файлов в каталоге, и мне нужно сохранить содержимое из строки с определенной строкой («Содержимое») до конца файла. Как я могу это сделать в spark? Я пытаюсь прочитать все файлы с помощью wholeTextFiles, а затем сопоставить и отфильтровать значения.
Мне нужна только часть «Содержимого» каждого файла
From : SIDE A
To : SIDE B
Date : 9999.99
March 03
=> Content :
----------------------------------------
Content starts from here
and continues until last line
of each file.
Комментарии:
1. wholeTextFiles выглядит достойным выбором? С этим что-то не так?
2. Достаточно ли мал каждый из текстовых файлов для хранения в памяти (несколько мегабайт, при условии, что у вас нет специального компьютера)?
3. Я не знаю, как отфильтровать здесь первые 6 строк и прочитать часть «Содержимого» каждого файла. файлы по 4 КБ каждый.
4. это не совсем ответ на ваш вопрос, но не могли бы вы переписать свои файлы в командной строке? если вы запустите что-то вроде «tail -n 7 file1 > newfile1», даже для 10000 это займет всего несколько минут