Как прочитать многострочный CSV-файл в Pyspark

#python #csv #apache-spark #pyspark

#python #csv #apache-spark #pyspark

Вопрос:

Я использую этот набор данных tweets с Pyspark, чтобы обработать его и получить некоторые тенденции в зависимости от местоположения твита. Но у меня возникла проблема, когда я пытаюсь создать фрейм данных. Я использую spark.read.options(header="True").csv("hashtag_donaldtrump.csv") для создания фрейма данных, но если я посмотрю на столбец tweets, это результат, который я получаю:

введите описание изображения здесь

Вы знаете, как я могу очистить CSV-файл, чтобы его можно было обработать Spark? Заранее благодарю вас!

Ответ №1:

Это похоже на многострочный csv. Попробуйте сделать

 df = spark.read.csv("hashtag_donaldtrump.csv", header=True, multiLine=True)
 

Комментарии:

1. Это действительно помогло мне, спасибо! Теперь у меня другая проблема, в некоторых столбцах есть какие-то странные значения ( i.imgur.com/YEWxkrf.png , последние две строки). Вы знаете, как я могу избавиться от них? (Или программа для отображения CSV с форматом, мне очень сложно прочитать его с помощью текстового редактора)

2. @Awacate не могли бы вы задать еще один вопрос по этому поводу? Это совершенно другая проблема. Также мы будем признательны за ваше согласие с ответом, если ответ окажется полезным 🙂

3. Хорошо, тогда я задам еще один вопрос. Спасибо!