#python #csv #apache-spark #pyspark
#python #csv #apache-spark #pyspark
Вопрос:
Я использую этот набор данных tweets с Pyspark, чтобы обработать его и получить некоторые тенденции в зависимости от местоположения твита. Но у меня возникла проблема, когда я пытаюсь создать фрейм данных. Я использую spark.read.options(header="True").csv("hashtag_donaldtrump.csv")
для создания фрейма данных, но если я посмотрю на столбец tweets, это результат, который я получаю:
Вы знаете, как я могу очистить CSV-файл, чтобы его можно было обработать Spark? Заранее благодарю вас!
Ответ №1:
Это похоже на многострочный csv. Попробуйте сделать
df = spark.read.csv("hashtag_donaldtrump.csv", header=True, multiLine=True)
Комментарии:
1. Это действительно помогло мне, спасибо! Теперь у меня другая проблема, в некоторых столбцах есть какие-то странные значения ( i.imgur.com/YEWxkrf.png , последние две строки). Вы знаете, как я могу избавиться от них? (Или программа для отображения CSV с форматом, мне очень сложно прочитать его с помощью текстового редактора)
2. @Awacate не могли бы вы задать еще один вопрос по этому поводу? Это совершенно другая проблема. Также мы будем признательны за ваше согласие с ответом, если ответ окажется полезным 🙂
3. Хорошо, тогда я задам еще один вопрос. Спасибо!