#apache-spark #pyspark #delimiter
#apache-spark #pyspark #разделитель
Вопрос:
Может кто-нибудь, пожалуйста, помогите, как справиться с этим случаем.
Код PySpark:
from pyspark.sql import SparkSession, types
spark = SparkSession.builder.master("local").appName('read csv').getOrCreate()
sc = spark.sparkContext
df = spark.read.option('delimiter', ',').csv('filename')
#Ошибка:
ошибка более 1 символа.
Комментарии:
1. Можете ли вы опубликовать образцы записей из вашего CSV-файла?
Ответ №1:
Я столкнулся с аналогичной проблемой. пожалуйста, попробуйте ниже, посмотрите, работает ли это. Пожалуйста, не стесняйтесь вносить изменения в код на основе формата данных ur.
«‘#PySpark Код.
из pyspark.sql импортируйте SparkSession, типы
spark = SparkSession.builder.master(«local»).AppName(‘чтение csv’).getOrCreate()
sc = spark.SparkContext
#df = spark.read.option(‘delimiter’,’,’).csv(‘filename’)
df = spark.read.text(‘filename’)
заголовок = df.first()[0]
схема = header.split(‘~~’)
df_input = df.filter(df[‘value’]!= заголовок).rdd.map(лямбда x: [0].split(‘~~’)).toDF(схема) «‘