Как считывать данные из файла с двойным разделителем в spark

#apache-spark #pyspark #delimiter

#apache-spark #pyspark #разделитель

Вопрос:

Может кто-нибудь, пожалуйста, помогите, как справиться с этим случаем.

Код PySpark:

 from pyspark.sql import SparkSession, types

spark = SparkSession.builder.master("local").appName('read csv').getOrCreate()
sc = spark.sparkContext
df = spark.read.option('delimiter', ',').csv('filename')
  

#Ошибка:
ошибка более 1 символа.

Комментарии:

1. Можете ли вы опубликовать образцы записей из вашего CSV-файла?

Ответ №1:

Я столкнулся с аналогичной проблемой. пожалуйста, попробуйте ниже, посмотрите, работает ли это. Пожалуйста, не стесняйтесь вносить изменения в код на основе формата данных ur.

«‘#PySpark Код.

из pyspark.sql импортируйте SparkSession, типы

spark = SparkSession.builder.master(«local»).AppName(‘чтение csv’).getOrCreate()

sc = spark.SparkContext

#df = spark.read.option(‘delimiter’,’,’).csv(‘filename’)

df = spark.read.text(‘filename’)

заголовок = df.first()[0]

схема = header.split(‘~~’)

df_input = df.filter(df[‘value’]!= заголовок).rdd.map(лямбда x: [0].split(‘~~’)).toDF(схема) «‘