Как совместно предоставить параметры parserLib и inferSchema для spark-csv

#scala #spark-dataframe #spark-csv

#scala #apache-spark-sql #spark-csv

Вопрос:

 sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema","true").option("parserLib", "UNIVOCITY").option("escape",""").load("file.csv")
  

Когда я создаю фрейм данных, используя приведенный выше код, я получаю следующую ошибку:

ИСПОЛНИТЕЛЬ ОШИБОК: исключение в задаче 0.0 на этапе 1.0 (TID 1) java.lang.Ошибка abstractmetoderror: com.databricks.spark.csv.readers.BulkCsvReader.aggregate(Ljava/lang/Object;Lscala/Function2;Lscala/Function2;)Ljava/lang/Object;

Если я избегаю параметра parseLib, он работает нормально. Я хочу настроить анализатор spark-csv на однозначность, и в то же время тип данных должен распознаваться spark csv с использованием inferSchema.

Примечание: я использую spark-csv 1.3 (он не работает ни для одной его версии) Spark: 1.6.2 Scala: 2.10.5

Спасибо.

Ответ №1:

Я не смог решить эту проблему. Но я нашел обходной путь, который определяет схему извне и читает csv с помощью анализатора однозначности.