Обработать большой текстовый файл с помощью Zeppelin и Spark

#scala #apache-spark #apache-zeppelin #bigdata

#scala #apache-spark #apache-zeppelin #bigdata

Вопрос:

Я пытаюсь проанализировать (фактически визуализировать) некоторые данные из большого текстового файла (более 50 ГБ) с использованием Zeppelin (scala). В примерах из Интернета используются csv-файлы с известным заголовком и типами данных каждого столбца. В моем случае у меня есть строки чистых данных с разделителем «». Как мне добиться помещения моих данных в DataFrame, как в приведенном ниже коде?:

 case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"
  

P.S. Я хочу фрейм данных со столбцами «1», «2» …
спасибо

Ответ №1:

Вы можете использовать csv:

 spark.read.option("delimiter", ";").csv(inputPath)