#scala #apache-spark #apache-zeppelin #bigdata
#scala #apache-spark #apache-zeppelin #bigdata
Вопрос:
Я пытаюсь проанализировать (фактически визуализировать) некоторые данные из большого текстового файла (более 50 ГБ) с использованием Zeppelin (scala). В примерах из Интернета используются csv-файлы с известным заголовком и типами данных каждого столбца. В моем случае у меня есть строки чистых данных с разделителем «». Как мне добиться помещения моих данных в DataFrame, как в приведенном ниже коде?:
case class Record()
val myFile1 = myFile.map(x=>x.split(";")).map {
case Array(id, name) => Record(id.toInt, name)
}
myFile1.toDF() // DataFrame will have columns "id" and "name"
P.S. Я хочу фрейм данных со столбцами «1», «2» …
спасибо
Ответ №1:
Вы можете использовать csv:
spark.read.option("delimiter", ";").csv(inputPath)