Обработать большой текстовый файл с помощью Zeppelin и Spark

#scala #apache-spark #apache-zeppelin #bigdata

Вопрос:

Я пытаюсь проанализировать (фактически визуализировать) некоторые данные из большого текстового файла (более 50 ГБ) с использованием Zeppelin (scala). В примерах из Интернета используются csv-файлы с известным заголовком и типами данных каждого столбца. В моем случае у меня есть строки чистых данных с разделителем «». Как мне добиться помещения моих данных в DataFrame, как в приведенном ниже коде?:

 case class Record()

val myFile1 = myFile.map(x=>x.split(";")).map {
  case Array(id, name) => Record(id.toInt, name)
} 

myFile1.toDF() // DataFrame will have columns "id" and "name"

P.S. Я хочу фрейм данных со столбцами «1», «2» …
спасибо

Ответ №1:

Вы можете использовать csv:

 spark.read.option("delimiter", ";").csv(inputPath)

Вопрос:

Ответ №1:

Вам также может понравиться

Ошибка ключа вывода OpenVINO после преобразования из ONNX

Поделитесь содержимым текстовой области с помощью API общего доступа с помощью shareData / преобразуйте содержимое в USVString

Как удалить знаки и — из строки сразу после ввода после или перед любым символом, только не из других мест в python3