Почему любой файл, который я пишу из Spark, не читается человеком?

#scala #apache-spark

Вопрос:

Я не могу понять, почему ни один из файлов, которые я записываю из ноутбука SageMaker в корзину s3, не читается человеком (искажается), когда я загружаю и открываю его.

Все выглядит примерно так: kñqQ]ÀÕãUË!G|?4a

Я тоже пробовал писать csv. Зашифрован ли мой кластер? Это потому, что файл записан как часть -? (Я также пытался записать все в один файл, coalesce(1) но это тоже не сработало.

Я застрял на этом в течение 4 часов. Пожалуйста, помогите.

Супер базовый код приведен ниже:

 import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.Row
val schema = StructType( Array(
                 StructField("language", StringType, true)
             ))

import scala.collection.JavaConversions._
//From Data (USING createDataFrame and Adding schema using StructType)
val rowData= Seq(Row("Java"), 
               Row("Python"), 
               Row("Scala"))
var dfFromData3 = spark.createDataFrame(rowData,schema)


dfFromData3.write.format("text").mode("overwrite").save("s3://bucket-name/")
 

Комментарии:

1. Вы уверены, что открываете файлы данных, а не сами .crc файлы? Я не могу воспроизвести его на своем локальном env.