#scala #apache-spark
Вопрос:
Я не могу понять, почему ни один из файлов, которые я записываю из ноутбука SageMaker в корзину s3, не читается человеком (искажается), когда я загружаю и открываю его.
Все выглядит примерно так: kñqQ]ÀÕãUË!G|?4a
Я тоже пробовал писать csv. Зашифрован ли мой кластер? Это потому, что файл записан как часть -? (Я также пытался записать все в один файл, coalesce(1)
но это тоже не сработало.
Я застрял на этом в течение 4 часов. Пожалуйста, помогите.
Супер базовый код приведен ниже:
import org.apache.spark.sql.types.{StringType, StructField, StructType}
import org.apache.spark.sql.Row
val schema = StructType( Array(
StructField("language", StringType, true)
))
import scala.collection.JavaConversions._
//From Data (USING createDataFrame and Adding schema using StructType)
val rowData= Seq(Row("Java"),
Row("Python"),
Row("Scala"))
var dfFromData3 = spark.createDataFrame(rowData,schema)
dfFromData3.write.format("text").mode("overwrite").save("s3://bucket-name/")
Комментарии:
1. Вы уверены, что открываете файлы данных, а не сами
.crc
файлы? Я не могу воспроизвести его на своем локальном env.