перезапись фрейма данных spark создает дубликаты
#dataframe #scala #apache-spark #duplicates Вопрос: У меня есть функция groupby в df следующим образом: val df2 = df1.groupBy($"word").agg(sum($"word_num") as "cnt") df2.write.format("csv") .mode(SaveMode.Overwrite) .option("header", "true").option("delimiter", "t") .save(outputPath) После сохранения df2, когда…