Вывод ElasticSearchJSON в файл parquet

#java #json #elasticsearch

Вопрос:

я читаю данные индексов эластичных исследований в формате JSON и хочу сохранить это как parquet. ниже приведен код: «‘ JavaPairRDD<Строка,строка> esRDD = JavaEsSpark.esJsonRDD(ао, «база данных компании/сотрудники»); «‘

Как я могу преобразовать JavaPairRDD<Строка,строка> в набор данных на Java. Формат вывода будет таким C1 JSON1 JSON2

Ответ №1:

 JavaPairRDD<String,String> esRDD = JavaEsSpark.esJsonRDD(jsc,esPath);
 Dataset<Row> df = spark.createDataset(esRDD.collect(), Encoders.tuple(Encoders.STRING(),Encoders.STRING())).toDF("key","value");
 df.write().mode("overwrite").save(ParquetPath);