#apache-spark #elasticsearch #pyspark
Вопрос:
У меня проблема с Elasticsearch.
Я хочу считывать данные из индекса Elasticsearch с помощью Pyspark. мои данные выглядят так, как показано ниже:
user_id: 123, features: { hashtags: [ { text: "hello", count: 2 }, { text: "world", count: 1 } ] } ...
и когда загружаются данные, кажется, что Elasticsearch возвращает пустой список объектов. мой фрейм данных после чтения выглядит так, как показано ниже:
---------- ------------------- | features| user_id| ---------- ------------------- |{[{}, {}]}| 123| | {[{}]}| 384| | {[{}]}| 94| |{[{}, {}]}| 880| ---------- -------------------
Я читаю данные из elastic с помощью этой конфигурации:
tweets = sqlContext.read.format("org.elasticsearch.spark.sql") .option("es.nodes", "localhost") .option("es.port", "9200") .option("es.read.field.as.array.include", "features.hashtags") .option("es.read.field.include", "user_id, features.hashtags") .option("es.resource", "twitter") .load().limit(10)
можете ли вы помочь мне решить эту проблему?