MicroBatchExecution: Запрос all_tweets завершается ошибкой java.lang.Исключение IndexOutOfBoundsException: в 0: 7, pyspark

#python-3.x #pyspark

Вопрос:

Я внедряю конвейер анализа настроений в потоковом режиме в реальном времени (положительный, отрицательный, нейтральный), используя Spark для комментариев на английском языке в Twitter, включая некоторые ключевые слова .Я получаю эту ошибку, когда использую этот код pyspark и tweepy.

 ERROR MicroBatchExecution: Query all_tweets [id = f4f91819-5806-4f04-9e01-7361686d8d7a, runId = bfa7ee98-b53b-45b4-9cce-32c6cfb68863] terminated with error
java.lang.IndexOutOfBoundsException: at 0 deleting 7

 

это код, который я использую.

     spark = SparkSession.builder.appName("TwitterSentimentAnalysis").getOrCreate()
    lines = spark.readStream.format("socket").option("host", "0.0.0.0").option("port", 5555).load()
    words = preprocessing(lines)
    words = text_classification(words)
    words = words.repartition(1)
    query = words.writeStream.queryName("all_tweets")
        .outputMode("append").format("parquet")
        .option("path", "./parc")
        .option("checkpointLocation", "./check")
        .trigger(processingTime='60 seconds').start()
    query.awaitTermination()