#python-3.x #pyspark
Вопрос:
Я внедряю конвейер анализа настроений в потоковом режиме в реальном времени (положительный, отрицательный, нейтральный), используя Spark для комментариев на английском языке в Twitter, включая некоторые ключевые слова .Я получаю эту ошибку, когда использую этот код pyspark и tweepy.
ERROR MicroBatchExecution: Query all_tweets [id = f4f91819-5806-4f04-9e01-7361686d8d7a, runId = bfa7ee98-b53b-45b4-9cce-32c6cfb68863] terminated with error
java.lang.IndexOutOfBoundsException: at 0 deleting 7
это код, который я использую.
spark = SparkSession.builder.appName("TwitterSentimentAnalysis").getOrCreate()
lines = spark.readStream.format("socket").option("host", "0.0.0.0").option("port", 5555).load()
words = preprocessing(lines)
words = text_classification(words)
words = words.repartition(1)
query = words.writeStream.queryName("all_tweets")
.outputMode("append").format("parquet")
.option("path", "./parc")
.option("checkpointLocation", "./check")
.trigger(processingTime='60 seconds').start()
query.awaitTermination()