#apache-spark #apache-kafka
Вопрос:
У меня есть потоковое приложение spark, которое использует 36 разделов по 6 темам(по 6 разделов на тему). 30 разделов по 5 темам с большими и непрерывными данными и 6 разделов по одной теме вновь добавлены без данных.
Когда я протестировал приложение и написал два или три журнала в недавно добавленную тему вручную, я обнаружил, что эти «два или три журнала» не были рассчитаны в новых пакетах.
В менеджере кафки смещение соответствующего потребителя показало, что эти «два или три журнала» были израсходованы. Но метаданные «прямого потока Кафки 0.10» в пользовательском интерфейсе spark-streaming не включали разделы новой темы.
По мере того, как я писал все больше и больше журналов в новую тему, и каким-то образом журналы наконец-то будут вычислены в новом пакете, и новая тема появилась в метаданных «прямой поток Кафки 0.10».
Но что случилось с этими «двумя или тремя бревнами»? Они были израсходованы, но не рассчитаны во времени. Почему?
Ниже приведена версия spark и кафки в моем приложении.
<artifactId>spark-streaming_2.11</artifactId>
<version>2.3.2</version>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
<version>2.3.2</version>
<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.10.2.0</version>