spark-потоковая передача кафка: раздел с несколькими записями, потребленными, но не рассчитанными

#apache-spark #apache-kafka

Вопрос:

У меня есть потоковое приложение spark, которое использует 36 разделов по 6 темам(по 6 разделов на тему). 30 разделов по 5 темам с большими и непрерывными данными и 6 разделов по одной теме вновь добавлены без данных.

Когда я протестировал приложение и написал два или три журнала в недавно добавленную тему вручную, я обнаружил, что эти «два или три журнала» не были рассчитаны в новых пакетах.

В менеджере кафки смещение соответствующего потребителя показало, что эти «два или три журнала» были израсходованы. Но метаданные «прямого потока Кафки 0.10» в пользовательском интерфейсе spark-streaming не включали разделы новой темы.

По мере того, как я писал все больше и больше журналов в новую тему, и каким-то образом журналы наконец-то будут вычислены в новом пакете, и новая тема появилась в метаданных «прямой поток Кафки 0.10».

Но что случилось с этими «двумя или тремя бревнами»? Они были израсходованы, но не рассчитаны во времени. Почему?

Ниже приведена версия spark и кафки в моем приложении.

 <artifactId>spark-streaming_2.11</artifactId>
<version>2.3.2</version>

<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming-kafka-0-10_2.11</artifactId>
<version>2.3.2</version>

<groupId>org.apache.kafka</groupId>
<artifactId>kafka-clients</artifactId>
<version>0.10.2.0</version>