Можем ли мы использовать функциональность repartitionByCassandraReplica spark-cassandra-connector в среде kubernetes?

#apache-spark #kubernetes #cassandra #spark-cassandra-connector

Вопрос:

Я пытаюсь понять, как использовать функциональность repartitionByCassandraReplica spark-cassandra-connector в среде Kubernetes?

Моя первоначальная мысль заключается в том, что хостинг-исполнитель на том же хосте, на котором работает модуль Cassandra, решит мою проблему. Прав ли я в своих мыслях?

Ответ №1:

Локальность данных может быть достигнута только repartitionByCassandraReplica в том случае, если обе JVM Spark worker/executor и Cassandra работают в одном и том же OSI. Это относится к физическим серверам, виртуальным машинам, контейнерам, блокам и т.д.

Если у вас нет способа запустить изображение Spark и Cassandra в одном контейнере/модуле, добиться локализации данных будет невозможно.

Как бы то ни было, есть открытый билет на разъем spark-cassandra, чтобы узнать, как этого можно достичь (SPARKC-655). Сейчас это просто заглушка, и над ней еще не было проделано никакой работы. Ваше здоровье!