#java #kubernetes #apache-flink #apache-zookeeper
Вопрос:
У меня есть кластер K8s на EKS с 1 JM, 30 TMs, 3 смотрителями зоопарка, и мы используем Flinkoperator: https://github.com/lyft/flinkk8soperator
Мы используем zookeeper для работы в режиме высокой доступности. Мы не можем получить работу flink, то есть нашу заявку, поданную.
Странно то, что эта точно такая же конфигурация работает в других регионах, но в этом недавно настроенном регионе мы просто не можем отправить задание Flink.
Пользовательский интерфейс Flink также не кажется доступным для нового региона.
Некоторые замечания:
- Изначально в zookeeper есть некоторые ошибки, но в конечном итоге он работает нормально и выдает обработку… войдите в журнал для остальных.
- Менеджер заданий-это место, где ошибка кажется заметной, но мы не уверены, почему эта проблема
- Оператор Flink просто сообщает нам, что не смог отправить задание.
- В журналах ТМ не так много данных.
Кто-нибудь знает, как здесь действовать? Или, возможно, у вас есть намек на то, что происходит? Может ли это быть проблемой с ресурсами в соответствии с: https://www.mail-archive.com/user@flink.apache.org/msg21146.html
Но тогда мы используем мощные узлы для модулей, аналогичных нашим развертываниям в других регионах.
Любые идеи или указания здесь будут оценены по достоинству.
Вот журналы из разных модулей: (Извините, если они слишком длинные)
- Оператор флинка:
{«json»:{«имя_приложения»:»мое приложение»,»ns»:»флинк-кластер»,»фаза»:»Отправка задания»},»уровень»:»информация»,»msg»:»Состояние обработки пропущено для приложения, ошибка при последнем вызове с неизвестным методом не удалось со статусом НЕ УДАЛОСЬ и сообщением «: Не удалось найти развертывания для службы my-app»,»ts»:»2021-09-28T15:35:54Z»} {«json»:{«имя_приложения»:»мое приложение»,»ns»:»flink-кластер»,»фаза»:»Отправка задания»},»уровень»:»информация»,»msg»:»Состояние обработки пропущено для приложения, ошибка последнего сеанса, неизвестный метод, вызов не удался со статусом НЕ УДАЛОСЬ и сообщением «: Не удалось найти развертывания для службы my-app»,»ts»:»2021-09-28T15:36:24Z»}
- Task manager (1 of them):
2021-09-28 16:13:02,940 ERROR
org.apache.flink.runtime.taskexecutor.TaskExecutor [] —
Registration at ResourceManager failed due to an error
java.util.concurrent.CompletionException:
org.apache.flink.runtime.rpc.exceptions.FencingTokenException: Fencing
token not set: Ignoring message
RemoteFencedMessage(8bb0ba2f8de9e3fa13b269deba364c70,
RemoteRpcInvocation(registerTaskExecutor(TaskExecutorRegistration,
Time))) sent to
akka.tcp://flink@100.117.59.33:35805/user/rpc/resourcemanager_0
because the fencing token is null. at
java.util.concurrent.CompletableFuture.encodeThrowable(Unknown Source)
~[?:?] at
java.util.concurrent.CompletableFuture.completeThrowable(Unknown
Source) ~[?:?] at
java.util.concurrent.CompletableFuture$UniAccept.tryFire(Unknown
Source) ~[?:?] at
java.util.concurrent.CompletableFuture.postComplete(Unknown Source)
~[?:?] at
java.util.concurrent.CompletableFuture.completeExceptionally(Unknown
Source) ~[?:?] at
org.apache.flink.runtime.rpc.akka.AkkaInvocationHandler.lambda$invokeRpc$0(AkkaInvocationHandler.java:235)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
java.util.concurrent.CompletableFuture.uniWhenComplete(Unknown Source)
~[?:?] at
java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(Unknown
Source) ~[?:?] at
java.util.concurrent.CompletableFuture.postComplete(Unknown Source)
~[?:?] at
java.util.concurrent.CompletableFuture.completeExceptionally(Unknown
Source) ~[?:?] at
org.apache.flink.runtime.concurrent.FutureUtils$1.onComplete(FutureUtils.java:1044)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.OnComplete.internal(Future.scala:263)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.OnComplete.internal(Future.scala:261)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.japi$CallbackBridge.apply(Future.scala:191)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.japi$CallbackBridge.apply(Future.scala:188)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.concurrent.impl.CallbackRunnable.run(Promise.scala:60)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
org.apache.flink.runtime.concurrent.Executors$DirectExecutionContext.execute(Executors.java:73)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.concurrent.impl.CallbackRunnable.executeWithValue(Promise.scala:68)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.concurrent.impl.Promise$DefaultPromise.$anonfun$tryComplete$1(Promise.scala:284)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.concurrent.impl.Promise$DefaultPromise.$anonfun$tryComplete$1$adapted(Promise.scala:284)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.concurrent.impl.Promise$DefaultPromise.tryComplete(Promise.scala:284)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.pattern.PromiseActorRef.$bang(AskSupport.scala:573)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.remote.DefaultMessageDispatcher.dispatch(Endpoint.scala:101)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.remote.EndpointReader$$anonfun$receive$2.applyOrElse(Endpoint.scala:999)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.Actor.aroundReceive(Actor.scala:517)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.Actor.aroundReceive$(Actor.scala:515)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.remote.EndpointActor.aroundReceive(Endpoint.scala:458)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.ActorCell.receiveMessage(ActorCell.scala:592)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.ActorCell.invoke(ActorCell.scala:561)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.Mailbox.processMailbox(Mailbox.scala:258)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.Mailbox.run(Mailbox.scala:225)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.Mailbox.exec(Mailbox.scala:235)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.dispatch.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
[flink-dist_2.12-1.12.1.jar:1.12.1] Caused by:
org.apache.flink.runtime.rpc.exceptions.FencingTokenException: Fencing
token not set: Ignoring message
RemoteFencedMessage(8bb0ba2f8de9e3fa13b269deba364c70,
RemoteRpcInvocation(registerTaskExecutor(TaskExecutorRegistration,
Time))) sent to
akka.tcp://flink@100.117.59.33:35805/user/rpc/resourcemanager_0
because the fencing token is null. at
org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:67)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleMessage(AkkaRpcActor.java:159)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:26)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.japi.pf.UnitCaseStatement.apply(CaseStatements.scala:21)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.PartialFunction.applyOrElse(PartialFunction.scala:123)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.PartialFunction.applyOrElse$(PartialFunction.scala:122)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.japi.pf.UnitCaseStatement.applyOrElse(CaseStatements.scala:21)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:171)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:172)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
scala.PartialFunction$OrElse.applyOrElse(PartialFunction.scala:172)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.Actor.aroundReceive(Actor.scala:517)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.Actor.aroundReceive$(Actor.scala:515)
~[flink-dist_2.12-1.12.1.jar:1.12.1] at
akka.actor.AbstractActor.aroundReceive(AbstractActor.scala:225)
~[flink-dist_2.12-1.12.1.jar:1.12.1] … 9 more 2021-09-28
16:13:02,947 INFO org.apache.flink.runtime.taskexecutor.TaskExecutor
[] — Pausing and re-attempting registration in 10000 ms 2021-09-28
16:13:03,377 INFO org.apache.flink.runtime.taskexecutor.TaskExecutor
[] — Terminating registration attempts towards ResourceManager
akka.tcp://flink@100.117.59.33:35805/user/rpc/resourcemanager_0.
2021-09-28 16:13:03,378 INFO
org.apache.flink.runtime.taskexecutor.TaskExecutor [] —
Connecting to ResourceManager
akka.tcp://flink@100.117.59.33:35805/user/rpc/resourcemanager_0(8ebb566d5f310905d0421f7fe9a74498).
2021-09-28 16:13:03,383 INFO
org.apache.flink.runtime.taskexecutor.TaskExecutor [] —
Resolved ResourceManager address, beginning registration 2021-09-28
16:13:03,390 INFO org.apache.flink.runtime.taskexecutor.TaskExecutor
[] — Successful registration at resource manager
akka.tcp://flink@100.117.59.33:35805/user/rpc/resourcemanager_0 under
registration id 78d410e0d100d4712171571f087b6476.
- Job manager:
2021-09-28 16:13:30,063 INFO org.apache.flink.runtime.resourcemanager.StandaloneResourceManager []
- Регистрация диспетчера задач с идентификатором ресурса 120.117.67.21:34443-d3dd7f (akka.tcp://flink@120.117.67.21:34443/user/rpc/taskmanager_0) в
Менеджер ресурсов
2021-09-30 15:36:33 455 ПРЕДУПРЕДИТЕ akka.remote.Удаленное подключение [] — Связь с [akka.tcp://flink@120.117.78.156:33767] с
неизвестным UID безвозвратно потерпел неудачу. Адрес не может быть помещен в карантин
, не зная UID, вместо этого стробирование длится 50 мс.
2021-09-30 15:42:25 636 ОШИБКА акка.пульт.Удаленное подключение [] — Связь с [akka.tcp://flink@120.117.79.241:40783] с жидкостью
[-210531468] безвозвратно потерпел неудачу. Адрес для карантина.
java.util.параллельный.Исключение времени: Удаленная система слишком долго молчала. (более 48,0 часов)
в акка.пульт дистанционного управления.Надежный супервизор доставки$$anonfun$простоя$1.applyOrElse(конечная точка.scala:387)
~[flink-dist_2.12-1.12.1.jar:1.12.1]
- Смотритель зоопарка: Пожалуйста, проверьте ссылку, так как она слишком длинная. https://pastecode.io/s/as00i6pb