#amazon-s3 #apache-kafka #apache-kafka-connect #confluent-platform
#amazon-s3 #apache-kafka #apache-kafka-connect #confluent-платформа
Вопрос:
Google мне не помог, поэтому я хочу спросить вас. У меня много тем kafka, Я видел много статей о памяти кучи Java и т. Д., Но мне нужно некоторое руководство. У меня есть много тем kafka, которые мне нужно перейти к одному сегменту s 3, используя s3 sink connector Как вы собираетесь запускать несколько экземпляров s3 sink connector? Должен ли я создавать несколько сценариев systemd для каждого соединителя s3 и несколько копий сценариев запуска kafka? или использовать один скрипт и запускать его несколько раз, используя разные конфигурации свойств s3 connector для каждой темы? Является ли это лучшей производительностью, чем использование одного соединителя для всех тем, поскольку все они отправляются в одно и то же ведро?
Как мне рассчитать необходимую память, допустим, у меня есть тема 1 5000 сообщений tpic2 2000 сообщений и тема 3 500 сообщений
Как мне сбалансировать требования к загрузке и требования к памяти по сравнению с тем, что доступно на сервере, сколько памяти мне нужно, если у меня есть сервер, скажем, с 4 ГБ
Комментарии:
1. Как вы собираетесь запускать несколько экземпляров s3 sink connector — вы бы использовали несколько серверов. Вы можете настроить несколько задач (потоков-потребителей) для каждой группы соединителей (конфигурация одного соединителя), которые будут распространяться по всем серверам
2. как вы настраиваете потребительские потоки? для разъема s3 sink? есть примеры? можно использовать один скрипт для нескольких конфигурационных файлов kakfa-run-class
3. вы бы не использовали kafka-run-class напрямую, вы бы использовали connect-distributed.. Когда вы публикуете соединитель, tasks.max является обязательным полем, и вы можете поместить несколько тем или шаблон регулярных выражений для использования в одной конфигурации соединителя
4. здравствуйте, спасибо за вашу помощь, ооо, итак, в зависимости от производительности лучше использовать несколько тем в конфигурациях одного коннектора с помощью скрипта connect-dstributed или запускать несколько конфигураций с помощью одного скрипта connect-distributed или создавать разные скрипты connect-distributed, указывающие на разные конфигурации со своими собственными наборами значений памяти для памяти xmax и т. Д.. Каждая тема эти сценарии представляют для меня дилеммы с точки зрения управления различными сервисами, особенно если у вас более 10 тем?
5. Я понимаю, что я только что заметил, что скрипт вызывает класс run, поэтому я использую его в качестве ссылки. Я также заметил, что connect stand alone — это тот же сценарий, что и conncet distributed sh script, если я чего-то не упустил.