проблема при загрузке данных в cassandra с использованием dsbulk

#cassandra #datastax-enterprise #dsbulk

#cassandra #datastax-enterprise #dsbulk

Вопрос:

Я сталкиваюсь с проблемой при загрузке данных в таблицу из файла .csv с использованием dsbulk. Я получаю как показано ниже в журнале ошибок.

Вызвано: com.datastax.driver.core.exceptions.Исключение OperationTimedOutException: [/10.0.126.13:9042] Истекло время ожидания ответа сервера

Эта среда представляет собой нашу POC-среду из 3 узлов с 8 процессорами и 64 ГБ памяти. И, по моим наблюдениям, когда я запускаю команду dsbulk, она потребляет все процессоры на сервере, и потребление памяти также возрастает.

Если вы можете дать мне указатель на точную настройку dsbulk, с помощью которой можно уменьшить загрузку процессора / памяти. Если эта операция замедлится и если я получу управляемую производительность, я согласен с этим.

Ответ №1:

Вы можете указать --executor.maxPerSecond параметр для ограничения количества операций в секунду. Смотрите документацию по DSBulk.

Также вы можете попробовать настроить параметры пакетной обработки, например, --batch.maxBatchStatements .

Также рекомендуется запускать DSBulk с отдельного компьютера, чтобы это не влияло на производительность DSE. (это общий совет для всего нагрузочного тестирования и т.д.)

Комментарии:

1. я пытаюсь использовать —batch.maxBatchStatements, но он выдает недопустимый параметр и выдает ошибку. Также, если я попытаюсь запустить эту команду с другого компьютера, каким должен быть ip-адрес под -h?

2. Какая версия DSBulk?

3. последняя версия 1.3.3: downloads.datastax.com/dsbulk/dsbulk-1.3.3.tar.gz

Ответ №2:

спасибо всем за помощь, я смог решить эту проблему, загрузив последнюю версию debulk и установив размер пакета на 5000.