#cassandra #datastax-enterprise #dsbulk
#cassandra #datastax-enterprise #dsbulk
Вопрос:
Я сталкиваюсь с проблемой при загрузке данных в таблицу из файла .csv с использованием dsbulk. Я получаю как показано ниже в журнале ошибок.
Вызвано: com.datastax.driver.core.exceptions.Исключение OperationTimedOutException: [/10.0.126.13:9042] Истекло время ожидания ответа сервера
Эта среда представляет собой нашу POC-среду из 3 узлов с 8 процессорами и 64 ГБ памяти. И, по моим наблюдениям, когда я запускаю команду dsbulk, она потребляет все процессоры на сервере, и потребление памяти также возрастает.
Если вы можете дать мне указатель на точную настройку dsbulk, с помощью которой можно уменьшить загрузку процессора / памяти. Если эта операция замедлится и если я получу управляемую производительность, я согласен с этим.
Ответ №1:
Вы можете указать --executor.maxPerSecond
параметр для ограничения количества операций в секунду. Смотрите документацию по DSBulk.
Также вы можете попробовать настроить параметры пакетной обработки, например, --batch.maxBatchStatements
.
Также рекомендуется запускать DSBulk с отдельного компьютера, чтобы это не влияло на производительность DSE. (это общий совет для всего нагрузочного тестирования и т.д.)
Комментарии:
1. я пытаюсь использовать —batch.maxBatchStatements, но он выдает недопустимый параметр и выдает ошибку. Также, если я попытаюсь запустить эту команду с другого компьютера, каким должен быть ip-адрес под -h?
2. Какая версия DSBulk?
3. последняя версия 1.3.3: downloads.datastax.com/dsbulk/dsbulk-1.3.3.tar.gz
Ответ №2:
спасибо всем за помощь, я смог решить эту проблему, загрузив последнюю версию debulk и установив размер пакета на 5000.