Это неинвазивно?

#solr #hdfs #apache-flink

Вопрос:

Я хочу попробовать apache flink, hadoop и solr для неинвазивного приема журналов, чтобы обрабатывать и индексировать их, а также выполнять некоторую аналитику и запросы. Я подумываю об использовании flink для обработки данных журналов приложений для нескольких приложений, затем помещаю их в hadoop, а затем запрашиваю их с помощью solr. Вопросы: это действительно неинвазивно? Flink ведет себя как flume в том смысле, что агенты устанавливаются и настраиваются на серверах, которые мне нравится отслеживать? И являются ли hadoop и solr хорошей комбинацией индексации большого количества журналов, а затем запроса к ним в стиле sql, чтобы получить представление о данных и сделать некоторые прогнозы, полезные при создании оповещений?

Спасибо.

1. Как выглядит ваша текущая настройка? У вас уже есть запущенный hadoop и кластер solr?

2. Можете ли вы уточнить, что вы подразумеваете под «инвазивным» в этом контексте?

3. @DavidAnderson ну, это своего рода устаревшее выражение, но это означает, что аналитическая утилита ведения журнала не будет участвовать в том же процессе, который фактически записывает журнал, и не будет блокировать ресурс, но это своего рода данность, потому что она только читает файл.

4. @TobiSH нет, я на самом деле просматриваю варианты с большой высоты.

5. @Camilo В этом случае я бы более внимательно посмотрел на стек ELK, как рекомендовано в ответе Абхиджита Башетти

Ответ №1:

Я бы предложил здесь использовать стек ELK. ELK stack — это Elasticsearch, Logstash и Kibana.

Logstash : Для передачи данных из любого источника в Elasticsearch. Источником может быть что угодно, например, СУБД, File, MQ и т. Д. Рассмотрим назначение как Elasticsearch.

В logstach вы можете настроить то же самое в файле conf, указав ввод и вывод. Вы можете отфильтровать данные в файле logstash conf.

Elasticsearch : Elasticsearch — это поисковая система, основанная на библиотеке Lucene. Он предоставляет распределенную полнотекстовую поисковую систему с поддержкой нескольких пользователей с веб-интерфейсом HTTP и документами JSON без схем. После того, как данные будут проиндексированы в Elasticsearch. Вы можете получить данные с помощью вызова Rest. Вы можете использовать функцию наблюдателя в Elasticsearch и получать оповещения / уведомления о некоторых конкретных условиях.

Kibana : Kibana — это плагин визуализации данных с открытым исходным кодом для Elasticsearch. Он предоставляет возможности визуализации поверх содержимого, индексируемого в кластере Elasticsearch. Пользователи могут создавать столбчатые, линейные и точечные диаграммы или круговые диаграммы и карты поверх больших объемов данных.

Вы можете использовать данные, используя Apache Flink вместо Logstash. Apache flink может передавать данные в Elasticsearch. Вот пример этого.

Apache переключается на Elasticsearch

Ответ №2:

Я предлагаю вам взглянуть на поддержку SQL от Flink. Некоторые компании используют это для оповещения и прогнозирования. Преимущество этого будет заключаться в значительном упрощении вашего стека, поскольку вам не понадобятся hadoop или solr (или стек ELK).