#solr #hdfs #apache-flink
#solr #hdfs #apache-flink
Вопрос:
Я хочу попробовать apache flink, hadoop и solr для неинвазивного приема журналов, чтобы обрабатывать и индексировать их, а также выполнять некоторую аналитику и запросы. Я подумываю об использовании flink для обработки данных журналов приложений для нескольких приложений, затем помещаю их в hadoop, а затем запрашиваю их с помощью solr. Вопросы: это действительно неинвазивно? Flink ведет себя как flume в том смысле, что агенты устанавливаются и настраиваются на серверах, которые мне нравится отслеживать? И являются ли hadoop и solr хорошей комбинацией индексации большого количества журналов, а затем запроса к ним в стиле sql, чтобы получить представление о данных и сделать некоторые прогнозы, полезные при создании оповещений?
Спасибо.
Комментарии:
1. Как выглядит ваша текущая настройка? У вас уже есть запущенный hadoop и кластер solr?
2. Можете ли вы уточнить, что вы подразумеваете под «инвазивным» в этом контексте?
3. @DavidAnderson ну, это своего рода устаревшее выражение, но это означает, что аналитическая утилита ведения журнала не будет участвовать в том же процессе, который фактически записывает журнал, и не будет блокировать ресурс, но это своего рода данность, потому что она только читает файл.
4. @TobiSH нет, я на самом деле просматриваю варианты с большой высоты.
5. @Camilo В этом случае я бы более внимательно посмотрел на стек ELK, как рекомендовано в ответе Абхиджита Башетти
Ответ №1:
Я бы предложил здесь использовать стек ELK. ELK stack — это Elasticsearch, Logstash и Kibana.
Logstash
: Для передачи данных из любого источника в Elasticsearch. Источником может быть что угодно, например, СУБД, File, MQ и т. Д. Рассмотрим назначение как Elasticsearch.
В logstach вы можете настроить то же самое в файле conf, указав ввод и вывод. Вы можете отфильтровать данные в файле logstash conf.
Elasticsearch
: Elasticsearch — это поисковая система, основанная на библиотеке Lucene. Он предоставляет распределенную полнотекстовую поисковую систему с поддержкой нескольких пользователей с веб-интерфейсом HTTP и документами JSON без схем. После того, как данные будут проиндексированы в Elasticsearch. Вы можете получить данные с помощью вызова Rest. Вы можете использовать функцию наблюдателя в Elasticsearch и получать оповещения / уведомления о некоторых конкретных условиях.
Kibana
: Kibana — это плагин визуализации данных с открытым исходным кодом для Elasticsearch. Он предоставляет возможности визуализации поверх содержимого, индексируемого в кластере Elasticsearch. Пользователи могут создавать столбчатые, линейные и точечные диаграммы или круговые диаграммы и карты поверх больших объемов данных.
Вы можете использовать данные, используя Apache Flink вместо Logstash. Apache flink может передавать данные в Elasticsearch. Вот пример этого.
Комментарии:
1. Спасибо! Я обязательно изучу это.
2. вместо logstash вы можете использовать apache flink для ввода данных в elasticsearch..
Ответ №2:
Я предлагаю вам взглянуть на поддержку SQL от Flink. Некоторые компании используют это для оповещения и прогнозирования. Преимущество этого будет заключаться в значительном упрощении вашего стека, поскольку вам не понадобятся hadoop или solr (или стек ELK).