#nlp #lucene #web-crawler
Вопрос:
Мы только начинаем работу над проектом по веб-очистке и текстовой аналитике. Я оцениваю сборку против покупки
Несколько требований
- Возможность обхода нескольких 1000 веб — сайтов
- Возможность анализировать html, PDF-файлы, слова и т.д. И маркировать их
- Масштабируемый индекс lucene
- Доступ к исходному контенту, т. е. проанализированному маркированному контенту для пользовательской аналитики
- Конечно, простой поиск слов TF/IDF
Существуют ли какие-либо существующие поставщики, которые могут предоставить эти функции, не взимая слишком большой платы, т. е. Несколько тысяч долларов-это нормально.
Ценю любые указания, которые у вас могут быть
Комментарии:
1. Есть какие-нибудь комментарии ? Спасибо!