Сборка против покупки веб-скребка , индексатора

#nlp #lucene #web-crawler

Вопрос:

Мы только начинаем работу над проектом по веб-очистке и текстовой аналитике. Я оцениваю сборку против покупки

Несколько требований

  1. Возможность обхода нескольких 1000 веб — сайтов
  2. Возможность анализировать html, PDF-файлы, слова и т.д. И маркировать их
  3. Масштабируемый индекс lucene
  4. Доступ к исходному контенту, т. е. проанализированному маркированному контенту для пользовательской аналитики
  5. Конечно, простой поиск слов TF/IDF

Существуют ли какие-либо существующие поставщики, которые могут предоставить эти функции, не взимая слишком большой платы, т. е. Несколько тысяч долларов-это нормально.

Ценю любые указания, которые у вас могут быть

Комментарии:

1. Есть какие-нибудь комментарии ? Спасибо!