повторный поиск URL-адресов в nutch 1.3

#nutch #web-crawler

#nutch #веб-искатель

Вопрос:

Я установил re_crawler для получения сайта каждый день. но он извлекает этот сайт 3 раза. какое свойство я должен установить в nutch? Спасибо.

Ответ №1:

Я думаю, что за последние месяцы вы самостоятельно нашли решение, но вот ответ для сообщества. nutch-default.xml имеет 3 определенных свойства:

 <property>
 <name>db.default.fetch.interval</name>
 <value>30</value>
 <description>(DEPRECATED) The default number of days between re-fetches of a page.
 </description>
</property>

<property>
 <name>db.fetch.interval.default</name>
 <value>2592000</value>
 <description>The default number of seconds between re-fetches of a page (30 days).
 </description>
</property>

<property>
 <name>db.fetch.interval.max</name>
 <value>7776000</value>
 <description>The maximum number of seconds between re-fetches of a page
 (90 days). After this period every page in the db will be re-tried, no
 matter what is its status.
</description>
  

Которые могут быть переопределены в nutch-site.xml .