Интеграция Nutch 1.17 с Eclipse (Ubuntu 18.04)

#java #eclipse #nutch

#java #eclipse #nutch

Вопрос:

Я не знаю, возможно, руководство устарело, или я делаю что-то не так. Я только начал использовать nutch, интегрировал его с solr и просматривал / индексировал некоторые веб-сайты через терминал. Теперь я пытаюсь использовать их в приложении Java, поэтому я следил за руководством здесь: https://cwiki.apache.org/confluence/display/NUTCH/RunNutchInEclipse#RunNutchInEclipse-RunningNutchinEclipse

Я загрузил Subclipse, IvyDE и m2e через Eclipse, и я скачал ant, поэтому у меня должны быть все необходимые условия. Ссылка m2e в руководстве не работает, поэтому я нашел ее где-то в другом месте. Также оказывается, что у eclipse уже было это при установке.

Я получаю огромный список сообщений об ошибках при запуске ant eclipse в терминале. Из-за количества слов поместите ссылку на pastebin со всем сообщением об ошибке здесь

Я действительно не уверен, что я делаю неправильно. Указания не такие сложные, поэтому я действительно не знаю, где я ошибаюсь.

На всякий случай, если это необходимо, вот nutch-site.xml что нам нужно было изменить.

 <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>
   <name>plugin.folders</name>
   <value>/home/user/trunk/build/plugins</value>
</property>

<!-- HTTP properties -->

<property>
  <name>http.agent.name</name>
  <value>MarketDataCrawler</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

    http.robots.agents
    http.agent.description
    http.agent.url
    http.agent.email
    http.agent.version

  and set their values appropriately.

  </description>
</property>

<property>
  <name>http.robots.agents</name>
  <value></value>
  <description>Any other agents, apart from 'http.agent.name', that the robots
  parser would look for in robots.txt. Multiple agents can be provided using 
  comma as a delimiter. eg. mybot,foo-spider,bar-crawler
  
  The ordering of agents does NOT matter and the robots parser would make 
  decision based on the agent which matches first to the robots rules.  
  Also, there is NO need to add a wildcard (ie. "*") to this string as the 
  robots parser would smartly take care of a no-match situation. 
    
  If no value is specified, by default HTTP agent (ie. 'http.agent.name') 
  would be used for user agent matching by the robots parser. 
  </description>
</property>

</configuration>

  

Множество ошибок связано с Ivy, поэтому я не знаю, совместимы ли версии Ivy между Nutch и плагинами, установленными в eclipse.

Ответ №1:

Как указано в файле ЖУРНАЛА

 [ivy:resolve]   SERVER ERROR: HTTPS Required url=http://repo1.maven.org/maven2/org/slf4j/slf4j-api/1.6.1/slf4j-api-1.6.1.pom
[ivy:resolve]   SERVER ERROR: HTTPS Required url=http://repo1.maven.org/maven2/org/slf4j/slf4j-api/1.6.1/slf4j-api-1.6.1.jar
[ivy:resolve]   SERVER ERROR: HTTPS Required url=http://repo1.maven.org/maven2/org/slf4j/slf4j-log4j12/1.6.1/slf4j-log4j12-1.6.1.pom
  

Вы должны использовать URL обновленных репозиториев в ivy/ivy.xml . Одним из вариантов является изменение каждого URL-адреса с http на https в ivy.xml .

Я думаю, вы используете какую-то старую версию, иначе эта проблема уже должна быть исправлена.

Комментарии:

1. это сделало свое дело! Спасибо!! Были ли у вас какие-либо ошибки после импорта в eclipse? Я получаю ошибки при импорте org.w3c.dom.* и org.xml.sax. * с сообщением «Пакет org.xml.sax доступен из более чем одного модуля: <неназванный>, java.xml »

2. Нет, в моем случае было всего несколько предупреждений, которые можно игнорировать.