Webcrawler не работает в RapidMiner 9.2, есть идеи, почему?

#web-crawler #rapidminer

#веб-сканер #rapidminer

Вопрос:

Я новичок в Rapid Miner, особенно для Webcrawler (обхода сети). Я изучил примеры из существующего сообщения на любом форуме, но, похоже, веб-сканер в Rapid Miner 9.2 работает неправильно, поскольку он выдает пустой результат на моей машине. Это один из примеров,

 <?xml version="1.0" encoding="UTF-8"?><process version="9.2.000">
  <context>
    <input/>
    <output/>
    <macros/>
  </context>
  <operator activated="true" class="process" compatibility="9.2.000" expanded="true" name="Process">
    <parameter key="logverbosity" value="init"/>
    <parameter key="random_seed" value="2001"/>
    <parameter key="send_mail" value="never"/>
    <parameter key="notification_email" value=""/>
    <parameter key="process_duration_for_mail" value="30"/>
    <parameter key="encoding" value="SYSTEM"/>
    <process expanded="true">
      <operator activated="true" class="web:crawl_web_modern" compatibility="9.0.000" expanded="true" height="68" name="Crawl Web X" width="90" x="112" y="85">
        <parameter key="url" value="https://www.dw.com/search/en?searchNavigationId=9097amp;languageCode=enamp;origin=gNamp;item=brexit"/>
        <list key="crawling_rules">
          <parameter key="follow_link_with_matching_url" value=". search. "/>
          <parameter key="follow_link_with_matching_url" value=". news. "/>
          <parameter key="store_with_matching_url" value=". brexit. "/>
        </list>
        <parameter key="max_crawl_depth" value="10"/>
        <parameter key="retrieve_as_html" value="true"/>
        <parameter key="enable_basic_auth" value="false"/>
        <parameter key="add_content_as_attribute" value="false"/>
        <parameter key="write_pages_to_disk" value="true"/>
        <parameter key="include_binary_content" value="false"/>
        <parameter key="output_dir" value="/Users/iqbalakbar/Desktop"/>
        <parameter key="output_file_extension" value="html"/>
        <parameter key="max_pages" value="20"/>
        <parameter key="max_page_size" value="1000"/>
        <parameter key="delay" value="0"/>
        <parameter key="max_concurrent_connections" value="100"/>
        <parameter key="max_connections_per_host" value="50"/>
        <parameter key="user_agent" value="rapidminer-web-mining-extension-crawler"/>
        <parameter key="ignore_robot_exclusion" value="false"/>
      </operator>
      <connect from_op="Crawl Web X" from_port="example set" to_port="result 1"/>
      <portSpacing port="source_input 1" spacing="0"/>
      <portSpacing port="sink_result 1" spacing="0"/>
      <portSpacing port="sink_result 2" spacing="0"/>
    </process>
  </operator>
</process>
  

Ценю ваши комментарии и отзывы. Спасибо.

Икбал

Ответ №1:

у оператора веб-обхода есть некоторые проблемы, взгляните на сообщество RapidMiner, где у других были похожие проблемы [1].

Текущая работа заключается в использовании «Get Page» в сочетании с оператором цикла, как описано здесь: [2]

Надеюсь, это поможет.

[1] https://community.rapidminer.com/discussion/55201/web-crawling-of-https-pages-not-working-by-using-crawl-web

[2] https://community.rapidminer.com/discussion/54662/how-can-i-crawl-more-than-one-web-page