одностраничный веб-обход в PHP

#php #html #webpage #phpcrawl

#php #HTML #phpcrawl

Вопрос:

Я новичок в PHP. Может кто-нибудь помочь мне разобраться, как обойти одну HTML-страницу и напечатать все слова в исходном коде этой страницы?

Комментарии:

1. Что вы подразумеваете под «Напечатать все слова в исходном коде этой страницы»?

2. я имею в виду .. проанализировать текст страницы и напечатать все слова длиной более 3..

3. Определить word? вы говорите о словах в тексте? теги? это очень запутанно

4. PHP. в net есть хороший материал о том, как перемещаться по DOM с помощью PHP @ php.net/manual/en/book.dom.php

5. Когда вы говорите «тело страницы», вы буквально имеете в виду содержимое между <body> тегами? И учитываются ли HTML-теги как часть «всех слов»?

Ответ №1:

 $words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(amp;$value) 
{ 
    trim($value);
    if(strlen($value > 3) 
        echo $value;
}

array_walk($words, 'trim_and_print');
  

это должно печатать слова длиной > 3. Спасибо moteutsch за file_get_contents

Комментарии:

1. Почему бы не использовать file_get_contents ?

2. когда я заменяю строку echo $ buffer на echo strip_tags($ buffer); Я получаю пустую страницу в качестве выходных данных. Но мне нужны слова в тексте источника в качестве выходных данных.

Ответ №2:

Ваш вопрос не очень ясен, но вам нужно будет загрузить страницу (с помощью cURL или файловых функций PHP) и каким-либо образом обработать файл. Вот базовое решение:

 echo strip_tags(file_get_contents('http://www.google.com'));