#php #html #webpage #phpcrawl
#php #HTML #phpcrawl
Вопрос:
Я новичок в PHP. Может кто-нибудь помочь мне разобраться, как обойти одну HTML-страницу и напечатать все слова в исходном коде этой страницы?
Комментарии:
1. Что вы подразумеваете под «Напечатать все слова в исходном коде этой страницы»?
2. я имею в виду .. проанализировать текст страницы и напечатать все слова длиной более 3..
3. Определить word? вы говорите о словах в тексте? теги? это очень запутанно
4. PHP. в net есть хороший материал о том, как перемещаться по DOM с помощью PHP @ php.net/manual/en/book.dom.php
5. Когда вы говорите «тело страницы», вы буквально имеете в виду содержимое между
<body>
тегами? И учитываются ли HTML-теги как часть «всех слов»?
Ответ №1:
$words = explode(" ", strip_tags(file_get_contents("www.example.com"));
function trim_and_print(amp;$value)
{
trim($value);
if(strlen($value > 3)
echo $value;
}
array_walk($words, 'trim_and_print');
это должно печатать слова длиной > 3. Спасибо moteutsch за file_get_contents
Комментарии:
1. Почему бы не использовать
file_get_contents
?2. когда я заменяю строку echo $ buffer на echo strip_tags($ buffer); Я получаю пустую страницу в качестве выходных данных. Но мне нужны слова в тексте источника в качестве выходных данных.
Ответ №2:
Ваш вопрос не очень ясен, но вам нужно будет загрузить страницу (с помощью cURL или файловых функций PHP) и каким-либо образом обработать файл. Вот базовое решение:
echo strip_tags(file_get_contents('http://www.google.com'));