#php #regex #html-parsing
#php #регулярное выражение #html-синтаксический анализ
Вопрос:
Я делаю следующее:
<?
$text = preg_replace ("/<p>(.*?)</p>/", "$1<br>", "$text");
?>
Таким образом, я могу избавиться от <p>
тегов и поместить пробел в конце строки (это для оформления страницы).
Это работает для "<p>Something</p>"
идеально.
Однако с текстом, подобным:
<h3>Section 1.10.32 of "de Finibus Bonorum et Malorum", written by Cicero in 45 BC</h3>
<p>"Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?"</p>
Это я взял из Lorem Ipsum (lipsum.com) страница, это не работает, и я понятия не имею, почему.
В какой-то связанной заметке (и я не уверен, что это достаточно связано, чтобы придерживаться того же вопроса, но это могло бы помочь в решении этой проблемы), есть ли какая-либо функция или способ автоматически удалять каждый фрагмент javascript, который могут содержать эти теги? например
<p onmouseover="alert('hello');">
Спасибо за любую помощь.
Ответ №1:
Попробуйте этот php-вызов:
$text = preg_replace('~<pb[^>]*>(.*?)</p>~smi', "$1<br>", $text);
Он будет обрабатывать совпадения регистров игнорирования ( p
и P
), а также многострочные совпадения.
Ответ №2:
Вот так :
$text = '<h3>Section 1.10.32 of "de Finibus Bonorum et Malorum", written by Cicero in 45 BC</h3><p class="toto">"Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo. Nemo enim ipsam voluptatem quia voluptas sit aspernatur aut odit aut fugit, sed quia consequuntur magni dolores eos qui ratione voluptatem sequi nesciunt. Neque porro quisquam est, qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit, sed quia non numquam eius modi tempora incidunt ut labore et dolore magnam aliquam quaerat voluptatem. Ut enim ad minima veniam, quis nostrum exercitationem ullam corporis suscipit laboriosam, nisi ut aliquid ex ea commodi consequatur? Quis autem vel eum iure reprehenderit qui in ea voluptate velit esse quam nihil molestiae consequatur, vel illum qui dolorem eum fugiat quo voluptas nulla pariatur?"</p>';
$text = preg_replace('/<pb[^>]*>(.*?)</p>/', "", $text)."<br>";
Он также корректно обрабатывает любой атрибут, который может быть у вашего p (например, класс в моем примере).
Ответ №3:
Некоторые функции уже сохранены в документации php
особенно это:http://php.net/manual/en/function.strip-tags.php#93567
<?php
function strip_only($str, $tags) {
if(!is_array($tags)) {
$tags = (strpos($str, '>') !== false ? explode('>', str_replace('<', '', $tags)) : array($tags));
if(end($tags) == '') array_pop($tags);
}
foreach($tags as $tag) $str = preg_replace('#</?'.$tag.'[^>]*>#is', '', $str);
return $str;
}
$str = '<p style="text-align:center">Paragraph</p><strong>Bold</strong><br/><span style="color:red">Red</span><h1>Header</h1>';
echo strip_only($str, array('p', 'h1'));
echo strip_only($str, '<p><h1>');
?>