#javascript #python #html #css #python-3.x
#javascript #python #HTML #css #python-3.x
Вопрос:
Я преобразовал файл из PDF в HTML с помощью онлайн-конвертера с целью извлечения выделенных жирным шрифтом объектов из HTML-документа. Однако я не могу найти никаких жирных тегов (HTML или CSS) в HTML-скрипте, но когда я открываю HTML-файл в веб-браузере, выделенные жирным шрифтом символы отображаются жирным шрифтом.
Посмотрите на этот пример HTML-выдержки для выделения жирным шрифтом
<div class="t m0 x3 h3 y9 ff2 fs0 fc0 sc0 ls11 ws0">1.<span class="ls0"> <span class="_ _1"> </span><span class="ls1">My Laptop</span> </span></div>
Приведенный выше HTML-скрипт выводит **1. My Laptop**
Вот выдержка из HTML-кода из развернутой функции
<div class="t m0 x3 h4 y15 ff3 fs0 fc0 sc0 ls11 ws0">2<span class="ls0"> <span class="_ _2"> </span><span class="ls8">Laptops <span class="ls4">are</span></span> <span class="ls13">grea</span>t <span class="ls7">tools </span> <span class="lsd">in codi<span class="_ _3"></span>ng with<span class="_ _3"></span> the <span class="ls0">C<span class="ls1f">ommand </span>L</span>ine. <span class="ls0"> </span></span></span></div>
Приведенный выше скрипт печатает 2. Laptops are great tools in coding with the Command Line
.
Как вы можете видеть, они оба имеют много похожих тегов класса. Однако, вот разные теги, которые у них есть:
(h3, h4), (y9, y15), (ff2, ff3)
Это описания тегов, которые я получил из заголовка HTML-файла
**h3:** .h3{height:29.275313px;} Looks like a tag for height
**h4:** .h4{height:28.940625px;} Looks like a tag for height
**y9:** .y9{bottom:891.946667pt;} Looks like a tag that measures the vertical position of the character on the HTML page
**y15:** .y15{bottom:655.928000px;} Looks like a tag that measures the vertical position of the character on the HTML page
**ff2:** .ff2{font-family:ff2;line-height:0.904297;font-style:normal;font-weight:normal;visibility:visible;}
**ff3:** .ff3{font-family:ff3;line-height:0.895996;font-style:normal;font-weight:normal;visibility:visible;}
Я пишу в основном на Python, поэтому я новичок в HTML и CSS. Я искал в Интернете способы определения жирных тегов в файлах HTML / CSS, и мое исследование сузило его до трех способов:
- **font-weight: bold|bolder**
Как показано выше, вес шрифта тегов отображается нормально как для выделенных, так и для не выделенных символов
- **the <b> Element**
В файле нет HTML-тегов
- **the <strong> Element**
В файле нет HTML-тегов
Есть ли что-то еще, на что я не смотрю? Я открыт для решений на разных языках программирования (Python, JavaScript и т.д.) И с нетерпением жду ответа на любые ваши вопросы.
Комментарии:
1. Вы проделали хорошую детективную работу, найдя имена классов, которые отличаются между ними, и я думаю, вы найдете свой ответ, если поищете свойства css, применяемые к этим классам:
_ _1
иls1
для текста, выделенного жирным шрифтом. Найдите эти реквизиты и добавьте их сюда — codesandbox.io/s/keen-swartz-pu8us и посмотрим, сработает ли это.2. Спасибо за доброе слово и за ответ. Я просто добавил свойства css для
ls1
к ссылке, и нет никакой разницы. Однако мой HTML-файл не имеет свойств css для_ _1
Это странно? Кроме того, когда я копнул дальше, я обнаружил, что не все жирные символы (<20%) имеют свойство css_ _1
. Ни один не выделенный символ не имеет_ _1
свойства css
Ответ №1:
Ну, какая-нибудь жирная буква могла бы быть сделана с помощью CSS через другую страницу, такую как bootstrap.
Ну, может быть, есть какие-то теги, которые фильтруются и ставят стиль, как в js, проверяют, что содержит правильную вещь, чтобы быть жирным.
Ну, это также связано с конвертером.