#html #translate #apertium
Вопрос:
Использование входного файла apertest.html:
<h4><a href="/" rel="nofollow" title="Vodafone anuncia su plan para actualizar la red de cable de Ono a la tecnología DOCSIS 3.1 para poder ofrecer conexiones simétricas de 1 Gbps"><span class="title">Vodafone actualizará la red de Ono para poder ofrecer 1 Gbps simétrico</span> <span class="reach">144</span> <span class="date">2016</span> </a></h4>
Работает cat apertest.html | apertium -f html -u es-en
, вывод:
<h4><a href="/" rel="nofollow" title="Vodafone Announces his plan to update the network of wire of Ono to the technology DOCSIS 3.1 to be able to offer symmetrical connections of 1 Gbps"><span class="title">Vodafone Will</span> update <span class="title">the network of Ono to be able to offer 1 Gbps symmetrical</span> <span class="reach">144</span> <span class="date">2016</span></a></h4>
Я ожидал:
<h4><a href="/" rel="nofollow" title="Vodafone Announces his plan to update the network of wire of Ono to the technology DOCSIS 3.1 to be able to offer symmetrical connections of 1 Gbps"><span class="title">Vodafone Will update the network of Ono to be able to offer 1 Gbps symmetrical</span> <span class="reach">144</span> <span class="date">2016</span></a></h4>
Почему он разделяет предложение на три части?
Ответ №1:
Вполне уверен, что это связано с тем, что промежутки считаются тегами, связанными со словами (например <em>
, или <b>
), а не уровнем блока (например <div>
). Если тег привязан к слову, Apertium может удалить или скопировать его. Структура на уровне блоков OTOH всегда сохраняется.
Если определенные классы охватывает используются как если бы они были на уровне блоков теги, вы можете либо предварительной обработки (превратить всех <span class="title">
в див), или вы могли видеть https://github.com/TinoDidriksen/Transfuse/ (основной формат обработку библиотека) если это возможно, чтобы иметь более тонкое обращение пролетов (может быть, имеет смысл, чтобы иметь новую функцию в элемент управления, что позволяет отмечать определенные промежутки, как на самом деле быть ДИВС, если такое происходит большое). Однако предварительная обработка кажется самым простым выходом.