#mediawiki #pandoc #github-flavored-markdown
#mediawiki #pandoc #со вкусом github-markdown
Вопрос:
Возникли проблемы при попытке конвертировать файл MediaWiki с помощью Pandoc в Markdown со вкусом GitHub, у нас есть несколько шаблонов, подобных приведенным ниже:
{|cellspacing=amp;quot;0amp;quot; cellpadding = amp;quot;10amp;quot; style=amp;quot;border-style:solid; border-color:black; border-width:1px;amp;quot; width=amp;quot;100%amp;quot;
| Some text....
|}
Сбой скрипта с ошибкой:
Error at "source" (line 156, column 19):
unexpected "c"
expecting lf new-line, "!", "<" or "|"
{|cellspacing="0" cellpadding = "10" style="border-style:solid; border-color:black; border-width:1px;" width="100%"
^
- Инструмент Pandoc 2.0.1.1
- Входной XML-файл, экспортированный из MediaWiki 1.21.2
- Выходной файл Markdown
pandoc --from=mediawiki --to=gfm C:UsersxxxAppDataLocalTemp/pandoc5c93ace7d42b7
Есть предложения, спасибо за вашу поддержку.
Ответ №1:
Pandoc не может прочитать экспортированный XML, а только фактическую разметку MediaWiki. Разметка экспортируется как часть XML, но должна быть извлечена с помощью XML-процессора, если кто-то хочет загрузить ее в pandoc.
Найдите элемент (ы) /mediawiki/page[ns=0]/revision/text
(XPath).
Комментарии:
1. На самом деле перевод из MediaWiki в GFM работает нормально и анализируется корректно, проблема в том, что pandoc не обрабатывает некоторые символы из экспортируемого файла с помощью Special:Export , например, пробел перед знаком равенства. Например, вместо cellpadding = «10» должно быть cellpadding=»10″;
2. Тогда, возможно, я неправильно понимаю. Похоже на ошибку; пожалуйста, поднимите вопрос на github.com/jgm/pandoc/issues или отправьте сообщение в список рассылки pandoc-обсуждение.
3. @hb.Sara tarleb права, похоже, у вас есть
amp;quot;
в ваших входных данных: это недопустимый mediawiki, но экранированные кавычки как часть фрагмента XML.