Преобразование Pandoc из Mediawiki в GFM

#mediawiki #pandoc #github-flavored-markdown

#mediawiki #pandoc #со вкусом github-markdown

Вопрос:

Возникли проблемы при попытке конвертировать файл MediaWiki с помощью Pandoc в Markdown со вкусом GitHub, у нас есть несколько шаблонов, подобных приведенным ниже:

 {|cellspacing=amp;quot;0amp;quot; cellpadding = amp;quot;10amp;quot; style=amp;quot;border-style:solid; border-color:black; border-width:1px;amp;quot; width=amp;quot;100%amp;quot;
| Some text....
|}
  

Сбой скрипта с ошибкой:

 Error at "source" (line 156, column 19):
unexpected "c"
expecting lf new-line, "!", "<" or "|"
{|cellspacing="0" cellpadding = "10" style="border-style:solid; border-color:black; border-width:1px;" width="100%"
                  ^
  
  • Инструмент Pandoc 2.0.1.1
  • Входной XML-файл, экспортированный из MediaWiki 1.21.2
  • Выходной файл Markdown
 pandoc --from=mediawiki --to=gfm C:UsersxxxAppDataLocalTemp/pandoc5c93ace7d42b7
  

Есть предложения, спасибо за вашу поддержку.

Ответ №1:

Pandoc не может прочитать экспортированный XML, а только фактическую разметку MediaWiki. Разметка экспортируется как часть XML, но должна быть извлечена с помощью XML-процессора, если кто-то хочет загрузить ее в pandoc.

Найдите элемент (ы) /mediawiki/page[ns=0]/revision/text (XPath).

Комментарии:

1. На самом деле перевод из MediaWiki в GFM работает нормально и анализируется корректно, проблема в том, что pandoc не обрабатывает некоторые символы из экспортируемого файла с помощью Special:Export , например, пробел перед знаком равенства. Например, вместо cellpadding = «10» должно быть cellpadding=»10″;

2. Тогда, возможно, я неправильно понимаю. Похоже на ошибку; пожалуйста, поднимите вопрос на github.com/jgm/pandoc/issues или отправьте сообщение в список рассылки pandoc-обсуждение.

3. @hb.Sara tarleb права, похоже, у вас есть amp;quot; в ваших входных данных: это недопустимый mediawiki, но экранированные кавычки как часть фрагмента XML.