Исправлены ссылки, указывающие на будущие страницы, добавленные через PDFMerger

#c# #itext #itext7 #html-to-pdf

#c# #итекст #itext7 #преобразование html в pdf #itext

Вопрос:

Я пытаюсь объединить несколько PDF-файлов, где в первом PDF-файле есть куча ссылок на другие PDF-файлы, которые будут объединены позже.

Я начинаю с преобразования HTML в PDF, а затем объединяю в него некоторые PDF-файлы.

В HTML PDF есть простые ссылки ancher, подобные этим

 <a href="#some-id">Click here</a>

<div id="some-id">...</div>
  

Это отлично работает, если идентификатор назначения существует при создании PDF через HtmlConverter.ConvertToDocument .

Но это проблема. Назначение добавляется позже через PdfMerger . Я попытался поиграть с NamedDestinations, на которые ссылаетсяhttps://kb.itextpdf.com/home/it7kb/examples/named-destinations

 public void AppendPdf(string key, Document sourceDocument, Stream pdfStream)
{
    var pdfReader = new PdfReader(pdfStream);
    var pdfDocument = new PdfDocument(pdfReader);
    pdfDocument.AddNamedDestination(key, pdfDocument.GetFirstPage().GetPdfObject());

    var merger = new PdfMerger(sourceDocument.GetPdfDocument());
    merger.Merge(pdfDocument, 1, pdfDocument.GetNumberOfPages());

    var nameTree = sourceDocument.GetPdfDocument().GetCatalog().GetNameTree(PdfName.Dests);
    nameTree.SetModified();
}
  

Но безрезультатно: (

Я также попытался самостоятельно проверить ссылки, но GetAsArray выдает нулевое ожидание

 var obj = sourceDocument.GetPdfDocument().GetFirstPage().GetPdfObject();
var annots = obj.GetAsArray(PdfName.Annots); // throws
  

Пожалуйста, помогите 🙂

Редактировать

Этот фрагмент кода должен упростить запуск

 using var stream = new MemoryStream();
var pdfWriter = new PdfWriter(stream);
var pdfDocument = new PdfDocument(pdfWriter);
var key = "future-id";
var html = $@"
<a href=""#some-id"">This link works!</a>
<a href=""#{key}"">Click here to go the first page of the merged PDF, but it does not work</a>

<div id=""some-id"" style=""page-break-before: always;"">Hello PDF</div>
";
var sourceDocument = HtmlConverter.ConvertToDocument(html, pdfDocument, new ConverterProperties());

using var pdfStream = File.OpenRead("path/to/pdf"); // change path to an actual pdf
AppendPdf(key, sourceDocument, pdfStream);

sourceDocument.Close();
var pdfBytes = stream.ToArray();
File.WriteAllBytes("path/to/result.pdf", pdfBytes); // change to desired path
  

Пакеты Nuget

 <PackageReference Include="itext7" Version="7.1.12" />
<PackageReference Include="itext7.pdfhtml" Version="3.0.1" />
  

Комментарии:

1. Привет, можете ли вы предоставить более подробную информацию о том, как воспроизвести проблему? Какие параметры нам нужно передать AppendPdf ? Какой пример PDF можно использовать для воспроизведения проблемы и т.д. Я предполагаю, что люди, которые потенциально могли бы ответить здесь, ищут способ скопировать код, вставить его в IDE и запустить, чтобы воспроизвести и поиграть, и прямо сейчас это довольно сложно 🙂

2. @AlexeySubach хорошая идея, я добавил фрагмент

3. Эй, я пытался запустить ваш код, но недостающий фрагмент — это пример документа, который вы читаете из location "path/to/pdf"

4. Вам нужно изменить это, чтобы указывать на файл PDF. Также необходимо изменить путь вывода. Я добавил комментарии, чтобы теперь было понятно. Я также исправил неверную @string, она не запускается 🙂

5. Я знаю, но сам PDF-файл отсутствует. Какой PDF я использую? Проблема воспроизводится для каждого PDF-файла? Если нет, то без примера PDF это будет трудно воспроизвести

Ответ №1:

Добавление именованного назначения не работает в следующих трех строках кода, потому что вы открыли документ в режиме только для чтения (с PdfReader ):

 var pdfReader = new PdfReader(pdfStream);
var pdfDocument = new PdfDocument(pdfReader);
pdfDocument.AddNamedDestination(key, pdfDocument.GetFirstPage().GetPdfObject());
  

Вместо этого вы должны получить общее количество страниц в исходном документе, в который вы объединяетесь, и это число 1 будет индексом первой страницы документа, который вы объединяете с исходным документом, и, следовательно, номером страницы в выходном документе для перехода:

 int sourceDocumentPageCount = sourceDocument.GetPdfDocument().GetNumberOfPages();
  

Кроме того, добавить пункт назначения немного сложнее, потому что вам нужно создать описание того, как вы хотите перейти на свою страницу (в каком месте и т.д.). Это можно сделать следующим образом:

 PdfPage firstPageOfMergedDocument = sourceDocument.GetPdfDocument().GetPage(sourceDocumentPageCount   1);
sourceDocument.GetPdfDocument().AddNamedDestination(key, PdfExplicitDestination.CreateFit(firstPageOfMergedDocument).GetPdfObject());
  

Полный AppendPdf код, который дал правильный результат для меня:

 public static void AppendPdf(string key, Document sourceDocument, Stream pdfStream)
{
    var pdfReader = new PdfReader(pdfStream);
    var pdfDocument = new PdfDocument(pdfReader);

    var merger = new PdfMerger(sourceDocument.GetPdfDocument());
    
    int sourceDocumentPageCount = sourceDocument.GetPdfDocument().GetNumberOfPages();
    
    merger.Merge(pdfDocument, 1, pdfDocument.GetNumberOfPages());

    PdfPage firstPageOfMergedDocument = sourceDocument.GetPdfDocument().GetPage(sourceDocumentPageCount   1);
    sourceDocument.GetPdfDocument().AddNamedDestination(key, PdfExplicitDestination.CreateFit(firstPageOfMergedDocument).GetPdfObject());
}