как определить, был ли повернут текст PDF

#c# #text #rotation #itext7

#c# #текст #поворот #itext7

Вопрос:

Я пытаюсь извлечь текст из PDF-файла, используя iText7. Я использую IEventListener для получения всех частей страницы, хотя часть текста повернута. Я могу найти примеры того, как вставить повернутый текст в PDF, но ничего не могу найти о том, как я могу определить, повернут ли данный текстовый сегмент.

Кто-нибудь может помочь?

 public void EventOccurred(IEventData data, EventType type)
{
    PdfPart part = null;

    switch (type)
    {
        case EventType.BEGIN_TEXT:
            break;
        case EventType.RENDER_TEXT:
            part = new PdfTextPart(PageNumber, data as TextRenderInfo);
            Parts.Add(part);
            break;
        case EventType.END_TEXT:
            break;
        case EventType.RENDER_IMAGE:
            var imageData = data as ImageRenderInfo;
            //this.HandleImage(imageData);
            break;
        case EventType.RENDER_PATH:
            part = new PdfLinePart(PageNumber, data as PathRenderInfo);
            Parts.Add(part);
            break;
        case EventType.CLIP_PATH_CHANGED:
            break;
        default:
            break;
    }
}
  
 public PdfTextPart(Int32 pageNumber, TextRenderInfo info) : base(pageNumber)
{
    Text = info.GetText();

    var font = info.GetFont().GetFontProgram().GetFontNames();
    Font = font.GetFontName();

    if (font.IsItalic()) { this.IsItalic = true; }
    if (font.IsBold()) { this.IsBold = true; }
    if (font.IsUnderline()) { this.IsUnderline = true; }
}
  

Ответ №1:

TextRenderInfo имеет базовую строку. Эта базовая строка является LineSegment и как таковая имеет начальную и конечную точки. Теперь вам просто нужно определить угол наклона линии между этими двумя точками.

Т. е. для TextRenderInfo info :

 LineSegment baseline = info.GetBaseline();
Vector startPoint = baseline.GetStartPoint();
Vector endPoint = baseline.GetEndPoint();
Vector direction = endLocation.Subtract(startLocation);
double angle = Math.Atan2(direction.Get(Vector.I2), direction.Get(Vector.I1));
  

Результат, очевидно, выражен в радианах.

Возможно, вам дополнительно придется учитывать поворот страницы, который (если я правильно помню) не вычисляется в указанных выше координатах.

Комментарии:

1. Очень хороший ответ, работает отлично. Я работаю с парой тысяч правительственных документов, так что, к счастью, мне не нужно беспокоиться о ротации страниц 🙂