c # сгенерировать файл hocr с помощью charlesw tesseract

#c# #tesseract #hocr

#c# #тессеракт #hocr

Вопрос:

как я могу сгенерировать hocr, используя оболочку tesseract здесь

в настоящее время мне нужно динамически добавлять местоположение tessdata в переменные среды и запускать мой код

 System.Diagnostics.Process pProcess = new System.Diagnostics.Process();
            pProcess.StartInfo.FileName = System.IO.Path.GetDirectoryName(Environment.GetCommandLineArgs()[0])   @"tesseract-3.05.00dev-win32-vc19tesseract.exe";
                            string inputImg = @"00067.jpg";
            string  hocrLocation = @"00067";
            string argsPdf = """   inputImg   """   " "   """   hocrLocation   """   " hocr ";
            Console.WriteLine(argsPdf);
            pProcess.StartInfo.Arguments = argsPdf;
            pProcess.StartInfo.CreateNoWindow = false;
            pProcess.StartInfo.UseShellExecute = false;
            pProcess.StartInfo.RedirectStandardOutput = true;
            pProcess.Start();
            string strOutput = pProcess.StandardOutput.ReadToEnd();
            Console.WriteLine("OUtput: "   strOutput);
            pProcess.WaitForExit();
  

а затем я нашел оболочку tesseract. как я могу сгенерировать файл hocr с помощью оболочки? я не могу найти пример, как это сделать.

это текущий код (из примера), который я использую, но как вывести файл hocr?

 var testImagePath = "./phototest.tif";
            if (args.Length > 0)
            {
                testImagePath = args[0];
            }

            try
            {
                using (var engine = new TesseractEngine(@"./tessdata", "eng", EngineMode.Default))
                {
                    using (var img = Pix.LoadFromFile(testImagePath))
                    {
                        using (var page = engine.Process(img))
                        {

                        }
                    }
                }
            }
            catch (Exception e)
            {
                Trace.TraceError(e.ToString());
                Console.WriteLine("Unexpected Error: "   e.Message);
                Console.WriteLine("Details: ");
                Console.WriteLine(e.ToString());
            }
  

Ответ №1:

string hocrText = page.GetHOCRText(pageNum - 1);