Алгоритм коррекции наклона для двоичных изображений цифр

#geometry #ocr #normalization #handwriting-recognition

#геометрия #ocr #нормализация #распознавание рукописного ввода

Вопрос:

В рамках автономной программы распознавания рукописного ввода у меня есть большой набор рукописных цифр, написанных примерно 100 людьми с номерами от 0 до 9. Прежде чем заставить программу классифицировать каждое из изображений, я хочу выполнить небольшую предварительную обработку, чтобы получить их в более стандартной форме.

В настоящее время все изображения представляют собой сетку размером 64×64, состоящую из единиц и 0 (0 для белого, 1 для черного), но из-за различий в стилях рукописного ввода некоторые числа больше других, некоторые расположены по-разному, а некоторые имеют нечетные наклоны (например, люди нарисовали их в виде диагональных линий)

Я уже примерно выяснил, как переместить их все в один центр и получить их примерно одинакового размера, и я знаю, что для исправления перекоса / наклона мне нужно будет повернуть их на определенную величину. Проблема в том, как мне узнать, на какую величину поворачивать изображения? Есть ли какой-нибудь стандартный алгоритм, на который можно было бы указать, чтобы разобраться в этом?

Ответ №1:

Я бы рассмотрел применение алгоритма анализа основных компонентов к пикселям каждого изображения, и это должно дать вам два основных направления линий. Затем вы можете вращаться в соответствии с соответствующей системой координат.