Reconocimiento óptico de caracteres - tisgpal1-3

Anuncio
Reconocimiento óptico de caracteres
En los últimos años la digitalización de la información (textos, imágenes, sonido, etc ) ha devenido un
punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan
continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de
soportes. En este contexto, poder automatizar la introducción de caracteres evitando la entrada por
teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo
tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios.
El Reconocimiento Óptico de Caracteres (OCR), así como el reconocimiento de texto, en general son
aplicaciones dirigidas a la digitalización de textos. Identifican automáticamente símbolos o caracteres
que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos
con los que podremos interactuar mediante un programa de edición de texto o similar.
Binarización
La mayor parte de algoritmos de OCR parten como base de una imagen binaria (dos colores) por lo
tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco
y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo
es mediante el histograma de la imagen donde se muestra el número de pixeles para cada nivel de
grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del
cual todos los pixeles que no lo superen se convertirán en negro y el resto en blanco.
Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados
los contornos de los caracteres y símbolos que contiene la imagen. A partir de aquí podemos aislar las
partes de la imagen que contienen texto (mas transiciones entre blanco y negro).
Fragmentación o segmentación de la imagen
Este es el proceso más costoso y necesario para el posterior reconocimiento de caracteres. La
segmentación de una imagen implica la detección mediante procedimientos deetiquetado
determinista o estocástico de los contornos o regiones de la imagen, basándose en la información de
intensidad o información espacial.
Permite la descomposición de un texto en diferentes entidades lógicas, que han de ser suficientemente
invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento.
A la hora de segmentar un texto lo primero que se hace es detectar los distintos renglones que
forman el texto. Para conseguirlo se realiza el siguiente procedimiento:
1. Se hace una proyección horizontal (histograma) consistente en contar los elementos de tinta
que existentes en cada una de las filas, traspasando estos valores a otra matriz, unidimensional,
resultado de la proyección, en la que existirán diferentes zonas de densidad de tinta separadas por
otras vacías. Cada zona donde la proyección dé un valor no nulo será interpretado como un
hipotético renglón.
2. Se analiza la matriz unidimensional para detectar los posibles renglones de los que está
compuesto el texto. Si se detecta una línea con densidad de proyección no nula y además la
anterior estaba en blanco, en esa línea comienza un renglón.
Como ya se ha comentado anteriormente, la segmentación del texto manuscrito es un caso más
complejo que el tratado en OCR, donde los caracteres, bien se encuentran claramente separados
en la imagen original (formularios con campos perfectamente delimitados) o bien es posible
separarlos de manera relativamente fácil, ya que su escritura es regular y presenta características
aprovechables para este fin. En el primer caso nos encontramos en las condiciones más favorables,
puesto que la segmentación de los caracteres viene dada por la demarcación de los límites de los
campos en los que se espera que se rellene el formulario. Esta información la conocemos a priori y
es una de las formas más fiables de realizar la segmentación con éxito.
Adelgazamiento de las componentes
Una vez aisladas las componentes conexas de la imagen, se les tendrá que aplicar un proceso de
adelgazamiento para cada una de ellas. Este procedimiento consiste en ir borrando sucesivamente los
puntos de los contornos de cada componente de forma que se conserve su tipología.
La eliminación de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen
continúe teniendo las mismas proporciones que la original y así conseguir que no quede deforme.
Se tiene que hacer un barrido en paralelo, es decir, señalar los píxeles borrables para eliminarlos todos
a la vez. Este proceso se lleva acabo para hacer posible la clasificación y reconocimiento, simplificando
la forma de las componentes.
La extracción de las características es una de las fases más difíciles en los sistemas de
reconocimiento de caracteres, puesto que es muy difícil escoger un conjunto de características
óptimo. Para que una característica se pueda considerar buena debe poseer:
Discriminación: Deben ser características que diferencien suficientemente una clase de otra.
Deben tener igual valor para mismas clases
Independencia: Las características deben estar incorreladas unas de otras.
Pequeño espacio para características: El número de características debe ser pequeño para la
rapidez y facilidad de clasificación. En el campo de investigación del reconocimiento de formas se
tiene experiencia en el uso de algunos métodos de extracción de características basados en
transformaciones del espacio de representación de las muestras. Ejemplos de estos métodos son:
Comparación con patrones
En esta etapa se comparan los caracteres obtenidos anteriormente con unos teóricos (patrones)
almacenados en una base de datos. El buen funcionamiento del OCR se basa en gran medida a una
buena definición de esta etapa. Existen diferentes métodos para llevar a cabo la comparación. Uno de
ellos es el Método de Proyección, en el cual se obtienen proyecciones verticales y horizontales del
carácter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la máxima
coincidencia.
Existen otros métodos como por ejemplo: Métodos geométricos o estadísticos, Métodos
estructurales, Métodos Neuro-miméticos, Métodos Markovianos o Métodos de Zadeh.
Reconocimiento de texto manuscrito
Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica
una operación de niveles morfológicos, léxico y sintáctico que se consigue mediante el reconocimiento
del habla continua. Para llevar a cabo esa metodología, se utilizan algoritmos robustos que utilizan una
segmentación previa, debido a que se obtiene automáticamente con la descodificación.
Por ejemplo, si se quiere incorporar a un archivo, de nuestro tratamiento de textos
preferido, un ensayo aparecido en una revista tenemos dos alternativas: la primera, la
más barata pero también la más concienzuda en tiempo y energía, es mediante la
utilización del teclado, transcribiendo una letra tras otra, con el riesgo de cometer algunos
errores, debiendo realizar una segunda lectura del documento; la segunda, como ya lo
habrán adivinado, es con la utilización conjunta del programa de OCR y un escáner para
digitalizar el texto . Esta última solución económicamente es un poco más costosa si se
mira un rendimiento a muy corto plazo, pero dependiendo de la cantidad de documentos a
digitalizar y la calidad de los mismos, este trabajo se convierte en una tarea más elegante
y sobre todo más segura que el tedioso sufrimiento de la transcripción manual . Por otro
lado, su amortización se consigue rápidamente . El reconocimiento óptico de caracteres
es el proceso de cambiar una imagen digitalizada en texto editable en el ordenador
En resumen…
Los pasos básicos de un programa de OCR desde el inicio al final son los siguientes:
1 . Llevar la imagen del documento a la pantalla del ordenador . Para ello se ha de utilizar un
escáner que recoja las características de la página para convertirlo en una imagen digital .
2 . Crear las zonas . Esto debe realizarse para identificar las partes del documento que se quieren
reconocer como texto, o bien retenerse como gráficos . Las zonas de las páginas escaneadas son
cajas que incluyen las partes a las que se va a aplicar el reconocimiento . Se pueden crear tanto
manual, como automáticamente, y hasta usar plantillas . Las áreas no incluidas en estas zonas
serán ignoradas en el proceso .
3 . Realizar el OCR . Esta operación es la que convierte la información de texto gráfico en texto
editable . Durante el OCR, las aplicaciones definen los caracteres de texto de la imagen y pueden
realizar simultáneamente el chequeo del texto que se va identificando . Una vez acabada esa parte
hay chequear el texto y corregir los posibles errores .
4 . Exportar el documento .
Procesado automático de facturas impresas
Consiste en un tratamiento digital completo de los documentos con los que se trabaja en
un servicio de gestión contable. El tratamiento de estos documentos se traduce en la
exploración óptica de los mismos, la determinación de su tipo entre diversos modelos
previamente registrados, localización y reconocimiento de los campos informativos,
validación manual y finalmente la transferencia de la información obtenida.
Identificación de matrículas de vehículos
En el proceso de identificación de una matrícula se distinguen diversas etapas: En la etapa
de segmentación se buscan texturas similares a una matrícula. Posteriormente se aplica
un postproceso sobre los puntos candidatos a pertenecer a zonas de matrícula y se
devuelve el área rectangular en la que se encuentra la matrícula, tal y como se aprecia en
la figura 2.
Descargar