Reconocimiento óptico de caracteres - tisgpal1-3

Reconocimiento óptico de caracteres En los últimos años la digitalización de la información (textos, imágenes, sonido, etc ) ha devenido un punto de interés para la sociedad. En el caso concreto de los textos, existen y se generan continuamente grandes cantidades de información escrita, tipográfica o manuscrita en todo tipo de soportes. En este contexto, poder automatizar la introducción de caracteres evitando la entrada por teclado, implica un importante ahorro de recursos humanos y un aumento de la productividad, al mismo tiempo que se mantiene, o hasta se mejora, la calidad de muchos servicios. El Reconocimiento Óptico de Caracteres (OCR), así como el reconocimiento de texto, en general son aplicaciones dirigidas a la digitalización de textos. Identifican automáticamente símbolos o caracteres que pertenecen a un determinado alfabeto, a partir de una imagen para almacenarla en forma de datos con los que podremos interactuar mediante un programa de edición de texto o similar. Binarización La mayor parte de algoritmos de OCR parten como base de una imagen binaria (dos colores) por lo tanto es conveniente convertir una imagen de escala de grises, o una de color, en una imagen en blanco y negro, de tal forma que se preserven las propiedades esenciales de la imagen. Una forma de hacerlo es mediante el histograma de la imagen donde se muestra el número de pixeles para cada nivel de grises que aparece a la imagen. Para binarizarla tenemos que escoger un umbral adecuado, a partir del cual todos los pixeles que no lo superen se convertirán en negro y el resto en blanco. Mediante este proceso obtenemos una imagen en blanco y negro donde quedan claramente marcados los contornos de los caracteres y símbolos que contiene la imagen. A partir de aquí podemos aislar las partes de la imagen que contienen texto (mas transiciones entre blanco y negro). Fragmentación o segmentación de la imagen Este es el proceso más costoso y necesario para el posterior reconocimiento de caracteres. La segmentación de una imagen implica la detección mediante procedimientos deetiquetado determinista o estocástico de los contornos o regiones de la imagen, basándose en la información de intensidad o información espacial. Permite la descomposición de un texto en diferentes entidades lógicas, que han de ser suficientemente invariables, para ser independientes del escritor, y suficientemente significativas para su reconocimiento. A la hora de segmentar un texto lo primero que se hace es detectar los distintos renglones que forman el texto. Para conseguirlo se realiza el siguiente procedimiento: 1. Se hace una proyección horizontal (histograma) consistente en contar los elementos de tinta que existentes en cada una de las filas, traspasando estos valores a otra matriz, unidimensional, resultado de la proyección, en la que existirán diferentes zonas de densidad de tinta separadas por otras vacías. Cada zona donde la proyección dé un valor no nulo será interpretado como un hipotético renglón. 2. Se analiza la matriz unidimensional para detectar los posibles renglones de los que está compuesto el texto. Si se detecta una línea con densidad de proyección no nula y además la anterior estaba en blanco, en esa línea comienza un renglón. Como ya se ha comentado anteriormente, la segmentación del texto manuscrito es un caso más complejo que el tratado en OCR, donde los caracteres, bien se encuentran claramente separados en la imagen original (formularios con campos perfectamente delimitados) o bien es posible separarlos de manera relativamente fácil, ya que su escritura es regular y presenta características aprovechables para este fin. En el primer caso nos encontramos en las condiciones más favorables, puesto que la segmentación de los caracteres viene dada por la demarcación de los límites de los campos en los que se espera que se rellene el formulario. Esta información la conocemos a priori y es una de las formas más fiables de realizar la segmentación con éxito. Adelgazamiento de las componentes Una vez aisladas las componentes conexas de la imagen, se les tendrá que aplicar un proceso de adelgazamiento para cada una de ellas. Este procedimiento consiste en ir borrando sucesivamente los puntos de los contornos de cada componente de forma que se conserve su tipología. La eliminación de los puntos ha de seguir un esquema de barridos sucesivos para que la imagen continúe teniendo las mismas proporciones que la original y así conseguir que no quede deforme. Se tiene que hacer un barrido en paralelo, es decir, señalar los píxeles borrables para eliminarlos todos a la vez. Este proceso se lleva acabo para hacer posible la clasificación y reconocimiento, simplificando la forma de las componentes. La extracción de las características es una de las fases más difíciles en los sistemas de reconocimiento de caracteres, puesto que es muy difícil escoger un conjunto de características óptimo. Para que una característica se pueda considerar buena debe poseer: Discriminación: Deben ser características que diferencien suficientemente una clase de otra. Deben tener igual valor para mismas clases Independencia: Las características deben estar incorreladas unas de otras. Pequeño espacio para características: El número de características debe ser pequeño para la rapidez y facilidad de clasificación. En el campo de investigación del reconocimiento de formas se tiene experiencia en el uso de algunos métodos de extracción de características basados en transformaciones del espacio de representación de las muestras. Ejemplos de estos métodos son: Comparación con patrones En esta etapa se comparan los caracteres obtenidos anteriormente con unos teóricos (patrones) almacenados en una base de datos. El buen funcionamiento del OCR se basa en gran medida a una buena definición de esta etapa. Existen diferentes métodos para llevar a cabo la comparación. Uno de ellos es el Método de Proyección, en el cual se obtienen proyecciones verticales y horizontales del carácter por reconocer y se comparan con el alfabeto de caracteres posibles hasta encontrar la máxima coincidencia. Existen otros métodos como por ejemplo: Métodos geométricos o estadísticos, Métodos estructurales, Métodos Neuro-miméticos, Métodos Markovianos o Métodos de Zadeh. Reconocimiento de texto manuscrito Por otro lado, se puede llegar a comprender una frase cuando la hemos terminado de leer. Esto implica una operación de niveles morfológicos, léxico y sintáctico que se consigue mediante el reconocimiento del habla continua. Para llevar a cabo esa metodología, se utilizan algoritmos robustos que utilizan una segmentación previa, debido a que se obtiene automáticamente con la descodificación. Por ejemplo, si se quiere incorporar a un archivo, de nuestro tratamiento de textos preferido, un ensayo aparecido en una revista tenemos dos alternativas: la primera, la más barata pero también la más concienzuda en tiempo y energía, es mediante la utilización del teclado, transcribiendo una letra tras otra, con el riesgo de cometer algunos errores, debiendo realizar una segunda lectura del documento; la segunda, como ya lo habrán adivinado, es con la utilización conjunta del programa de OCR y un escáner para digitalizar el texto . Esta última solución económicamente es un poco más costosa si se mira un rendimiento a muy corto plazo, pero dependiendo de la cantidad de documentos a digitalizar y la calidad de los mismos, este trabajo se convierte en una tarea más elegante y sobre todo más segura que el tedioso sufrimiento de la transcripción manual . Por otro lado, su amortización se consigue rápidamente . El reconocimiento óptico de caracteres es el proceso de cambiar una imagen digitalizada en texto editable en el ordenador En resumen… Los pasos básicos de un programa de OCR desde el inicio al final son los siguientes: 1 . Llevar la imagen del documento a la pantalla del ordenador . Para ello se ha de utilizar un escáner que recoja las características de la página para convertirlo en una imagen digital . 2 . Crear las zonas . Esto debe realizarse para identificar las partes del documento que se quieren reconocer como texto, o bien retenerse como gráficos . Las zonas de las páginas escaneadas son cajas que incluyen las partes a las que se va a aplicar el reconocimiento . Se pueden crear tanto manual, como automáticamente, y hasta usar plantillas . Las áreas no incluidas en estas zonas serán ignoradas en el proceso . 3 . Realizar el OCR . Esta operación es la que convierte la información de texto gráfico en texto editable . Durante el OCR, las aplicaciones definen los caracteres de texto de la imagen y pueden realizar simultáneamente el chequeo del texto que se va identificando . Una vez acabada esa parte hay chequear el texto y corregir los posibles errores . 4 . Exportar el documento . Procesado automático de facturas impresas Consiste en un tratamiento digital completo de los documentos con los que se trabaja en un servicio de gestión contable. El tratamiento de estos documentos se traduce en la exploración óptica de los mismos, la determinación de su tipo entre diversos modelos previamente registrados, localización y reconocimiento de los campos informativos, validación manual y finalmente la transferencia de la información obtenida. Identificación de matrículas de vehículos En el proceso de identificación de una matrícula se distinguen diversas etapas: En la etapa de segmentación se buscan texturas similares a una matrícula. Posteriormente se aplica un postproceso sobre los puntos candidatos a pertenecer a zonas de matrícula y se devuelve el área rectangular en la que se encuentra la matrícula, tal y como se aprecia en la figura 2.

Reconocimiento óptico de caracteres - tisgpal1-3

Documentos relacionados

Productos

Apoyo

Reconocimiento óptico de caracteres - tisgpal1-3

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib