Processamento de imagens de documentos - Parte V

Autor: Stefano Kubiça - GPS    

Esta é a ultima parte da série de artigos aqui publicados sobre processamento de imagens de documentos.

Vimos que o processo de produção de documentos eletrônicos tem como objetivo gerar, de forma mais eficiente possível, o conjunto de imagens que deverão fazer parte do gerenciamento de documentos eletrônicos.

Vimos também que a etapa [2] mais cara e demorada é a indexação. Nesta etapa são ge-rados índices para posterior recuperação do documento e, também, imagens dos caracteres de interesse, são transformadas em dados.

A extração dos dados para geração de índices ou transformação, na maioria dos casos é realizada por digitação ou OCR (Reconhecimento Óptico de Caracteres).

O reconhecimento deve ser processado depois da aquisição, pré-processamento e da segmentação, conforme foi visto nos artigos anteriores.

O objetivo do presente artigo é finalizar o assunto, abordando as duas últimas fases do processamento que são o reconhecimento e o pós-processamento.

1. RECONHECIMENTO

Após as fases de aquisição, pré-processamento e segmentação, o objetivo de um sistema de processamento de imagens de documentos é classificar os objetos em questão. Para realizar isso, é necessário que as classes de objetos sejam distinguidas umas das outras, e isso é realizado em reconhecimento de padrões através das características de um objeto. Características são funções de medidas realizadas sobre uma classe de objetos que permitem que a classe seja distinguida de outras classes de uma mesma categoria geral. Os objetos a serem classificados e reconhecidos podem ser de qualquer tipo. No presente artigo vamos considerar como objetos somente caracteres, uma vez que são fundamentais para geração de índices dos documentos e também para transformação de imagens em dados.

2. ABORDAGENS BÁSICAS PARA RECONHECIMENTO

Três abordagens básicas para a construção de características são usadas:

  • Estatística;

  • Estrutural;

  • Neural

Abordagem Estatística

Na abordagem estatística, as características são obtidas pela manipulação de medidas puramente numéricas ou boleanas. Os conjuntos de medidas características para reconhecimento são extraídas e os dados são usados com funções estatísticas para separar as classes.

Abordagem Estrutural

Na abordagem estrutural as características correspondem de alguma maneira com a percepção humana dos objetos. Características que são invariantes a certas transformações do caractere devem ser utilizadas. Quando caracteristicas invariantes não podem ser encontradas, uma alternativa é normalizar as imagens de entrada, a fim de encontrar um tamanho padrão por exemplo.

Abordagem Neural

Schalkoff [4] ainda classifica os métodos de reconhecimento como neurais, ou seja, todos os métodos que utilizam redes neurais no módulo de reconhecimento.

Também podem ser encontrados na literatura métodos híbridos de reconhecimento, ou seja, métodos que combinam abordagens estatís-ticas, estruturais e neurais.

3. PROCESSOS DE RECONHECIMENTO

Da mesma maneira que as características podem ser classificadas como estruturais ou estatísticas, os processos de reconhecimento ou classificação também são classificados como estruturais ou estatísticos. Chamamos de classificadores estruturais aqueles que utilizam características estruturais e classificadores estatísticos aqueles que utilizam características estatísticas.

A classificação acima refere-se ao tipo de abordagem que o sistema utilizará. Uma outra classificação encontrada na literatura, diz respeito à maneira pela qual a palavra, por exemplo, será reconhecida. Duas classes são consideradas: analítica e global. O reconhecimento analítico segmenta a palavra e reconhece partes da palavra independentemente, já o global reconhece a palavra como um todo.

4. RECONHECIMENTO DE CARACTERES ÓPTICOS (OCR)

Em 1929 foi obtida a primeira patente sobre OCR na Alemanha o mesmo acontecendo em 1933 nos Estados Unidos, sendo estas as primeiras concepções sobre OCR que se tem no-tícia. O sonho de ler/reconhecer letras e números impressos começou a tornar-se realidade somente na década de 50 com a chegada dos computadores. Os primeiros métodos para OCR eram muito pobres em termos de reconheci-mento de padrões e uma simples questão como, por exemplo, tratar os caracteres E e E de for-ma idêntica era uma tarefa difícil.

O primeiro computador comercial (UNIVAC I), surgiu em 1951 quando começou a existir a possibilidade de realizar trabalhos de OCR, porém com muita limitação em termos de quantidade e capacidade de processamento.

Um dos métodos utilizados em OCR é o da modelagem. No método de modelagem, a leitura de caracteres é baseada na comparação de modelos onde diversos modelos de caracteres são previamente armazenados e ao se efetuar a leitura de um caractere a ser reconhecido, es-te é comparado com os modelos armazenados. A comparação leva em conta a quantidade e a disposição de pontos em uma imagem, sendo que as diferenças em termos de tamanho entre os caracteres são resolvidas através da normalização. O processo é realizado em duas partes: primeiro faz-se a sobreposição do caractere a ser reconhecido com o modelo e em seguida é feito o cálculo do grau de coincidência entre o caractere e o modelo. Neste processo é necessário fazer projeções na horizontal ou vertical para facilitar a comparação e o cálculo das coincidências, neste caso é importante descobrir o ponto de início e fim do caractere a ser reconhecido para servir de base de comparação com o modelo. Isto não é uma tarefa fácil quando os caracteres estão quase conectados ou muito próximos. Para resolver estes tipos de problemas, as técnicas atuais trabalham com segmentação. Os dados dos documentos são segmentados em regiões e seqüências de caracteres antes de se proceder o reconhecimento.

O desenvolvimento de equipamentos e algoritmos para tratamento de imagens de documentos, tem trazido grande influência no OCR. Introduziu-se a modelagem lógica, por exemplo, onde os caracteres a serem reconhecidos são binarizados [3] e temos então apenas dois tipos de região em termos resolução (preto ou branco). O número de comparações é reduzido e o caractere pode ser reconhecido e classificado conforme a quantidade e posição de pixels pretos/brancos. O método da modelagem, pode trazer resultados significativos com caracteres impressos mas é muito pobre em resultados com manuscritos.

No caso de caracteres manuscritos, os ca-racteres podem ter diversas formas, dependendo da caligrafia de quem escreveu. Existe uma grande dificuldade para criar modelos de comparação para todas as formas possíveis, neste caso o método da analise estrutural pode ser aplicado. Em termos de concepção, o método da análise estrutural é uma evolução do método da modelagem.

O método de análise estrutural não usa princípios matemáticos. Primeiro nós temos uma idéia geral e básica da concepção de estratégia. Então a estrutura é quebrada em partes e podemos descrever as características de cada uma das partes e os relacionamentos entre as partes. A extração de características é a chave principal no reconhecimento de padrões.

Existe também o método híbrido que é um método intermediário entre a modelagem e o método estrutural. O método híbrido procura utilizar a vantagens de cada um dos métodos apresentados. Por exemplo: o método da modelagem é muito sensível a aspectos posicionais e é muito forte para modelagem de forma global, enquanto que o método da análise estrutural tem vantagem para se detectar carac-terísticas locais de caracteres. O método consiste em trabalhar-se com modelagem em nível global e com a análise e definição de características em nível local.

Na década de 50 e meados de 60, pesquisadores imaginavam um OCR ideal quando surgiram as primeiras experiências com Inteligência Artificial. Em termos de método, (modelagem ou estrutural) é difícil traçar uma linha que separe estas pesquisas, tanto em termos cronológicos como semânticos.

Os métodos são variáveis conforme os dados para o reconhecimento de padrões. Estudos atuais têm interesse específico com caracteres, principalmente em função da variabilidade e das formas. A descrição das formas dos caracteres é muito importante quando necessitamos fazer o reconhecimento.

5. PÓS-PROCESSAMENTO

Muitas vezes, o resultado do processo de reconhecimento pode retornar ambíguo. Um dos exemplos clássicos de ambigüidade é a dife-renciação entre o dígito zero "0" e a letra "O". Entretanto, o resultado retornado pelo módulo de reconhecimento não deve ser considerado como a decisão final. Todas as possíveis alternativas devem ser verificadas pelo módulo de pós-processamento, o qual muitas vezes aplica a análise do contexto, a fim de encontrar melhor solução.

Por exemplo: a seqüência de caracteres reconhecidos é "P_BRE" e o caractere "_" representa a dúvida entre o digito "0" e a letra "O". Podemos inserir o "0" ou "O" no lugar do caractere "_" e testar a seqüência de caracteres usando um dicionário, que neste caso retornaria a seqüência "POBRE" como válida e assim resolvendo a ambigüidade.

6. CONCLUSÃO

A eficácia de um sistema de documentos eletrônicos, depende do armazenamento e da recuperação.

Os documentos devem ser armazenados com a melhor qualidade possível e com a mínima utilização de espaço. Isto pode ser resolvido executando-se as etapas de aquisição e pré-processamento.

Para uma eficiente recuperação, deve ser gerado um índice para posterior localização do documento no banco de documentos eletrônicos. A geração do índice, exige que imagens de determinados caracteres sejam transformadas em dados [2]. Para conseguir isto, deve-se executar as etapas de segmentação, reconhe-cimento e pós-processamento a partir da imagem adquirida e pré-processada.

Em uma Organização que deseja resolver o seu problema de volume e trâmite de papéis, somente um sistema eficaz de processamento de documentos eletrônicos deve fazer parte de um contexto maior que é o GED (Gerenciamento Eletrônico de Documentos).

REFERÊNCIAS BIBLIOGRÁFICAS

[1] FACON, Jacques. Processamento e análise de imagens. Curitiba: PUC PR, 1998. (Curso de Mestrado em Informática Aplicada)

[2] KUBIÇA, Stefano. Gerenciamento eletrônico de documentos. Bate Byte, Curitiba, n. 88, jul. 1999.

[3] O'GORMAN, Lawrence. Document image analysis. Los Alamitos: IEEE Computer Society Press, 1995.

[4] SCHALKOFF, Robert. Pattern recognition: statistical, structural and neural approaches. New York: J. Wiley, 1992.