Resumo

Binarização é a separação dos objetos relevantes de uma imagem do fundo, sendo parte fundamental do processo de análise desta imagem. Este é um assunto que é estudado há muito tempo, com inúmeros métodos elaborados utilizando conhecimentos das mais diversas áreas, como morfologia matemática e teoria da informação, para obter o resultado desejado. Ao considerarmos documentos históricos, no entanto, este ainda é um problema em aberto, pois eles geralmente apresentam altos níveis dos mais variados tipos de degradação, como iluminação desigual, envelhecimento do papel, manchas de tinta, a escrita no verso aparecendo na frente, entre outros. Nesses casos, métodos de uso geral falham em diferenciar corretamente o texto do fundo e dos ruídos.

Um bom método de binarização para textos é fundamental para o funcionamento correto do OCR - Optical Character Recognition, que é a obtenção automatizada da informação textual presente na imagem. Além disso, como a binarização elimina os vários ruídos e degradações, ela possivelmente melhora a legibilidade do documento, principalmente dos manuscritos. Uma outra vantagem é a redução expressiva do tamanho da imagem: a fim de não perder a informação presente no documento, este geralmente é escaneado na melhor qualidade possível, gerando arquivos que chegam a ocupar 10MB, o que dificulta tanto o armazenamento eficiente quanto a fácil distribuição dos documentos. Ao binarizar a imagem, como a informação é dividida em apenas preto ou branco, este tamanho pode ser reduzido para poucas dezenas de KB, diminuindo o fluxo de dados (throughput) do armazenamento e dos vários possíveis canais de distribuição.

Com o intuito de estabelecer uma padronização para a comparação dos métodos de binarização de documentos atuais, foi realizada em 2009 a primeira competição internacional destes métodos, o DIBCO 2009. Nela, foram submetidos 43 algoritmos de 35 grupos de pesquisa, os quais foram avaliados num conjunto de 10 imagens representativas por 4 métricas, cada uma avaliando um diferente aspecto da corretude do resultado.

É inspirado nos resultados desta competição que se baseia este trabalho, que visa produzir um software de avaliação automatizada e extensível, estudar o método de criação de imagens de comparação ground truth para criar um conjunto de dados brasileiro, e propôr um novo método com a ambição de superar o estado da arte atual. O software de avaliação é dito automatizado pois deve ser configurável de forma que seus resultados sejam facilmente reproduzidos e que o esforço repetitivo presente numa avaliação deste tipo seja reduzido consideravelmente; e deve ser extensível para que novos métodos e métricas possam ser introduzidos nele sem a necessidade de uma reestruturação da implementação.