PDF

Resumo

Linguagens formais - como as linguagens de programação - são desenvolvidas artificialmente e possuem uma sintaxe bem definida. Línguas humanas, por sua vez, surgem naturalmente como instrumento de comunicação e estão sujeitas a ambiguidades e múltiplas interpretações. O ramo da Computação que lida com este último tipo de linguagem é chamado de Processamento de Linguagens Naturais (PLN). Entre os problemas comuns de PLN estão extração e recuperação de informação, assim como correção, resumo e tradução de textos. Existem, atualmente, muitos programas que usam algoritmos de PLN para efetuar diversos tipos de correção de texto (ortográfica, gramatical e de estilo), mas nenhum que realize correção de estilo para a área de Computação especificamente.
Assim sendo, neste trabalho, foi desenvolvido um sistema de verificação de estilo para textos acadêmicos de Computação. Tal sistema - denominado "CATA" - analisa textos levando em conta aspectos linguísticos e estéticos, para, por exemplo, detectar ocorrências de traduções incorretas e estrangeirismos: como o uso de "testes unitários" como tradução para "unit tests", em vez da forma correta "testes de unidade"; ou ainda, "a função retorna um determinado valor" (tradução de "return"), quando mais elegante seria "a função devolve um determinado valor".
Ademais, o sistema implementado é colaborativo, fazendo uso de inteligência coletiva, cujo propósito é combinar o conhecimento de várias pessoas para criar soluções e ferramentas mais poderosas. Mais especificamente, a partir de informações obtidas voluntariamente dos usuários, o software desenvolvido neste trabalho aperfeiçoa sua avaliação. Com esse objetivo, foram estudados e descritos algoritmos de aprendizagem de máquina.