O paradigma de supervisão distante
para extração de relações
Resumo
A extração de relações é uma das tarefas da extração de informações, cujo objetivo consiste em extrair relações semânticas entre entidades a partir de textos não estruturados. Por exemplo, da sentença de texto “Brasília é a capital federal do Brasil”, é possível perceber que as entidades Brasília e Brasil estão semanticamente relacionadas. A extração de relações é a tarefa responsável por extrair relações como essa de forma estruturada. Um dos grandes problemas encontrados ao realizar essa tarefa está no fato de que a produção de uma vasta quantidade de dados manualmente rotulados é um processo lento e custoso. Em uma tentativa de lidar com esse e outros problemas, um novo paradigma de aprendizado, chamado de supervisão distante, foi recentemente introduzido. No paradigma de supervisão distante, as informações de uma base de conhecimento externa são alinhadas heuristicamente com diversas sentenças de textos não estruturados para a obtenção dos dados de treinamento. Como a heurística utilizada pode ser violada, essa metodologia produz um vasto conjunto de dados rotulados ruidosos, fazendo com que uma série de cuidados precisem ser tomados para reduzir o impacto negativo desses ruídos sobre o desempenho de modelos na tarefa. Este trabalho visa produzir um texto introdutório à tarefa de extração de relações usando supervisão distante, discutindo as ideias centrais por trás do paradigma de supervisão distante, destacando algumas de suas limitações assim como melhorias alcançadas pelos avanços recentes nessa tarefa.
Principais tópicos
- Processamento de linguagem natural
- Extração de relações
- Supervisão distante