Aluno: Daniel Silva Lopes da Costa. NUSP: 11302720
Orientador: Msc. Igor Cataneo Silveira
Orientador: Prof. Dr. Denis Deratani Mauá
O ENEM (Exame Nacional do Ensino Médio) é uma avaliação realizada anualmente no Brasil, voltada para medir o desempenho acadêmico dos estudantes ao final da educação básica. Suas notas são amplamente utilizadas no acesso ao ensino superior, tanto em universidades públicas quanto privadas. A redação, uma parte essencial do exame, avalia a capacidade dos candidatos de articular ideias, argumentar e escrever de forma coesa e coerente.
Este trabalho avalia o desempenho dos modelos de linguagem LLaMA e Gemini na tarefa de correção automática de redações do ENEM, com foco na atribuição de notas para as cinco competências exigidas. A análise foi estruturada em duas fases principais: a exploração de diferentes padrões de prompts, como persona, cadeia de pensamento, template e contextual, e a utilização dos modelos como insumos para algoritmos supervisionados de aprendizado de máquina. Neste estudo, utilizou-se o XGBoost.
Os resultados indicaram que ajustes no formato dos prompts, especialmente os padrões contextualizados e em cadeias de pensamento, podem melhorar significativamente a precisão e a consistência das respostas geradas pelos modelos. Além disso, as saídas desses modelos, combinadas com métricas geradas por ferramentas de extração de características do texto, como o NILC-Metrix, mostraram-se relevantes para a construção de modelos supervisionados mais robustos.
O trabalho também introduz um dataset estendido, com a inclusão de redações nota mil — constituído de redações nota 1000 do ENEM disponíveis em veículos públicos online —, que pode ser usado em conjunto com outros datasets para mitigar desequilíbrios nas distribuições de notas e enriquecer a base de dados disponível para a pesquisa. Apesar dos avanços, desafios como a escassez de redações com notas muito baixas e a necessidade de maior transparência nos modelos utilizados permanecem.
Contribuindo para o desenvolvimento de ferramentas mais eficientes e acessíveis, este estudo reforça o potencial dos grandes modelos de linguagem na transformação da avaliação educacional, apontando caminhos para pesquisas futuras em técnicas de aprendizado supervisionado e engenharia de prompts, como a validação dos resultados encontrados e a exploração da combinação dos padrões de prompt.