Aluno: Lucas Paiolla Forastiere - 11221911
Supervisor: Ricardo Marcondes Marcacini
2022
Introdução do Tema: Detecção de sarcasmo é um importante tópico dentro do processamento de linguagem natural (PLN, ou NLP). Esse tema pode ser empregado em vários tipos diferentes de sistemas como de mineração de dados, de entendimento da linguagem natural ou de diálogo (como chatbots). Entretanto, a detecção de sarcasmo é difícil, pois é rara em muitas conversas e, muitas vezes, difícil até para nós humanos.
Objetivos do Trabalho: No artigo A Large Self-Annotated Corpus for Sarcasm, Mikhail Khodak et al. introduzem um conjunto de dados criado para treinamento e benchmark de sistemas de detecção de sarcasmo. Nosso objetivo é treinar e testar o modelo DeBERTa (Decoding-enhanced Deep Bidirectional Transformer with Disentangled Attention) nesse conjunto de dados, e comparar resultados com vários outros modelos mais clássicos, como o BERT.
Passos para Atingir os Objetivos: O cronograma de atividades estimadas segue abaixo. Planeja-se inicialmente coletar o córpus para realização dos experimentos. Depois disso, vamos fazer um modelo base utilizando as bibliotecas transformers e sentence-transformers. Ao terminar esse baseline, criaremos uma metodologia para comparação de modelo (planeja-se comparar com o modelo BERT) e de validação dos resultados. Em paralelo com isso, revisarei a literatura sobre detecção de sarcamos e uso de transformers para classificação de textos. Por fim, para o segundo semestre, o foco será em analisar os resultados obtidos utilizando várias métricas (entre elas, métricas subjetivas de explicabilidade dos modelos) e também será em finalizar a monografia.