TugaHue

Abstract

Gabriela Noriega. TugaHue: Use of machine learning and transformes to differentiate the national variates of the Portuguese language. Capstone Project Report (Bachelor). Institute of Mathematics and Statistics, University of São Paulo, São Paulo, 2023.

In this project, two mBERT and two BERTimbau models were fine tuned with two different datasets and evaluated over the DSL-TL dataset in order to assess their applicability for the task of automatic dialect identification with the two primary dialects/variates of concern being Brazilian Portuguese and European Portuguese. The training datasets used were the CETEN and CETEM journalistic corpora as well as a dataset comprised of a few international documents and their different official translations made by Brazil and Portugal. The results showed that BERTimbau based models outperfomed their mBERT counterparts by 80.44% vs 78.41% F1 score in the best case and 80.44% vs 57.60% F1 score in the worst case. Keywords: BERT. dialect identification. Portuguese dialects.

Keywords: BERT, dialect identification, Portuguese dialects.

Resumo

Gabriela Noriega. TugaHue: Uso de aprendizado de máquina e transformers para distinguir as variedades nacionais da língua portuguesa. Monografia (Bacharelado). Instituto de Matemática e Estatística, Universidade de São Paulo, São Paulo, 2023.

Neste TCC, dois modelos mBERT e dois modelos BERTimbau foram afinados (fine tuned) com dois datasets diferentes e avaliados sobre o dataset DSL-TL para avaliar sua aplicabilidade para a tarefa de identificação automática de dialetos/variedades da língua portuguesa, sendo as duas variedades de interesse a brasileira e a europeia. Os datasets de treinamento empregados foram os corpora jornalísticas CETEN e CETEM bem como umdataset formado por alguns poucos documentos internacionais e suas diferentes traduções oficiais feitas por Brasil e Portugal. Os resultados mostraram que os modelos baseados em BERTimbau se saíram melhores do que os modelos baseados em mBERT com 80.44% vs 78.41% no F1 score no melhor caso e 80.44% vs 57.60% no F1 score no pior caso.

Palavras-chave: BERT, identificação de dialeto, variantes da língua portuguesa.

Resumén

Gabriela Noriega. TugaHue: Uso de aprendizaje de máquina y transformers para distinguir las variedades nacionales de la lengua portuguesa. Monografia (Bacharelado). Instituto de Matemáticas y Estadística, Universidad de São Paulo, São Paulo, 2023.

En ese proyecto, dos modelos mBERT y dos modelos BERTimbau foran afinados (fine tuned) con dos datasets distinctos y evaluados sobre el dataset DSL-TL para evaluar su aplicabilidad para la tarea de identificación automática de dialectos/vareidades de la idioma portugués, sendo las dos variedades de interés la brasileña y la europea. Los datasets de treinamiento empleados form los corpora perodistas CETEN y CETEMasí como un dataset formado por algunos pocos documientos internacionales y sus differentes traduciones oficiales hechas por Brasil y Portugal. Los resultados muestran que los modelos baseados em BERTimbau foram mejores que los baseados em mBERT con 80.44 % vs 78.41 % en el F1 score en el mejor caso y 80.44 % vs 57.60 % en el F1 score en el peor caso.

Palabras-clave: BERT, identificaión de dialecto, dialectos del portugués.

Links

No work plan ever existed for this was an agile project.