Nome do aluno: Heitor Barroso Cavalcante
Nome da orientadora: Nina S. T. Hirata
Título do trabalho:
"Desvendando Viés em Visão Computacional: Um Estudo do Dataset PlantVillage"
Resumo do trabalho:
Nos dias atuais, a agricultura ainda tem muitas perdas em suas plantações devido às pragas (1). Por isso, o desenvolvimento de técnicas automatizadas para a detecção
precoce de doenças em plantas são um assunto de alto interesse para a sociedade. Em 2015, os pesquisadores David. P. Hughes e Marcel Salathe deram um passo
significativo nesse caminho: a construção do dataset PlantVillage (2). Esse é o maior e mais utilizado dataset de visão computacional aplicado ao domínio de
identificação de doenças em imagens de folhas de plantas (3). Infelizmente, apesar dos modelos de Aprendizado de Máquina implementados sobre esse dataset atingirem
ótimas métricas, eles não generalizam bem para dados reais (3), (4). Esse problema tem relação com a qualidade dos dados que constituem o dataset (4). Mais especificamente,
a performance excessivamente boa sugere que podem existir vieses no dataset que facilitem a tarefa de classificação. Portanto, o escopo desse trabalho é investigar
o dataset PlantVillage com o objetivo de identificar características enviesadas que prejudicam a qualidade dos dados e dos modelos de classificação de doenças de
plantas que foram treinados nesse dataset.
Proposta de trabalho:
Como dito no resumo do trabalho, a ideia é investigar possíveis vieses no dataset PlantVillage. Em um primeiro momento, tivemos a ideia de fazer um plot t-SNE da
separação dos dados produzida pelas camadas convolucionais da CNN que estamos utilizando para essa tarefa. Nesse plot, é possível identificar pares de clusters
com diferenças visíveis no balanço de branco e exposição. Além disso, é possível notar diferenças consideraveis entre os planos de fundo de algumas das classes
do dataset. Assim, estamos considerando 3 principais características do dataset podem constituir vieses:
Referências
(1) Scientific review of the impact of climate change on plant pests. (2021). FAO on behalf of the IPPC Secretariat. https://doi.org/10.4060/cb4769en
(2) Hughes, David. P.,& Salathe, M. (2015). An open access repository of images on plant health to enable the development of mobile disease diagnostics (Version 2).
arXiv. https://doi.org/10.48550/ARXIV.1511.08060
(3) Yao, J., Tran, S. N., Sawyer, S., & Garg, S. (2023). Machine learning for leaf disease classification: data, techniques and applications.
In Artificial Intelligence Review (Vol. 56, Issue S3, pp. 3571–3616). Springer Science and Business Media LLC. https://doi.org/10.1007/s10462-023-10610-4
(4) Noyan, M. A. (2022). Uncovering bias in the PlantVillage dataset (Version 1). arXiv. https://doi.org/10.48550/ARXIV.2206.04374