Projeto
por ~miguelmello
Aprendizado Combinado
Introdução
Para treinar um modelo de aprendizado de máquina robusto é necessário reunir o maior conjunto de dados possível, entretanto nem sempre isso é possível. Uma área que sofre com escassez de dados é a área da saúde, pois como os dados estão atrelados a pacientes o compartilhamento de dados não pode ser realizado devido a questões legais. Nesse cenário, o aprendizado combinado pode ser uma solução.
O aprendizado combinado é uma técnica de aprendizado de máquina que permite que clientes distintos (hospitais diferentes, por exemplo) utilizem todo o conjunto de dados sem que haja compartilhamento de dados sensíveis. A técnica consiste em primeiro selecionar um modelo de aprendizado de máquina, em seguida esse modelo é compartilhado entre os clientes que treinam em seus respectivos conjuntos de dados e, após o treinamento, somente os parâmetros obtidos são compartilhados e então combinados. A combinação dos parâmetros resulta em um novo modelo que, por sua vez, é compartilhado entre as clientes que voltam a ajustar esse modelo em seus próprios dados. O processo é repetido até o modelo obter o desempenho de interesse.
Dois fatores na técnica de aprendizado combinado garantem a segurança e privacidade de dados. Primeiro, os dados não são compartilhados e nem precisam sair da máquina dos clientes, pois cada cliente realiza o treinamento na sua máquina e com seus próprios dados. Segundo, somente os parâmetros são compartilhados e é sabido que somente com eles é impossível obter os dados originais.
Objetivos
Para utilizar uma técnica é necessário saber sob quais condições ela funciona e quais não permitem o seu funcionamento ou utilização. Dessa forma, propõe-se explorar diversos cenários utilizando a versão de aprendizado combinada de um modelo de rede neural. É interessante explorar cenários variando a distribuição e homogeneidade dos dados entre os clientes. Também é interessante estudar técnicas que podem auxiliar na melhora de desempenho do modelo, como aumento de dados por meio de inserção de ruído.
Os testes a serem realizados envolvem treinar o mesmo modelo utilizando a forma tradicional, supondo que é possível treinar utilizando todo o conjunto de dados disponível, e treinar utilizando a técnica de aprendizado combinado. Com essas duas versões, uma comparação será realizada e espera-se obter um desempenho (acurácia, por exemplo) próximo entre as duas versões, o que validará a técnica de aprendizado combinado para o modelo de rede neural e tipo de dados escolhidos.
Cronograma - Proposto
- Até 31 de Março:
- Revisar conceitos importantes em aprendizado de máquina.
- Até 30 de Abril:
- Elaborar o texto do projeto
- Elaborar site do TCC e disponibilizar o texto do projeto.
- Até 20 de Maio:
- Selecionar o conjunto de dados a ser utilizado que tenha amostras o suficiente para executar na versão do treinamento distribuído.
- Selecionar um modelo de deep learning para ser estudado em sua versão de aprendizado combinado.
- Até 30 de Maio:
- Obter métricas do modelo selecionado utilizando o aprendizado tradicional.
- Explorar amostras em que o aprendizado combinado teria ganho de precisão devido ao sigilo de informações do conjunto de treinamento.
- Começar a escrever a monografia.
- Até 20 de Junho:
- Implementar o modelo escolhido na versão de aprendizado combinado.
- Coletar os resultados dos modelos treinados localmente comparando com o modelo centralizado e o modelo combinado.
- Até 30 de Junho:
- Variar os cenários de treinamento em relação a distribuição dos dados entre os modelos locais, coletar a precisão dos modelos.
- Continuar escrevendo a monografia.
- Até 30 de Julho:
- Utilizar técnicas para melhorar o desempenho do modelo de aprendizado combinado.
- Planejar e executar testes.
- Até 31 de Agosto:
- Interpretar os dados obtidos.
- Adicionar os dados à monografia.
- Até 30 de Setembro:
- Espaço para refazer testes, caso necessário.
- Escrever a conclusão da monografia.
- Até 31 de Outubro:
- Finalizar a monografia.
- Até 20 de Novembro:
- Elaborar a apresentação final.