Trabalho de conclusão de curso

Ciência da Computação - IME USP

Reconhecimento de Ações Humanas em Imagens com Deep Learning

Aluno: Lucas Henrique Bahr Yau

Orientador: Roberto Hirata Jr.

Como a maioria dos problemas de reconhecimento de padrões em imagens, o reconhecimento de ações humanas é um problema complexo mesmo para a atualidade, devido aos diversos pontos a serem levados em conta. Alguns dos principais pontos são a definição de um ser humano em uma imagem e sua distinção do plano de fundo. Em geral, são utilizados modelos baseados nas redes neurais convolucionais (em inglês, Convolutional Neural Networks, ou CNN), que assemelham-se aos neurônios cerebrais, para análise e inferência sobre dados. Esta rede é particularmente eficiente para reconhecimento de padrões em imagens, pela sua capacidade de assimilar características (features) que, a princípio, são dificilmente distinguíveis pelo olho humano. Neste trabalho, foi utilizado uma CNN profunda, construída pelo Visual Geometry Group (VGG), um grupo de pesquisa sobre visão computacional da Universidade de Oxford. A CNN utilizada foi a VGG16, uma das diversas versões existentes. Com ela, foi realizado um experimento para verificar a plausibilidade do reconhecimento de ações humanas em imagens usando CNNs. Outro grande aspecto do trabalho é a rotulação de 5400 imagens de teste, seguindo critérios específicos.