Proposta de trabalho de formatura
Identificação de mensagens veiculadas em redes sociais que sejam fonte de alertas de segurança
Nome do aluno: Jackson José de SouzaNome do supervisor: Prof. Daniel Macêdo Batista
Resumo da monografia a ser desenvolvida
A prevenção e a redução de incidentes de segurança computacional dependem da rápida propagação de alertas, tais como notificação de vulnerabilidades, atualizações de aplicativos e ameaças de ataques. O atraso na propagação de informações sobre novas ameaças é um problema sério na área de segurança de informação. De nada adianta, por exemplo, ter um firewall robusto se as regras dele não protegerem contra ataques descobertos recentemente, principalmente em se tratando de firewalls de grandes organizações que sejam alvo constante de ataques.
Contudo, as redes sociais são famosas pela rápida propagação de informações. Inclusive, estudos mostram que alertas de segurança veiculados nas redes sociais conseguem antecipar parte das mídias especializadas na notificação de alertas. Por conseguinte, a detecção de alertas de segurança propagados em redes sociais é um fator que ajuda em uma notificação mais rápida sobre problemas envolvendo segurança computacional. Consequentemente, a solução da falha de segurança pode ser corrigida mais rapidamente também.
Neste trabalho de conclusão de curso serão desenvolvidos métodos de detecção de tais alertas utilizando conceitos de aprendizado de máquina associados a conceitos de extração e análise de dados.
Objetivos do seu trabalho
O objetivo principal do trabalho é apresentar uma forma confiável para detecção de alertas de segurança no twitter. Para isso será aplicada aprendizagem supervisionada de máquina utilizando os classificadores ingênuo de bayes (naive bayes) e o support vector machine (SVM) para detectar os alertas de segurança.
A intenção final do trabalho é a adição do software desenvolvido a um sistema que possui o propósito de detectar, antecipadamente, alertas de segurança usando redes sociais como fonte de informação. O sistema está sendo desenvolvido como trabalho de apoio às teses de doutorado dos Mestres Artur Feitosa e Rodrigo Campiolo, ambos estuantes do programa de pós-graduação do IME-USP.
Atividades já realizadas
Foi feita a leitura de CAMPIOLO e SANTOS [1] para entender o problema, estudo de artigos na wikipedia relacionados a extração e análise de dados. Entre eles, classificação de documentos, sistemas de recomendação, segmentação de texto e etc.
Também foi feita uma reunião importante com os doutorandos que contribuíram para [1] para entender melhor como eles têm examinado os dados que eles possuem para estudar. Além disso, também tenho usado o código que eles produziram para aprender mais sobre os dados (tweets) que serão analisados e criei um script ruby que torna menos trabalhosa a classificação dos tweets que servirão como conjunto de testes do trabalho. Por fim, fiz uma breve revisão de alguns conceitos de aprendizado de máquina para pensar no problema de classificação supervisionado. Também foram feitas cerca de 8 reuniões regulares com o supervisor do trabalho e uma com a professora Nina que é pesquisadora da área de Aprendizagem computacional.
Cronograma de atividades
Atividade | Junho | Julho | Agosto | Setembro | Outubro | Novembro |
---|---|---|---|---|---|---|
Estudos de conceitos para o TCC | X | X | ||||
Preparação dos dados para análise | X | X | X | |||
Implementação | X | X | X | X | ||
Preparação do pôster e apresentação | X | X | ||||
Monografia (escrita e revisão) | X | X | X |
Estrutura esperada da monografia
Parte objetiva- Introdução
- Apresentação de conceitos de aprendizagem computacional e a análise de dados
- Implementação do software
- Experimentos e discussões
- Conclusões
- Bibliografia
- Desafios e frustrações
- Relação entre o trabalho e as disciplinas cursadas no BCC
- Próximos passos
Referências
[1] SANTOS, LUIZ ARTHUR F. ; CAMPIOLO, Rodrigo ; GEROSA, MARCO AURELIO ; BATISTA, DANIEL MACEDO . Análise de Mensagens de Segurança postadas no Twitter. In: Anais do simpósio brasileiro de sistemas colaborativos (SBSC), 2012, p. 20-28.