TCC Eduardo

LKML5Ws: Linux Mailing List Dataset

O kernel Linux é um dos projetos de Software Livre mais complexos e influentes da atualidade, sendo desenvolvido de forma colaborativa há mais de três décadas por meio de um modelo baseado em revisões públicas realizadas em listas de discussão por e-mail. Embora sistemas de controle de versão registrem as alterações finais incorporadas à base de código, uma parcela significativa do esforço envolvido no processo de desenvolvimento, incluindo revisões, testes, debates e rejeições de contribuições, permanece documentada exclusivamente nessas listas de discussão. Diante desse cenário, este trabalho tem como objetivo principal a construção de um dataset abrangente que possibilite a investigação dos processos sociais e técnicos que antecedem a aceitação de contribuições no kernel Linux.

Na primeira parte deste trabalho, apresenta-se uma contextualização do desenvolvimento do kernel Linux, bem como os principais softwares que dão suporte a esse processo. Na segunda parte, descreve-se a metodologia empregada para a coleta, extração e estruturação dos dados, assim como os fundamentos conceituais que orientam a obtenção de e-mails a partir do Kernel Lore Archive. Como resultado, é apresentado o LKML5Ws, um conjunto de dados com mais de 20 milhões de e-mails provenientes de 345 listas de discussão, totalizando mais de 200 GB de dados brutos, compactados em mais de 55 GB de arquivos no formato Parquet. Por fim, é apresentada uma análise exploratória com o LKML5Ws que demonstra seu potencial para revelar diferenças na dinâmica de revisão e teste entre distintos subsistemas do Kernel, evidenciando tendências divergentes na participação da comunidade ao longo do tempo, bem como propostas de usos futuros para o dataset.

Esse conjunto de dados oferece uma visão ampla do desenvolvimento do kernel ao explicitar: no que consiste cada contribuição (what), quando ela foi proposta (when), quem participou (who), para qual lista foi submetida (where) e por que se tornou, ou não, parte do código (why). Além disso, busca contribuir para ampliar a base empírica disponível à comunidade de Engenharia de Software, oferecendo uma nova perspectiva sobre os aspectos sociais e técnicos que moldam a evolução de um dos mais emblemáticos projetos de Software Livre.


Nome: Eduardo Mendes Lopes

Orientadores: Paulo Meirelles e Rafael Passos

Monografia