O kernel Linux é um dos projetos de Software Livre mais complexos e influentes da atualidade, sendo
desenvolvido de forma colaborativa há mais de três décadas por meio de um modelo baseado em revisões
públicas realizadas em listas de discussão por e-mail. Embora sistemas de controle de versão registrem as
alterações finais incorporadas à base de código, uma parcela significativa do esforço envolvido no processo
de desenvolvimento, incluindo revisões, testes, debates e rejeições de contribuições, permanece documentada
exclusivamente nessas listas de discussão. Diante desse cenário, este trabalho tem como objetivo principal a
construção de um dataset abrangente que possibilite a investigação dos processos sociais e técnicos que
antecedem a aceitação de contribuições no kernel Linux.
Na primeira parte deste trabalho, apresenta-se uma contextualização do desenvolvimento do kernel
Linux, bem como os principais softwares que dão suporte a esse processo. Na segunda parte, descreve-se
a metodologia empregada para a coleta, extração e estruturação dos dados, assim como os fundamentos
conceituais que orientam a obtenção de e-mails a partir do Kernel Lore Archive. Como resultado, é apresentado
o
LKML5Ws, um conjunto de dados com mais de 20 milhões de e-mails provenientes de 345 listas de discussão,
totalizando mais de 200 GB de dados brutos, compactados em mais de 55 GB de arquivos no formato Parquet.
Por fim, é apresentada uma análise exploratória com o LKML5Ws que demonstra seu potencial para revelar
diferenças na dinâmica de revisão e teste entre distintos subsistemas do Kernel, evidenciando tendências
divergentes na participação da comunidade ao longo do tempo, bem como propostas de usos futuros
para o dataset.
Esse conjunto de dados oferece uma visão ampla do desenvolvimento do kernel ao explicitar: no que
consiste cada contribuição (
what), quando ela foi proposta (
when), quem participou (
who), para qual lista
foi submetida (
where) e por que se tornou, ou não, parte do código (
why). Além disso, busca contribuir
para ampliar a base empírica disponível à comunidade de Engenharia de Software, oferecendo uma nova
perspectiva sobre os aspectos sociais e técnicos que moldam a evolução de um dos mais emblemáticos
projetos de Software Livre.
Nome: Eduardo Mendes Lopes
Orientadores: Paulo Meirelles e Rafael Passos
Monografia