Para tratar os grandes arquivos obtidos no site https://dumps.wikimedia.org/ os seguintes códigos em Python foram utilizados, junto com ferramentas como awk e sed: Scripts de conversão
Para buscar as páginas na Wikipedia em inglês o pacote Scrapy foi utilizado. O código da aranha pode ser baixado aqui