Modelagem e análise dos dados do Portal de Revistas da USP

Proposta de trabalho

Neste trabalho, propõe-se um modelo de banco de dados orientado a grafos para os dados contidos no banco de dados relacional do Portal de Revistas da USP. Esse novo modelo visa atender dois objetivos principais:

  • viabilizar análises mais sofisticadas sobre os dados do portal, como a de detecção de comunidades, capaz de identificar as áreas de pesquisa dos autores e possíveis redes de colaboração entre eles;
  • facilitar a organização e a visualização das informações de acesso aos artigos do portal, considerando, inclusive, a geolocalização dos acessos.

Para atingir esses objetivos, primeiramente, foi necessário estudar a estrutura do banco de dados relacional do Portal de Revistas da USP e os dados contidos neste banco.

Os dados extraídos do banco do Portal de Revistas da USP tiveram que ser limpos e padronizados pois muitos continham erros de ortografia, estavam incompletos e/ou não tinham padrão. Os dados extraídos e utilizados foram os seguintes:

  • artigos: título, palavras-chave, resumo, DOI, revista em que foi publicado e a data em que foi submetido;
  • autores: nome, país a qual o autor pertence, artigos que publicou e nome da instituição a qual o autor é afiliado;
  • métricas (foram utilizados apenas as métricas do tipo acesso): tipo de acesso ao artigo, artigo sobre o qual estes acessos estão relacionadas, data do acesso, país e cidade de origem do acesso;
  • revistas: título, descrição, palavras-chave e instituição do editor.

Além disso, estudou-se e modelou-se um banco de dados orientado a grafos. Neste banco, foram criados sete tipos de nó: artigo, autor, revista, cidade, país, instituto e universidade.

Para as análises, foram estudados quatro métodos de detecção de comunidades: Girvan-Newman, Louvain, autovalores e autovetores da matriz de modularidade e passeios aleatórios. Além disso, foram construídos quatro grafos a partir do banco modelado para cada um dos experimentos elaborados.

Em todos os grafos construídos, os nós representavam os autores e as arestas representavam a publicação de um artigo entre dois autores, ou seja, foram utilizados, do banco de dados orientado a grafos, os nós do tipo autor e a relação entre os autores que publicaram algum artigo junto.

Com este trabalho, foi possível verificar que o método de Louvain é o que tem melhor desempenho e que o tempo de execução do método de Girvan-Newman é afetado pela quantidade de arestas no grafo (quanto mais denso o grafo, mais demorado este método é).

Além disso, também observou-se que todos os métodos tem um resultado similar quando o grafo tem uma estrutura que facilita a detecção de comunidades. E, verificou-se que os gráficos dos acessos a um artigo facilitam a visualização da difusão e do impacto de artigos nos níveis regional, nacional e internacional.

As etapas realizadas neste trabalho estão descritas no fluxograma abaixo.

Foram utilizados os dados do Portal de Revistas da USP. Para isso, houve a colaboração dos desenvolvedores do Sistema Integrado de Bibliotecas (SiBi) da USP.


Toggle Menu