A análise filogenética de uma família de ácidos nucleicos ou proteínas é a determinação de como essa família pode ter sido derivada durante a sua evolução. As relações evolucionárias entre as seqüências são mostradas colocando-se as mesmas como ramos externos de uma árvore. As relações entre os ramos internos refletem o grau de relacionamento entre diferentes seqüências. Por exemplo, duas seqüências muito parecidas serão colocadas como ramos externos vizinhos que estarão unidos por um ramo comum. O objetivo da análise filogenética é descobrir todas as relações entre os ramos de uma árvore e os comprimentos desses ramos.
Esta análise permite o estudo das mudanças ocorridas durante a evolução de diferentes organismos e a evolução de uma família de seqüências. Quando uma família de genes é encontrada em um organismo ou em um grupo deles, relações filogenéticas entre os genes podem ajudar a prever quais deles podem ter funções equivalentes. Essas previsões podem então ser testadas por experimentos genéticos. A análise filogenética também pode ser utilizada para rastrear mudanças ocorrendo em organismos de rápida evolução, como os vírus. O levantamento dos tipos de alterações ocorridas em uma população pode ser uma importante fonte de informação para a epidemiologia.
Técnicas estatísticas sofisticadas estão disponíveis para inferência filogenética, como o implementado no método de máxima verossimilhança (descrito em [7]). Contudo, esses métodos não consideram o genoma como um todo, mas apenas alguns genes. E isso pode impor um problema quando são feitas tentativas de integrar esses dados com os obtidos através de inferências baseadas em alinhamento de genes.
Alternativamente, podemos comparar genomas e construir distribuições a partir de medidas de similaridade entre eles. Essas distribuições são comparadas e diversas de suas características são estudadas com relação à sua utilidade para agrupamento de genomas durante a reconstrução filogenética.
Neste projeto propomos o BlastPhen, um programa que implementa técnicas de agrupamento por similaridade de genomas completos, utilizando medidas estatísticas e métodos de comparação de distribuições.
Ricardo Nishikido Pereira 2004-12-06