Medidas estatísticas

As primeiras medidas estudadas foram média, mediana e moda. Foram também estudadas as seguintes medidas de comparação de distribuições:

Notemos que as métricas citadas acima referem-se a distribuições contínuas, enquanto que neste projeto lidamos com distribuições discretas (de scores do Blast). Portanto, são criados histogramas para agrupar os scores e as integrais foram substituídas por somatórios. Um problema que pode ocorrer durante a construção dos histogramas é que, se os genomas em questão forem muito diferentes, os scores de sua comparação serão muito baixos. Assim, ao compararmos essa distribuição, que anteriormente chamamos de D2, com a distribuição D1 poderá acontecer de a primeira resumir-se a apenas uma classe do histograma. Para evitar esse problema, construímos o histograma de forma que a distribuição de menor footprint seja distribuída em 10 classes.

Um problema da distância de Kullback-Leibler é que ela não aceita que a função p0 assuma valores nulos. Como não lidamos com distribuições contínuas mas sim com histogramas, eventualmente classes do histograma da distribuição p0 assumem valores nulos. Por isso, tivemos que adaptar os histogramas para que nenhum valor fosse nulo, mas assumisse um valor baixo. Esse valor é calculado como sendo 5% do valor mínimo que uma classe possui, considerando as duas distribuições sendo comparadas.

É exatamente esse tipo de problema que a Skew procura resolver. Utilizando o parâmetro $ \alpha$, notamos que o problema é resolvido, sem termos que alterar os histogramas. A Skew defende a idéia de que é melhor utilizarmos uma versão aproximada da Kullback-Leibler do que utilizar a Kullback-Leibler em distribuições adaptadas.

Podemos observar as semelhanças entre as distâncias de Chernoff e Bhattacharyya. De fato, a distância de Bhattacharyya é um caso particular da de Chernoff, com o parâmetro t igual a $ {\frac{{1}}{{2}}}$. Essas distâncias foram testadas quanto à proximidade de seus resultados e foi verificado, empioricamente, que realmente a Bhattacharyya é uma boa aproximação da Chernoff. Um problema da Chernoff é que ela é computacionalmente difícil de ser calculada, enquanto que a Bhattacharyya é muito simples.

Embora as distâncias de Chernoff e Bhattacharyya aceitem que as distribuições assumam o valor zero em alguns pontos, optamos por fazer a mesma adaptação nos histogramas feita para a Kullback-Leibler. Isso porque sempre que uma distribuição for zero em um ponto, o elemento correspondente no somatório será zero, e como isso pode acontecer muitas vezes perderíamos muita informação.

Ricardo Nishikido Pereira 2004-12-06