COMPARAÇÃO DE SEQUÊNCIAS GENÓMICAS UTLIZANDO A DISTÂNCIA DE HAMMING

 

  • Prof. Doutora Hildete Prisco Pinheiro – Departamento de Estatística – UNICAMP-SP, BRASIL
  • FCUL (DEIO) – Campo Grande – Bloco C/6 – Piso 4 – Sala 6.4.30 -14:30
  • Quinta-feira, 15 de Julho de 2004
 
 A maioria dos problemas na análise de sequências genómicas é essencialmente estatística. Em análise de sequências genómicas, tipicamente encontramos dados com um grande número (K) de posições ou sítios e, em cada posição, temos uma resposta categorizada qualitativa, nucleotídeo (ou aminoácido), com quatro (ou vinte) categorias se uma sequência de DNA (ou aminoácidos). Tendo em vista a grande dimensão que envolve esse tipo de conjuntos de dados e as dificuldades usuais computacionais e físicas de se obterem grandes amostras (no sentido de número de sequências), devemos preocupar-nos com teorias assintóticas. O objectivo deste trabalho é estender os testes de homogeneidade de grupos propostos por Pinheiro et alii (2001) em duas vias. A primeira por uma correção de ordem superior na soma de quadrados, onde melhoramos o poder e o tamanho do teste para pequenas e médias amostras, sem intensificar de forma substancial as dificuldades computacionais. A Segunda através da utilização de uma estatística de teste alternativa para o problema de homogeneidade, que é computacionalmente mais simples mas que necessita de maiores cuidados quanto à distribuição assintótica. Por essa razão, uma das maneiras de utilizá-la na prática é através de testes não paramétricos de permutação. Nesse método, um teste de hipótese unicaudal é considerado e a decomposição clássica de análise de variância pode ser diretamente adaptada a medidas amostrais baseadas na distância de Hamming, sem necessariamente utilizar seus segundos momentos. Alguns resultados teóricos de U-estatísticas serão úteis para a decomposição da estatística do teste e para encontrar sua distribuição assintótica. Uma aplicação desse teste a dados reais é mostrada e o p-valor da estatística do teste é encontrado via métodos de reamostragem como bootstrap. Palavras-chave: Distribuição assintótica; Bootstrap; Dados categorizados; Genoma; Distância de Hamming; Nucleotídeo; Métodos não paramétricos; Estatística Genética; U-estatística.