Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões

Bolseiro:

Pedro Ferreira

Orientador(es):

Luísa da Conceição dos Santos do Canto e Castro de Loura, FCUL e CEAUL e Carina Soares da Silva, ESTeSL-IPL e CEAUL

Tipo de bolsa

Bolsa de Investigação (BI)

Estado do projeto:

Finalizada

Introdução

Um dos problemas mais correntes para investigadores em ciências experimentais é o de encontrar evidências que sustentem as suas hipóteses em termos de diferenças estatísticas ou semelhanças entre grupos. Os casos mais típicos envolvem quantificar a diferença de duas amostras em termos dos seus valores médios usando a estatística t ou outras medidas, como as métricas d ou U de Cohen. Em ambos os casos, o objetivo é quantificar o quão grandes essas diferenças devem ser para serem classificadas como efeitos significativos. No entanto, a maioria dessas medidas padrão requerem que algumas suposições de distribuição sejam usadas corretamente, como as de simetria, unimodalidade e formas paramétricas bem estabelecidas. Embora essas suposições garantam que as propriedades assintóticas para efeitos de inferência sejam satisfeitas, elas podem frequentemente limitar a validade e interpretabilidade dos resultados.
Por outro lado, analisar as semelhanças e diferenças de distribuições em amostras de grande dimensão é um problema difícil e as abordagens clássicas não conseguem dar a devida resposta.

Objetivos

  • Ilustrar, através de métodos de simulação, qual o problema da aplicação de testes de hipóteses clássicos quando se está perante amostras de muito elevada dimensão.
  • Fazer um levantamento das medidas de distância entre duas distribuições.
  • Desenvolver testes de equivalência múltiplos como alternativa aos testes de ajustamento clássicos e aplicá-los ao conjunto de dados reais.
  • Identificar qual ou quais os parâmetros que permitem identificar melhor as diferenças ou semelhanças entre os grupos.
  • Identificar quais as vantagens e desvantagens dos métodos abordados ao longo da tese.
  • Analisar o impacto da dimensão de grandes amostras nestas metodologias.
  • Aplicar as diversas medidas de distância a um conjunto de dados reais (classificações dos alunos do ensino secundário).

Síntese do Plano de Trabalho

Mostrar empiricamente, por recurso a simulação estocástica, que o valor-p dos testes de hipóteses clássicos se aproxima de zero à medida que aumenta a dimensão da amostra, mesmo sob validade da hipótese nula, designadamente para os testes de igualdade de valores médios e para os testes de ajustamento (Qui-Quadrado e Kolmogorov-Smirnov, entre outros) e ainda analisar o impacto da dimensão das amostras no effect size.
Fazer pesquisa bibliográfica sobre medidas de semelhança e de distância entre distribuições (AUC baseada em metodologia ROC, índice de sobreposição, distâncias de Hellinger, de Bhattacharyya, de Kulback-Liebler, entre outras).
Desenvolver uma rotina em R para aplicação da metodologia de teste de homogeneidade proposta em Lazariv e Lehmann (2018).
Aplicar, adicionalmente, testes de equivalência múltiplos para as proporções de classificações iguais a 7, 8, 9,…, usando a biblioteca TOSTER do R.
Identificar as vantagens e desvantagens dos diferentes métodos quando aplicados em distribuições discretas.
Avaliar o impacto de amostras de grandes dimensões na estimação das medidas sumárias e no desenvolvimento de scripts no R em termos de convergência dos algoritmos.
Comparar as distribuições das classificações obtidas no 3.º período pelos alunos do ensino secundário às disciplinas de Português, Filosofia, Educação Física e Matemática usando as metodologias e distâncias acima referidas.
Toda a análise será realizada com recurso ao software R.

Resultados Esperados

1 artigo; 1 poster e 1 comunicação oral em conferências internacionais