Métodos de comparação de duas distribuições empíricas em amostras de grandes dimensões

Bolseiro:

Pedro Ferreira

Orientador(es):

Luísa da Conceição dos Santos do Canto e Castro de Loura, FCUL e CEAUL e Carina Soares da Silva, ESTeSL-IPL e CEAUL

Tipo de bolsa

Bolsa de Investigação (BI)

Estado do projeto:

Finalizada

Introdução

Um dos problemas mais correntes para investigadores em ciências experimentais é o de encontrar evidências que sustentem as suas hipóteses em termos de diferenças estatísticas ou semelhanças entre grupos. Os casos mais típicos envolvem quantificar a diferença de duas amostras em termos dos seus valores médios usando a estatística t ou outras medidas, como as métricas d ou U de Cohen. Em ambos os casos, o objetivo é quantificar o quão grandes essas diferenças devem ser para serem classificadas como efeitos significativos. No entanto, a maioria dessas medidas padrão requerem que algumas suposições de distribuição sejam usadas corretamente, como as de simetria, unimodalidade e formas paramétricas bem estabelecidas. Embora essas suposições garantam que as propriedades assintóticas para efeitos de inferência sejam satisfeitas, elas podem frequentemente limitar a validade e interpretabilidade dos resultados.
Por outro lado, analisar as semelhanças e diferenças de distribuições em amostras de grande dimensão é um problema difícil e as abordagens clássicas não conseguem dar a devida resposta.

Objetivos

Ilustrar, através de métodos de simulação, qual o problema da aplicação de testes de hipóteses clássicos quando se está perante amostras de muito elevada dimensão.
Fazer um levantamento das medidas de distância entre duas distribuições.
Desenvolver testes de equivalência múltiplos como alternativa aos testes de ajustamento clássicos e aplicá-los ao conjunto de dados reais.
Identificar qual ou quais os parâmetros que permitem identificar melhor as diferenças ou semelhanças entre os grupos.
Identificar quais as vantagens e desvantagens dos métodos abordados ao longo da tese.
Analisar o impacto da dimensão de grandes amostras nestas metodologias.
Aplicar as diversas medidas de distância a um conjunto de dados reais (classificações dos alunos do ensino secundário).

Síntese do Plano de Trabalho

Mostrar empiricamente, por recurso a simulação estocástica, que o valor-p dos testes de hipóteses clássicos se aproxima de zero à medida que aumenta a dimensão da amostra, mesmo sob validade da hipótese nula, designadamente para os testes de igualdade de valores médios e para os testes de ajustamento (Qui-Quadrado e Kolmogorov-Smirnov, entre outros) e ainda analisar o impacto da dimensão das amostras no effect size.
Fazer pesquisa bibliográfica sobre medidas de semelhança e de distância entre distribuições (AUC baseada em metodologia ROC, índice de sobreposição, distâncias de Hellinger, de Bhattacharyya, de Kulback-Liebler, entre outras).
Desenvolver uma rotina em R para aplicação da metodologia de teste de homogeneidade proposta em Lazariv e Lehmann (2018).
Aplicar, adicionalmente, testes de equivalência múltiplos para as proporções de classificações iguais a 7, 8, 9,…, usando a biblioteca TOSTER do R.
Identificar as vantagens e desvantagens dos diferentes métodos quando aplicados em distribuições discretas.
Avaliar o impacto de amostras de grandes dimensões na estimação das medidas sumárias e no desenvolvimento de scripts no R em termos de convergência dos algoritmos.
Comparar as distribuições das classificações obtidas no 3.º período pelos alunos do ensino secundário às disciplinas de Português, Filosofia, Educação Física e Matemática usando as metodologias e distâncias acima referidas.
Toda a análise será realizada com recurso ao software R.

Resultados Esperados

1 artigo; 1 poster e 1 comunicação oral em conferências internacionais