- Prof. Fernanda Sousa – FEUP/CEDEC – Universidade do Porto
- FCUL – DEIO – Bloco C/2 – Piso 2 – Sala 2.2.14 – 14:30
- Quarta-feira, 22 de Outubro de 2003
O tema central desta apresentação é a classificação hierárquica, cuja aplicação a um conjunto de dados multivariados, tem por objetivo definir, sobre os elementos a classificar, partições ou hierarquias de partições ótimas, relativamente a um critério pré-estabelecido. As classes das partições resultantes devem ser homogéneas e bem separadas, isto é devem satisfazer a condição de que elementos de uma mesma classe sejam semelhantes entre si e elementos de classes diferentes devem ser dissemelhantes. O surgir de diverso software de fáceis acesso e utilização e a possibilidade de armazenar grandes conjuntos de dados, de difícil compreensão no seu todo e cuja utilidade depende da capacidade de extrair deles a informação principal, conduziram a uma crescente aplicação das metodologias multivariadas, em geral, e das de classificação, em particular. Este facto tem levado vários estatísticos a alertarem para alguns aspectos metodológicos, para as necessidades de controlar a aplicabilidade dos métodos e de implementar medidas de qualidade do produto final, de ajuda à interpretação e à tomada de decisões. A envolvente a este tipo de preocupações e consequentes contribuições para as suas resoluções será aqui designada por validação em classificação. Foi desenvolvida uma metodologia de validação em classificação hierárquica ascendente, que tem por base três componentes, a geração aleatória de árvores de classificação, os algoritmos de classificação hierárquica ascendente e a comparação dos diferentes tipos de estruturas que ocorrem em classificação. Serão apresentados dois novos processos de simulação de árvores de classificação, ou dendrogramas, estudadas as suas características teóricas e analisado o seu desempenho via simulação. Será analisado um conjunto de métodos de classificação hierárquica ascendente, com uma característica comum a de usarem estatísticas de tendência central para a definição dos critérios de agregação. Para os métodos propostos far-se-á uma discussão das propriedades teóricas, a análise dos algoritmos desenvolvidos para a sua implementação e o seu desempenho em dados reais. No que respeita à comparação dos diferentes tipos de estruturas classificatórias, será apresentado o estudo de um conjunto de coeficientes estatísticos ordinais disponíveis e a procura para obter coeficientes únicos para as diferentes comparações intervenientes.