Avanços em Ciência de Dados no Paradigma de Análise de Dados Simbólicos (Symbolic Data Analysis – SDA)

Renata M. C. R. Souza

Universidade Federal de Pernambuco

Instituto Superior Técnico, Sala FA2 

8 outubro 2024 (terça-feira) – 16:30

Abstract:

Os avanços das tecnologias da informação e dos computadores têm permitido a possibilidade de armazenar grandes e múltiplas bases de dados e frequentemente estes dados podem ser não estruturados com variáveis definidas por múltiplos valores ou múltiplas unidades. Por exemplo, temperaturas diárias registadas por valores mínimos e máximos e preferência de usuários para analisar fenômenos por regiões ao invés de habitantes. A fim de reduzir o tamanho e melhorar a eficiência de modelos associados a esses dados, uma solução é obter novas unidades estatísticas para descrever os fenômenos via dados multivalorados. Em Análise de Dados Simbólicos (ADS) as entradas das bases de dados são novas unidades descritas por variáveis que não se limitam a serem valores reais uma vez que podem ser selecionados de uma lista mais ampla: conjuntos, intervalos, histogramas, árvores, gráficos, funções, fuzzy, etc. O objetivo de ADS é estender as técnicas estatísticas e aprendizagem de máquina (árvores de decisão, regras de classificação, redes neurais, análise fatorial) para dados mais complexos, chamados de dados simbólicos. Nesta última década, diferentes métodos de regressão e agrupamento para dados multivalorados têm sido propostos na literatura de ADS. Diferentes aplicações ilustram o uso desses métodos.

A joint CEAUL / CEMAT