Bolsa de Temas de Doutoramento

Para mais informações contactar a Comissão Executiva do CEAUL (ceceaul2017@ciencias.ulisboa.pt).

Temas de Doutoramento disponíveis

Nome dos Orientadores: Clara Cordeiro (UAlg, CEAUL), Conceição Amado (CEMAT, ULisboa- IST)

Breve resumo do plano de trabalho e objetivos a atingir: The abundance of smart meter data provides exciting opportunities for developing new methodologies appropriate to this high-frequency data. Missing observations, extreme values and other inconsistent data are problematic since they might affect results and compromise analysis.
Pre-processing data methods improves performances and are often used to achieve data quality of the study, needed to ensure a meaningful analysis and the interpretation of results. Based on these data, it is essential to understand its behaviour and choose an adequate time series model considering the data patterns. Most of these techniques have been primarily used in situations with one seasonal pattern. In some cases, such as electricity demand, more than one seasonal pattern is used (Taylor, 2010).
Machine learning techniques have the potential of improving the predictive performance of methods. So, their use jointly with statistical methods, such as bootstrap, can provide high benefits from its “training knowledge”. In addition, deep learning methods (e.g., recurrent neural networks) can model time series with complicated patterns and provide great predictability.
The accomplishment gained from this research will lead to a strong understanding of smart meter data and their use in management, interpretation and analysis in the water sector.

Requisitos: Applicants may be national or foreign, holding a degree/master degree in Statistics, Computer Science, Mathematics or related fields; and good computer skills working with R, python, or other.

Doutoramento: Universidade de Lisboa, na área de Estatística e Investigação operacional

Bibliografia: 

Taylor, J.W. (2010). Triple seasonal methods for short-term electricity demand forecasting. European Journal of Operational Research 204, 139-152.

Haimin Yang, Zhisong Pan, Qing Tao, “Robust and Adaptive Online Time Series Prediction with Long Short-Term Memory”, Computational Intelligence and Neuroscience, vol. 2017, Article ID 9478952, 9 pages, 2017. https://doi.org/10.1155/2017/9478952

Nome dos Orientadores: Clara Cordeiro (UAlg, CEAUL), Conceição Amado (CEMAT, ULisboa- IST)

Breve resumo do plano de trabalho e objetivos a atingir: Real-time observation systems and other dynamic situations often generate time series data continuously, both univariate and multivariate. Trend analysis, outlier detection, recognition of recurring patterns and prediction are common problems for analysing these type of data. This project proposal aims at developing and exploring effective methods for streaming time series data related to these problems. The topics to develop in this project will include a survey of existing methods, a comparison of traditional statistical methods with machine learning approaches and developing efficient methods for trend analysis, outlier detection, clustering and forecasting. Streaming data available from water systems sensors will provide applications of the developed methods. As the scope of this topic is large, it can be adapted to answer specific questions provided by the water utility managers.

Requisitos: Applicants may be national or foreign, holding a degree/master degree in Statistics, Computer Science, Mathematics or related fields; and good computer skills working with R, python, or other.

Doutoramento: Universidade de Lisboa, na área de Estatística e Investigação operacional

Bibliografia: 

Assent and P. Kranen and C. Baldauf and T. Seidl (2012). AnyOut: Anytime Outlier Detection on Streaming Data. DASFAA.

J. Sevcech and M. Bielikova (2015). Symbolic Time Series Representation for Stream Data Processing, IEEE Trustcom/BigDataSE/ISPA, 2015, pp. 217-222, doi: 10.1109/Trustcom.2015.586.

Papadimitriou, Spiros and Sun, Jimeng and Faloutsos, Christos (2005). Streaming Pattern Discovery in Multiple Time-Series. Proceedings of the 31st International Conference on Very Large Data Bases, pp 697–708, VLDB ’05, Trondheim, Norway.

Nome dos Orientadores: Rui Martins e Lisete Sousa(CEAUL e Faculdade de Ciências da Universidade de Lisboa) e Ivone Figueiredo (IPMA)

Breve resumo do plano de trabalho e objetivos a atingir: Modelos bayesianos hierárquicos de espaço de estados (SSM) são uma abordagem flexível que permite modelar, de uma forma muito realista, a dinâmica de populações. Esta aproximação têm vindo a ter um peso cada vez maior na comunidade científica que lida com a avaliação do estado de exploração e aconselhamento cientifico para a gestão de reservas de peixe nos oceanos. Actualmente são a espinha dorsal dos métodos estatísticos utilizados na problemática do aconselhamento cientifico para a gestão de pescarias. Os SSMs são modelo hierárquicos que permitem acomodar a modelação de duas séries temporais: 1) série temporal que não é observada e tenta refletir o verdadeiro, mas oculto, estado/processo da natureza; e 2) uma série temporal de observações ou medições relacionadas com as séries do estado. Por exemplo, o tamanho real da população de peixes ao longo do tempo seria a série temporal do estado, enquanto que as contagens incompletas e imprecisas de peixes amostrados, ou capturados durante a pesca, seriam as séries temporais das observações. Estas duas componentes estocásticas atuam em diferentes níveis da hierarquia do modelo, e a estrutura do modelo de espaço de estados permite que eles sejam modelados separadamente.

Um dos objectivos da tese é utilizar os modelos já existentes na literatura e desenvolvidos, por exemplo, em Mäntyniemi et al. 2015, como ponto de partida para novas propostas, as quais permitam expandir esses modelos para prever, em particular, como é que a abundância de goraz (Pagellus bogaraveo) na costa Portuguesa responde a diferentes níveis de pressão de pesca.

Também se sabe que as opiniões dos envolvidos no sector das pescas (pescadores, biólogos, etc) sobre o funcionamento de um ecossistema não são unânimes, uma vez que a observação/amostragem desse ecossistema é muito difícil. Por isso, pretende-se desenvolver um método para que o conhecimento por parte de diferentes especialistas da área seja levado em consideração na avaliação das abundância, modelando quantitativamente, e em conjunto, as suas respostas/opiniões por forma a construir uma distribuição a priori que reflicta este conhecimento. Os modelos individuais poderão ser fundidos num único modelo bayesiano ponderado. Como resultado, as opiniões dos diferentes peritos poderão ser incorporadas nos SSM a desenvolver.

Requisitos: Mestrado em Estatística, Bioestatística, Matemática, Ecologia ou áreas afins. Formação sólida em Estatística Bayesiana.

Doutoramento: Estatística e Investigação Operacional – Especialidade de Probabilidade de Estatística, Faculdade de Ciências da Universidade de Lisboa.

Bibliografia:

Auger-Méthé, M., Newman, K., Cole, D., Empacher, F., Gryba, R., King, A. A., … & Thomas, L. (2020). A guide to state-space modeling of ecological time series. arXiv preprint arXiv:2002.02001.

Pinho, M., Diogo, H., Carvalho, J., & Pereira, J. G. (2014). Harvesting juveniles of blackspot sea bream (Pagellus bogaraveo) in the Azores (Northeast Atlantic): biological implications, management, and life cycle considerations. ICES Journal of Marine Science, 71(9), 2448-2456.

Mäntyniemi, S. H., Whitlock, R. E., Perälä, T. A., Blomstedt, P. A., Vanhatalo, J. P., Rincón, M. M., … & Kuikka, O. S. (2015). General state-space population dynamics model for Bayesian stock assessment. ICES Journal of Marine Science, 72(8), 2209-2222.

Temas de Doutoramento atribuídos

Tipo de Bolsa: Nacional ou Mista

Nome dos Orientadores: Giovani Silva (CEAUL & Departamento de Matemática do Instituto Superior Técnico), Nuno Sepúlveda (CEAUL & Charité Universitatsmedizin Berlin) e Carlos Daniel Paulino (CEAUL & Faculdade de Ciências da Universidade de Lisboa).

Breve resumo do plano de trabalho e objetivos a atingir: O estudo da mortalidade de algumas doenças tem sido realizado recentemente a partir do mapeamento destas por pequenas áreas. É o caso de doenças com maior taxa de mortalidade mundial como as doenças cardiovasculares ou neoplasias, e de doenças autoimunes como artrite reumatoide, lúpus eritematoso sistémico e esclerose múltipla. Em Portugal uma boa fonte de informação sobre a evolução dessas doenças é a base de dados de morbilidade hospitalar (BDMH), disponível através de protocolo entre a Administração Central do Sistema de Saúde (ACSS) e a Faculdade de Ciências da Universidade de Lisboa (FCUL). Este trabalho visa estudar e aplicar modelos espaço-temporais para explicar a variação geográfica associada ao risco de morte pela doença e a sua evolução ao longo dos anos. Nesse sentido, pretende-se em particular considerar modelos Poisson hierárquicos com efeitos aleatórios espacialmente correlacionados e efeitos temporais autorregressivos, sob uma perspetiva bayesiana. Com base nesses modelos, pode-se analisar conjuntamente a mortalidade e a duração do internamento dos pacientes hospitalizados, cuja dependência é neles introduzida através de efeitos aleatórios espaciais, sendo a análise processada por métodos de Monte Carlo baseados em cadeias de Markov (MCMC). Os objetivos concretos a atingir são: i) identificar efeitos temporais não lineares e de desfasamento; ii) produzir mapas com os riscos relativos das doenças em cada área de estudo; iii) predizer o número de mortes de doenças e a duração dos internamentos hospitalares produzindo um sistema de deteção de surto a nível nacional para acelerar uma redução de doenças em Portugal.

Requisitos:  Bons conhecimentos em Modelos de Regressão, Análise de Sobrevivência ou Estatística Bayesiana. Habilidade em trabalhar com software estatístico (e.g., R).

Doutoramento: Programas de Doutoramento da Universidade de Lisboa, na área da Probabilidade e da Estatística.

Bibliografia: 

Paulino, C.D., Amaral Turkman, M.A., Murteira, B. e Silva, G.L. (2018). Estatística Bayesiana – 2ª edição. Fundação Calouste Gulbenkian, Lisboa (601p). 

Silva, G.L., Dean, C.B, Niyonsenga, T., Vanasse, A. (2008), Hierarchical Bayesian spatiotemporal analysis of revascularization odds using smoothing splines. Statistics in Medicine, 27, 2381-2401. 

Stresman, G., Sepúlveda, N.}, Fornace, K., Grignard, L., Mwesigwa, J., Achan, J., Miller, J., Bridges, D.J., Eisele, TP., Mosha, J., Lorenzo, P.J., Macalinao, M.L., Espino, F.E., Tadesse, F., Stevenson, J.C., Quispe, A.M., Siqueira, A., Lacerda, M., Yeung, S., Sovannaroth, S., Pothin, E., Gallay, J., Hamre, K.E., Young, A., Lemoine, J.F., Chang, M.A., Phommasone, K., Mayxay, M., Landier, J., Parker, D.M., Von Seidlein, L., Nosten, F., Delmas, G., Dondorp, A., Cameron, E., Battle, K., Bousema, T., Gething, P., D’Alessandro, U., Drakeley, C. (2020). Association between the proportion of Plasmodium falciparum and Plasmodium vivax infections detected by passive surveillance and the magnitude of the asymptomatic reservoir in the community: a pooled analysis of paired health facility and community data. Lancet Infectious Diseases, 20(8), 953-963.

Tipo de Bolsa: Nacional ou Mista

Nome dos Orientadores: Soraia Pereira (CEAUL) e Tiago Marques (CEAUL/DBA/University of St Andrews)

Breve resumo do plano de trabalho e objetivos a atingir: The increasing accessibility to data with complex spatial structures brings the need to the development of methodologies that allow to deal with such features. In particular, when the data are point-referenced and we are interested in their spatial distribution, spatial point processes are the natural approach. The traditional models for such processes are divided in three main areas, depending on the spatial pattern: Poisson models; Cox and cluster models; and Gibbs models (Baddeley et al., 2015; Moller and Waagepetersen, 2003). Whereas Poisson models are adequate to model spatial random patterns where the points are independent from each other, Cox and cluster models are more adequate for aggregation patterns, and Gibbs models for regularity patterns. However, this classification in three types of patterns might be a rough approximation under some real life scenarios. We can see many patterns in the nature that are aggregated at some scale and regular at another. We can also see different levels of aggregation in the same pattern. Here we propose to develop models that allow to deal with different types of interactions at different scales.

Requisitos: Bons conhecimentos de modelos de regressão, análises espaciais e espacio-temporais. Domínio de programação, sendo fator preferencial dominar o ambiente/software R.

Doutoramento: Estatística e Investigação Operacional – Especialidade de Probabilidade de Estatística, Faculdade de Ciências da Universidade de Lisboa.

Bibliografia:

  • Andersen, I. T. and Hahn, U. (2016), “Matérn thinned Cox processes,” Spatial Statistics, 15, 1–21.
  • Baddeley, A., Rubak, E., and Turner, R. (2015), Spatial Point Patterns: Methodology and Applications with R, London: Chapman and Hall/CRC Press.
  • Baddeley, A. and Turner, R. (2005), “spatstat: An R Package for Analyzing Spatial Point Patterns,” Journal of Statistical Software, 12, 1–42.
  • Baddeley, A., Turner, R., Mateu, J., and Bevan, A. (2013), “Hybrids of Gibbs Point Process Models and Their Implementation,” Journal of Statistical Software, 55, 1–43.
  • Brix, A. and Diggle, P. J. (2001), “Spatiotemporal prediction for log-Gaussian Cox processes,” Journal of the Royal Statistical Society: Series B (Statistical Methodology), 63, 823–841.
  • Moller, J. and Waagepetersen, R. (2003), Statistical inference and simulation for spatial point processes, Chapman & Hall. Park, T. and Casella, G. (2008), “The Bayesian Lasso,” Journal of the American Statistical Association, 103, 681–686.
  • Raeisi, M., Bonneu, F., and Gabriel, E. (2021), “A spatio-temporal multi-scale model for Geyer saturation point process: Application to forest fire occurrences,” Spatial Statistics, 41, 100492.
  • Simpson, D., Illian, J. B., Lindgren, F., Sørbye, S. H., and Rue, H. (2016), “Going off grid: computationally efficient inference for log-Gaussian Cox processes,” Biometrika, 103, 49–70.
  • Taylor, B. M. and Diggle, P. J. (2014), “INLA or MCMC? A tutorial and comparative evaluation for spatial prediction in log-Gaussian Cox processes,”
    Journal of Statistical Computation and Simulation, 84, 2266–2284.
  • Tibshirani, R. (1996), “Regression shrinkage and selection via the Lasso,” Journal of the Royal Statistical Society: Series B, 58, 267–288.