Introdução

A REALIDADE

O surto de COVID-19 veio mudar as vidas de todos. Os impactos são muitos e as consequências ainda difíceis de prever. Uma das consequências foi tornar evidente que vivemos numa era em que existe tanta informação que na realidade é difícil perceber qual é a informação que vale a pena considerar. Entre comunicação social tradicional e redes sociais a escolha é imensa no que diz respeito à desinformação. Todos temos opiniões e há uma tendência para acreditar que todas as opiniões são válidas. Há inclusivamente uma tendência perigosa em acreditar que as opiniões são factos, se forem ditas por pessoas de referência. Nada mais falso, até porque as pessoas de referência são, hoje em dia, difíceis de identificar.

A DESINFORMAÇÃO

Nesse contexto, e deparando-nos nós no CEAUL com este problema também, achámos que seria útil promover uma disseminação de informação que possa ser considerada fidedigna e de referência no que diz respeito à COVID-19 em Portugal – pelo menos no que diz respeito a exposição dos dados, aos modelos, análise dos dados e previsões. A principal razão que nos levou a tomar esta decisão foi percebermos que são constantemente divulgados números sobre a COVID-19, e com base nesses números, análises e previsões, mas que estas previsões são frequentemente abusadas, em vez de usadas. Há uma tendência generalizada para esquecer que os modelos são frequentemente determinísticos e, mesmo quando não são, as previsões são reportadas sem medidas de precisão associadas. Há ainda o facto dos dados de base serem muitas vezes eles próprios de pouca qualidade, propagando as dúvidas para os resultados dos modelos e suas previsões.

QUANTIFICAR A INCERTEZA

A predição de qualquer processo é um fenómeno intrinsecamente estocástico, i.e. aleatório. E os processos estocásticos, a compreensão da variabilidade, saber como avaliar, quantificar e interpretar a variabilidade dos números, é a fundação e o objetivo da estatística. O CEAUL, como um centro de referência na área da investigação em Portugal, sente o peso da obrigação de contribuir para que o debate seja mais esclarecido no que diz respeito à aleatoriedade do processo. Este projeto conta também com a colaboração do CMAF-CIO (Centro de Matemática, Aplicações Fundamentais e Investigação Operacional).

Se alguém lhe diz que o pico da epidemia vai ser dia 14 de Abril, duvide. Ninguém sabe quando vai ser o pico da epidemia. Na melhor das hipóteses ou é alguém a ser citado fora de contexto, ou não percebeu porventura ainda aquilo que é óbvio para qualquer estatístico. Toda e qualquer predição envolve pelo menos duas fontes de incerteza: (1) a qualidade dos dados utilizados para fazer a previsão e (2) a qualidade do modelo utilizado. Na realidade, estas duas fontes interagem entre si e, muitas vezes, desenvolvemos modelos mais complicados porque percebemos que os dados não respeitam os pressupostos de modelos mais simples.

Este é um fenómeno bem conhecido em algumas áreas longe das pandemias. Quando tentamos contar quantos animais existem numa determinada população, com base numa amostra de animais detetados ao longo do tempo através de um qualquer processo de amostragem, enfrentamos os mesmos problemas. Há animais mais fáceis de ver do que outros, a sua detectabilidade varia ao longo do tempo e do espaço, há emigrações, imigrações, mortes e nascimentos que complicam as coisas se o período de tempo for longo, etc.

MODELOS E REALIDADE

Os modelos têm pressupostos, e uns ajustam-se aos dados melhor do que outros. Num caso como o que vivemos neste momento, a verdade é que há muitas pessoas a trabalhar dia e noite a tentarem fazer o melhor que conseguem para ajudar. Mas uma previsão sem uma medida de precisão é inútil. O pico da pandemia não vai ser dia x. Na melhor das hipóteses, é dia x sendo que tem uma probabilidade y de ocorrer entre a e b, sendo que x está lá no meio! E dizer que o nosso modelo era o melhor à posteriori porque acertámos é tão útil como ter um modo de saber quais os números do Euromilhões, mas que só funciona depois do sorteio do mesmo.

E em relação ao facto de se falar de um pico… nem sequer existe um pico. Aquilo que os especialistas discutem é um modelo, e existem muitos modelos possíveis. É um chavão da estatística dizer que “Todos os modelos são errados. Mas alguns são uteis.”. A dificuldade aqui está em perceber quais os modelos que são uteis.

SENSIBILIDADE E BOM SENSO

Este é um período complicado. Os cientistas têm de poder trabalhar sem serem atacados ou criticados por fazerem aquilo que fazem melhor. Pensar criticamente sobre problemas, com base em dados, e propor soluções. A implementação das soluções deve ser feita pela classe política, mas a classe política deve abster-se de tentar politizar os resultados científicos. Estes são natural e intrinsecamente incertos, e se os cientistas forem pressionados a apresentar certezas, de certeza que o resultado será mau. Até porque algumas das hipóteses que se devem colocar em cima da mesa podem ser politicamente incorretas. Mas só se alguém as colocar é que teremos em cima da mesa todas as armas necessárias para vencer esta guerra.

Assim sendo, neste website resolvemos disponibilizar uma série de recursos que pelo menos passaram pelo crivo critico de quem compreende bem a noção de modelo, de aleatoriedade e de previsão. Começamos por disponibilizar dados, porque os dados são a base do resto. Mas claro, nesse contexto, tentamos também providenciar uma discussão de quais os problemas inerentes aos dados e como podemos eventualmente usá-los para fazer previsões adequadas. Temos também uma página com links para outros recursos que consideramos de referência. À medida que formos desenvolvendo análises próprias serão também divulgadas, sempre com um comentário critico. Por fim, apresentamos ainda comentários e opiniões de quem olhou e pensou nos factos e nos números, os digeriu, e tenta torná-los mais percetíveis para a população. Numa tentativa de ajudar a comunidade em geral, reponderemos também a questões concretas que nos sejam colocadas sobre dados, modelação e previsões.