Como começar?

Carlos Geraldes

Nestes dias de quarentena ando a navegar de site para site procurando desesperadamente dados para o exercício da previsão. Neste processo deparo-me apenas com dados agregados, conclusões sobre conclusões que alguém já tinha concluído sobre um conjunto de dados que não têm nada a ver com aquilo que procuro. Apenas pretendo umas míseras observações ao nível do individuo que tenham em conta (e só isto peço) a idade, o sexo, a localização deste (código postal) e se está ou não infetado, e como foram obtidos (e este é um dos pontos cruciais para poder partir para a modelação). Os dados que se encontram disponíveis são, na sua maioria, agregados por faixas etárias e sexo. Mesmo assim, poder-se-iam ensaiar alguns modelos interessantes se não fosse um pequeno aspeto que, ou passa despercebido (na maioria dos países incluindo Portugal), ou não lhe é dada a devida importância. Falo do processo de amostragem.

Será que o processo de amostragem é um mísero detalhe, uma medida de zelo que os estatísticos inventaram para justificar a importância da sua própria existência?

Numa rápida leitura ao livro do Prof. Dinis Pestana “Introdução à Probabilidade e à Estatística”, apercebo-me que o autor começa com uma interrogação: “Como começar?”. Olhando para a floresta de modelos, modelitos, curvas e curvitas de previsão que ultimamente pululam nas redes sociais, jornais e revistas, diria que existe muita gente tão douta em métodos preditivos que esta pergunta “Como começar?” perde a sua relevância perto de tal brilhantismo.

Tão prontamente se constrói e publica um modelo de previsão que logo a seguir é imediatamente propagandeado pelos vários canais de comunicação. Depois surge a turba dos deslumbrados com os resultados divinatórios do modelo X, formando uma seita à volta do seu autor. Este vai acertando nas previsões, como uma espécie de bruxa, mesmo que estas (previsões) sejam apresentadas com intervalos onde cabe tudo, até uma baleia. Casos há em que nem os intervalos são apresentados.

Por sua vez, com o anseio em se encontrar a luz ao fundo do túnel, os brilhantes resultados dos modelos epidemiológicos publicados (cujas limitações não são do conhecimento geral) oferecem miragens como aquelas que os perdidos no deserto perseguem para encontrar a sua salvação.

Tentam-se assim, no meio destas falsas certezas, definir estratégias, delinear cenários e no meio disto tudo, a pergunta do Prof. Dinis Pestana, “Como começar?” fica para trás.

Parece efetivamente que esta pergunta perdeu o sentido uma vez que toda a gente já começou a responder a muitas perguntas não formuladas, exceto àquela que é fundamental “Como começar?”. É como diz o mesmo autor, “o difícil é inventar as perguntas certas, depois responder-lhes é mais fácil.”

E qual deveria ser a primeira pergunta? Provavelmente a mãe delas todas. “Como começar?”

E que tal se começássemos por exemplo por perguntar: Qual a proporção de infetados em cada dia na população portuguesa?

Será que a resposta se encontra nos números sinalizados com a doença que servem de base à maioria dos modelos, modelitos, indicadores e indicadorzinhos que têm saído cá para fora? Replicam os deslumbrados das seitas do modelo X – é claro que não, mas é uma aproximação.

Uma aproximação???? Olhando para um coeficiente simples de calcular como a taxa de letalidade que nada mais é do que a divisão do número de óbitos pelo número de infetados a multiplicar por 100%, conseguimos obter taxas de letalidade que variam desde 2,6% em Portugal, 9,5% em Espanha e 12,3% em Itália (números anunciados pela Ministra da Saúde em 5 de abril de 2020).

É mesmo assim! As taxas variam porque têm de variar! Replicam outra vez os deslumbrados da seita do modelo X. E qual o intervalo de confiança das verdadeiras taxas? Os pertencentes à seita do modelo X gritam: herege! herege! invocas o demónio dos intervalos de confiança para desacreditares a nossa fé!

Mas como ter alguma confiança nestes números, se o método de obtenção dos óbitos (que à partida é de fácil recolha) não se encontra isento de polémica, dependendo do critério de cada país¹?

Então que dizer do número de infetados? Ainda por cima com a possibilidade de existir um grande número de assintomáticos. E o problema é que tomam como exequível a tomada de decisões sobre modelos com dados inquinados pelos métodos de recolha existentes.

Os modelitos construídos sobre amostras truncadas e viciadas podem ser bons para casas de apostas, para substituir a paixão do futebol (que neste momento está parado) pela torcida do modelo X, mas, será que estes números servem para nos podermos adiantar à propagação do vírus?

Como diria Jacques de La Palice, depois da contenção vem a saída da quarentena e assim outra pergunta nos aflige. Como sair da quarentena sem começar uma segunda onda de infeção?

Para sairmos de casa temos de conhecer as previsões “meteorológicas” do vírus. Saber onde ele poderá estar, onde se esconde, qual a proporção de imunizados, de não infetados. Como saber estas proporções sem ter de efetuar testes massivos à população bastante caros?

Os velhos preceitos da estatística ensinam-nos que se não podemos gastar recursos a inquirir toda a população (censos), devemos então apostar na recolha de amostras representativas, onde se possa estudar a variabilidade das características de interesse. Como é óbvio ninguém à partida sabe se uma amostra recolhida é ou não representativa, no entanto para aumentar a possibilidade de o ser há que implementar a aleatoriedade e estratificação da amostragem. Estes velhos preceitos já há muito que nos dizem que esta é a forma mais barata e eficaz de se obter informação com qualidade.

Como se dúvida houvesse, pergunto, se não é com base neste procedimento que se obtêm previsões mais precisas e exatas em processos eleitorais. Com efeito, se o recurso às sondagens eleitorais permite obter valores de intenção de voto muito próximos da realidade porque é que não se investe neste método para diariamente se obter a tal “meteorologia” do vírus?

Qual o custo de uma sondagem eleitoral diária em todo o território nacional em termos de recursos humanos e financeiros? Com certeza menor que o proliferar de testes sem qualquer critério objetivo.

Assim, porque é que não se encara este problema como se tivéssemos quatro partidos? O partido dos infetados sintomáticos, o partido dos infetados assintomáticos, o partido dos imunizados e o partido dos não infetados?

Estes quatro partidos representam uma partição do espaço de resultados. O questionário a efetuar nesta situação teria de ser complementado com um teste (de realização e resultados rápidos) à presença do vírus COVID19.

As perguntas no questionário a elaborar deveriam ter como pano de fundo as perguntas certas a que o Prof. Dinis Pestana se refere. Aquelas que corresponderão às características a recolher (e.g. idade, sexo, localização geográfica do individuo, entre outras).

Entre outros modelos, este tipo de amostragem (aleatória e estratificada) efetuado por todo o território nacional permitiria a construção de modelos espácio-temporais que traduziriam o estado da arte diário da infeção em termos geográficos (e.g. risco de infeção por zonas). Assim, conseguiríamos não só obter uma imagem da “meteorologia” da doença como também obter a sua direção espácio-temporal e assim corrigir os modelos existentes. As previsões epidemiológicas seriam mais consistentes permitindo estudos em outras áreas do conhecimento que dependem fortemente destas previsões (e.g. modelos económicos, financeiros).

Assim, saio em defesa de se aplicar o método da amostragem aleatória como a mãe de todas as medidas respondendo à pergunta do Prof. Dinis Pestana “Como começar?”.

¹https://observador.pt/especiais/os-paises-contam-as-mortes-por-covid-de-forma-diferente-contagem-em-portugal-considera-mais-casos/