A malinterpretación dos datos da pandemia da Covid-19: o dano na confianza do público

Máis dunha vintena de persoas expertas en Estatística e Saúde Pública abordan neste texto os problemas que xurdiron durante a crise en España

A falta de transparencia e os distintos criterios á hora de transmitir os datos dificultan a comunicación coa cidadanía e afectan á confianza, advirten os expertos.
A falta de transparencia e os distintos criterios á hora de transmitir os datos dificultan a comunicación coa cidadanía e afectan á confianza, advirten os expertos.

* Un artigo de

Dúas cartas publicadas en The Lancet e The Lancet Public Health nos últimos meses defenden a necesidade de avaliar de forma independente a resposta española fronte á Covid-19. Estamos de acordo, pero gustaríanos complementalas con tres puntos que nos achegan á ciencia aberta. Referímonos á confusión terminolóxica, a calidade dos datos e a súa dispoñibilidade.

Segundo as cartas, unha das razóns polas que España se viu máis afectada pola pandemia é a pouca confianza que hai no asesoramento científico. Cremos que gran parte desta desconfianza está ocasionada por unha importante confusión terminolóxica. Esta prodúcese en practicamente todos os medios de comunicación (con notables excepcións), e conduce a unha malinterpretación dos datos e, como consecuencia, a unha perda de confianza nos sistemas de información sanitaria, na investigación e a epidemioloxía.

Casos novos ou positivos? Sospeitosos ou confirmados? A importancia do contexto e a terminoloxía

Cando falamos de confusión terminolóxica non só nos diriximos a investigadores, senón a comunicadores e divulgadores. A súa responsabilidade é que a sociedade non se confunda e poida tamén entender e combater a pandemia.

Oímos recentemente falar de “casos positivos” (ou, a miúdo, simplemente “positivos”), que moitas veces confúndense cos “casos novos”.

Os casos positivos son os que deron positivo nunha proba para detectar o SARS-CoV-2, desenvolvesen Covid-19 ou non

Os casos positivos son aqueles que deron positivo nalgunha proba diagnóstica (PCR ou test rápido). É dicir, persoas infectadas por SARS-CoV-2, desenvolvesen Covid-19 ou non.

Os casos novos (“incidentes”) son os que deron positivo por primeira vez. De feito, os casos positivos non só inclúen os casos novos, senón que tamén inclúen aqueles que xa deran positivo previamente (a miúdo máis dunha vez) e volvérono a dar noutra proba diagnóstica.

Por tanto, os casos positivos contabilizan máis dunha vez os mesmos casos.

Isto fai que sexa frecuente que, dun día para outro, aumente o número de casos positivos (que dependen do número de probas realizadas) e diminúa o número de casos novos. Dos dous conceptos, o relevante para a investigación epidemiolóxica é o de “casos novos” ou “incidencia” da enfermidade. É dicir, o número de casos novos nun período de tempo determinado.

Fonte: Sergas.
Fonte: Sergas.

Cando se informa dos casos positivos sempre se debería acompañar da información sobre casos novos, xa que é o concepto que realmente informa do contaxio. Ademais, deberíase utilizar sempre o mesmo período temporal. Por exemplo, casos novos nas últimas 24 horas ou incidencia acumulada na última semana. No seu lugar, a miúdo utilízanse indistintamente e sen diferenciar.

Tamén sería importante acompañar esta información co número de probas positivas entre as realizadas (“taxa de positividade”), útil para coñecer indirectamente a calidade do rastrexo. Valores baixos indican que este é mellor e que se están realizando probas non só a persoas con síntomas.

Positividade das PCR en Galicia. Fonte: Sergas.
Positividade das PCR en Galicia. Fonte: Sergas.

Por outra banda, adoitan confundirse “casos confirmados” con “casos sospeitosos”. Os casos confirmados son os casos positivos. Os sospeitosos son as persoas que nalgún momento presentaron síntomas e un profesional sanitario clasificounos como posible caso, pero non teñen unha proba diagnóstica con resultado positivo.

Outro termo que habería que considerar en todas as estatísticas é o de “casos activos”. Defínese como persoas infectadas ( PCR positivos, desenvolvesen ou non a enfermidade), menos as curadas (tanto infectadas asintomáticas como curadas da covid-19) e as falecidas.

En xeral, non se dispón destes datos (o Ministerio de Sanidade non facilita datos de persoas curadas). Ademais, deberíase discriminar entre persoas infectadas e enfermas.

É posible mellorar a calidade dos datos? Definimos todos igual a mortalidade?

Parte da desconfianza da sociedade e da baixa calidade dalgúns traballos de investigación están ocasionadas por problemas na calidade dos datos.

Este é un problema estrutural causado pola diversidade de criterios usados na recollida sistemática de datos clínicos. Noutras palabras, é un erro asociado á recollida dos datos e non un fallo causado pola pandemia. Como dicía un dos máis prestixiosos estatísticos da medicina, Douglas Altman, “para maximizar o beneficio para a sociedade, non só necesítase investigar, senón facelo ben”.

Por ese motivo, preguntarse pola calidade dos datos (tamén pola súa transparencia, validez, integridade, relevancia, exhaustividad, utilidade, xeneralización, obxectividade, e fiabilidade) e os seus deseños é algo fundamental.

É coñecida a discrepancia sobre as cifras de mortalidade como consecuencia da Covid-19. A partir do 11 de maio, as comunidades autónomas notifican diariamente os casos confirmados de forma individualizada ao Ministerio de Sanidade, que os publica na internet. Segundo este informe, ata o 30 de outubro producíronse 35.878 mortes en toda España e, por poñer un exemplo, 5.991 en Cataluña. Con todo, segundo a Generalitat, nesta Comunidade Autónoma producíronse 13.955 mortes ata ese día.

O exceso de mortalidade en España supera os 58.000 falecementos, aínda que non todos se deben á Covid-19

A diferenza débese á definición da mortalidade como consecuencia da Covid-19: “falecidos confirmados”, segundo o Ministerio de Sanidade; “falecidos confirmados e sospeitosos”, segundo a Generalitat de Cataluña. É certo que esta última definición reflicte mellor a situación, pero tampouco proporciona o número real de falecidos.

Segundo as estimacións do exceso de mortalidade realizadas polo Centro Nacional de Epidemioloxía do Instituto de Saúde Carlos III, o 25 de outubro produciuse un exceso de 58.389 defuncións no conxunto de España (44.585 entre o 11 de marzo e o 9 de maio e 9.074 entre o 1 de setembro e o 25 de outubro) e 13.245 en Cataluña (11.922 entre o 13 de marzo e o 8 de maio e 778 entre o 9 de setembro e o 25 de outubro). Isto implica uns 700 falecidos menos que a cifra proporcionada pola Generalitat de Catalunya. Debe sinalarse, ademais, que o MoMo contabiliza a mortalidade bruta. É dicir non todo o exceso de mortes é debido á Covid-19.

Outro concepto que debe considerarse é o de “letalidade”, é dicir, aquelas mortes producidas pola propia infección viral. Neste caso a causa inicial ou fundamental do falecemento é a Covid-19. Non é o mesmo morrer por esta enfermidade que morrer cunha infección por SARS-CoV-2. En ambos os casos a PCR sería positiva, pero as cifras de mortes non distinguen entre estas posibilidades.

Tamén é coñecido o problema sobre o número de falecidos como consecuencia da Covid-19 en centros residenciais de persoas maiores. Un documento interno do Ministerio de Sanidade estima que, ata agosto, 19 .672 persoas faleceron nesas residencias con Covid-19 ou síntomas similares (aproximadamente a metade confirmados e a outra metade, sospeitosos).

Non é o mesmo morrer por Covid-19 que morrer cunha infección por SARS-CoV-2, pero sendo a causa última da morte outra patoloxía

Con todo, o propio Ministerio de Sanidade recoñeceu a baixa calidade dos datos, que as Comunidades Autónomas non achegan de forma regular nin homoxénea. Isto provoca erros nas datas de falecemento, nas causas de morte, na suma de residentes, ou incoherencias na evolución temporal (por exemplo, diminucións no número de falecidos). Ademais, algunhas comunidades non contan como falecidos a residentes que morreron en hospitais, mentres que outras distinguen as persoas falecidas en distintos tipos de residencias.

Medimos todos igual a incidencia da Covid-19?

As discrepancias tamén se atopan na incidencia da enfermidade. Os datos mostrados polo Centro Europeo para o Control e a Prevención de Enfermidades (ECDC, polas súas siglas en inglés), axencia europea que recolle datos oficiais proporcionados polos Gobernos, coinciden cos mostrados polo Ministerio de Sanidade, provedor deses mesmos datos, só en termos acumulados (337.334 casos confirmados en España ata o 13 de agosto de 2020). Con todo, difiren moito nos datos de incidencia diaria e semanal.

Así, segundo o ECDC, a incidencia na semana do 10 ao 16 de agosto foi de 28.451 casos. Segundo o Ministerio de Sanidade, foi de 16.269 casos (calculado como a diferenza entre os casos acumulados ata o luns 17 de agosto e os acumulados ata o venres 14 de agosto, debido a que, desde o 4 de xullo, o Ministerio non publica datos as fins de semana) ou 10.516 casos (calculado como a suma da incidencia diaria desde o luns 10 ao venres 14 de agosto, ambos os incluídos).

Todos os días desa semana, a incidencia diaria proporcionada polo Ministerio foi moito menor que a proporcionada polo ECDC (desde un 45% inferior o venres 14, ata un 83% o luns 10). Estas diferenzas, que desafortunadamente non son esporádicas, non poden explicarse exclusivamente por unha falta de datos (algúns días algunhas comunidades non actualizan os datos por problemas técnicos) senón por unha falta de calidade dos mesmos.

De feito, o informe advirte todos os días que “se está realizando unha validación individualizada dos casos, polo que pode haber discrepancias respecto a a notificación de días previos”. Non son poucos os días nos que algunhas comunidades depuran os seus datos e eliminan duplicados. Con todo, o Ministerio non volve publicar, polo menos en liña, a serie revisada cos datos que faltan nin cos depurados. Tampouco cando se producen cambios metodolóxicos (por exemplo, ata o 10 de maio as comunidades notificaban ao Ministerio os datos diariamente de forma agregada), de frecuencia (desde o 4 de xullo non se proporcionan datos as fins de semana) e de temporalidade (os datos de defuncións ata o 23 de maio fan referencia a defuncións diarias e, a partir do 24, a defuncións dos últimos 7 días).

Esta práctica de non publicar toda a serie revisada non é exclusiva do Ministerio, senón que se repite en termos moi parecidos en practicamente todas as institucións públicas, incluídas as das comunidades autónomas.

Tampouco se dispón de información algunha acerca da aplicación práctica do protocolo de identificación de casos recolleito na Estratexia de detección precoz, vixilancia e control de Covid-19. Nela defínese como “caso sospeitoso” aquel que presenta síntomas, e para o cal está indicada a realización dunha PCR ou outro tipo de proba similar.

Pois ben, presentar “febre” (por exemplo), en ausencia doutros síntomas, non conleva a definición de “caso sospeitoso”, e por tanto non implica a realización da proba PCR, a pesar de que a febre é o síntoma máis frecuente da infección. Queda a criterio das comunidades autónomas, os servizos de saúde, ou a interpretación do persoal médico.

Este feito é relevante por dúas razóns:

  • Ademais dos casos sintomáticos e asintomáticos, teriamos tamén casos “non diagnosticados”, que son aqueles que, presentando síntomas, non se lles realizou a proba diagnóstica. Isto facilita a transmisión comunitaria que a estratexia antes mencionada pretende combater.
  • O número de casos positivos de Covid-19 entre comunidades autónomas é pouco comparable, xa que dependerá das indicacións concretas para a transformación dos “casos non diagnosticados” en positivos.

Precisamos reproducibilidade, repetibilidade e fiabilidade

A “repetibilidade” significa que os investigadores deben esperar producir resultados idénticos ao aplicar os mesmos métodos de análise aos mesmos datos para calquera pregunta. Pero isto só se consegue cuns datos de calidade suficiente, procedentes dun sistema de información, parafraseando ao Ministerio de Sanidade, “fiable, comparable e interoperable”.

En canto ao principio da “reproducibilidade”, un investigador diferente debería poder realizar a mesma tarefa na execución dunha análise nunha base de datos e esperar producir un resultado idéntico ao do primeiro investigador. Nesta ocasión, a reproducibilidade depende de que o sistema de información, parafraseando de novo ao Ministerio de Sanidade, sexa “accesible e transparente”.

Podemos dicir que a accesibilidade aos datos ten dous compoñentes interrelacionados: facilidade de acceso e contido. A accesibilidade aos datos estará moi limitada se, a pesar de que o acceso sexa moi fácil, o contido ao que se accede é moi reducido ou limitado.

Galicia ofrece información, pero non facilita o acceso á descarga de datos

No referido á información sobre a Covid-19, existe unha gran facilidade de acceso. Tanto o Ministerio de Sanidade, como case todas as comunidades e cidades autónomas (coa excepción de Extremadura, Galicia, e Ceuta) e mesmo algúns concellos (como o de Barcelona) teñen webs dedicadas á información sobre este tema. Con todo, na maioría delas o acceso con finalidades de investigación é moi limitado, posto que a descarga de datos só está dispoñible nas webs de Andalucía, Canarias, Cataluña e Madrid, así como na web do Ministerio de Sanidade, aínda que esta só parcialmente (casos que precisaron hospitalización, ingreso en UCI e falecidos por comunidades autónomas).

O resto dos webs, ou ben mostran os datos en formato de táboas e mapas, ou só permite descargar os documentos en formato PDF. Mesmo nalgunha páxina web (como a do Ministerio) está a restrinxirse ultimamente o acceso a datos de ingresos en UCI ou en hospital, ou modificando o formato e definición das variables. Isto dificulta a súa descarga, integración e comparabilidade entre as fontes de información.

En canto ao contido dos datos, o panorama é bastante máis desfavorable. A maior cantidade de información achégaa o web do Ministerio de Sanidade. Con todo, unha parte importante da información que dispón o Ministerio non é accesible. Por exemplo, como dixemos, a información sobre o número de falecidos en centros residenciais de persoas maiores non se fixo pública, circulando só como un documento interno xa que o propio Ministerio recoñeceu que a calidade dos datos dificulta a súa difusión. Ademais, as páxinas autonómicas ou estatais non dispoñen dun sistema de descarga automática das actualizacións dos datos (si a Organización Mundial da Saúde), polo que esta debe facerse de forma manual, o que dificulta aínda máis as análises.

Doutra banda, o nivel máximo de desagregación ao que se ten acceso desde o web do Ministerio é o de comunidade autónoma. A existencia de grupos vulnerables de poboación que experimentan desigualdades de saúde e socioeconómicas é outra das razóns para que en España impactase máis a pandemia. Esas desigualdades só poden ser investigadas a un nivel de desagregación moito menor que o de comunidade autónoma.

Os datos a nivel do que se coñece co nome de “área pequena” só os proporcionan algunhas das páxinas das comunidades autónomas. Neste sentido, a nivel de provincia: Aragón, Castilla–La Mancha, Castilla y León; a nivel de comarca, departamento, distrito ou área sanitaria, zona ou área básica de saúde: Andalucía, Asturias, Castilla y León, Cataluña, Madrid, Navarra, La Rioja, Valencia; a nivel de municipio: Andalucía, Baleares, Canarias, Cataluña, Madrid, Murcia, País Vasco, La Rioja, Valencia. Cómpre sinalar que cidades grandes como Madrid ou Barcelona (aínda que tamén outras) teñen decenas de áreas ou zonas básicas de saúde.

Así pois, recorrendo ás webs das comunidades autónomas, sería posible estudar as desigualdades socioeconómicas en saúde e na mortalidade por Covid-19 a nivel de áreas pequenas de distinto tamaño. Con todo, non é posible estudar as desigualdades na incidencia, xa que ningunha das webs das comunidades (nin tampouco dos concellos) proporciona información da incidencia, aínda que si que o fan dos casos positivos. Hai que destacar que existe algunha iniciativa sen ánimo de lucro que si que proporciona esa información a nivel de provincia.

A información desagregada por grupos de idade é moi escasa

Por último, se o contaxio e a morte como consecuencia da Covid-19 se producise de forma máis ou menos homoxénea para todas as idades bastaría con considerar o que se denomina razóns de incidencia ou de mortalidade brutas. É dicir, incidencia ou mortalidade por 100.000 habitantes, por exemplo. Pero a diferenza do contaxio, cuxa taxa é moi parecida en todas as idades, as mortes prodúcense sobre todo en idades avanzadas.

Neste caso deben utilizarse as razóns de incidencia ou de mortalidade estandarizadas. É dicir, diferenciar a incidencia ou mortalidade por grupos de idade. Desafortunadamente, a información desagregada por grupos de idade é moi escasa a nivel nacional e proporciónase en moi poucas webs das comunidades autónomas.

A incidencia acumulada nas últimas dúas semanas proporciónase na web do Ministerio (e, no caso da incidencia acumulada desde o 10 de maio, desagregada ademais de por idade tamén por sexo), aínda que para toda España, sen desagregar por comunidades autónomas. Andalucía (por distrito sanitario), Castilla y León (por provincia) e Cataluña (por comarca) proporcionan nas súas páxinas web información desagregada por idade e sexo.

Por outra banda, tamén desagregan a información por idade e sexo, a Comunitat Valenciana, aínda que non de forma desagregada a nivel de áreas pequenas, e o País Vasco, aínda que só para o día da consulta, non permitindo recuperar a información retrospectiva.

En 2019, a Real Sociedade de Estatística británica publicou un informe (ver PDF) no cal ofreceu dez recomendacións sobre como o goberno do Reino Unido podía mellorar os seus sistemas de información. As recomendacións divídeas en tres apartados: datos para unha mellor formulación de políticas, os datos como motor da produtividade e prosperidade, e datos para fortalecer a democracia e confiabilidade.

Neste sentido cremos que o conxunto de medidas emprendidas e que se poidan emprender para combater a pandemia podería ser cualificado como formulación de políticas.

Así, no informe lese que existe unha gran oportunidade para unha adopción de medidas máis eficaz se se utilizan os datos para informar, o que se está facendo, e sinala diversos aspectos nos que as institucións públicas deberían enfocarse. Entre eles: que se debe seguir avanzando na apertura dos datos procedentes das institucións públicas (datos abertos) e que tanto os investigadores como a opinión pública deben ter acceso a eses datos sempre que sexa con fins de investigación e de educación científica para axudar á mellora de toma de decisións para a Saúde Pública e a prevención de enfermidades como a Covid-19.


* O artigo está asinado por Marc Saez Zafra, Adolfo Figueiras Guzmán, Ainhoa Alustiza Galarza, Alberto Ruiz Cantero, Alexandre Medeiros de Figueiredo, Alex Sánchez-Pla, Anabel Forte Deltell, Antonio Daponte Codina, Andrés Cabrera León, Carmen Sánchez Cantalejo Garrido, David Blanco de Tena-Dávila, Dominic Royé, Erik Cobo Valeri, Gemma Molist, Guadalupe Gómez Melis, Inmaculada Mateo Rodríguez, Jorge Casillas, Jorge Mateu, José A. Martínez, José Antonio González Alastrué, Juan A. Cayla Buqueras, Juan Guàrdia Olmos, María A. Barceló Rado, María del Mar Rueda García, Martí Casals, Pau Fonseca i Casas, Salvador Macip, Sergi Trias-Llimós, Timothy L M Riffe e Ulises Cortés. Tamén participaron na elaboración do artigo Fernando Rosell Ortiz, Pilar Rueda de la Puerta, e Ray G. Butler.

DEIXAR UNHA RESPOSTA

Please enter your comment!
POLÍTICA DE COMENTARIOS:

GCiencia non publicará comentarios ofensivos, que non sexan respectuosos ou que conteñan expresións discriminatorias, difamatorias ou contrarias á lexislación vixente.

GCiencia no publicará comentarios ofensivos, que no sean respetuosos o que contentan expresiones discriminatorias, difamatorias o contrarias a la ley existente.

Please enter your name here

Este sitio emprega Akismet para reducir o spam. Aprende como se procesan os datos dos teus comentarios.