¿Cómo entender los datos de defunciones por COVID-19 en México?

Este texto es una colaboración que escribí junto con Jorge A. Castañeda para Nexos.

¿En qué etapa de la epidemia de COVID-19 se encuentra México? Ante la incertidumbre generada por el reducido número de pruebas realizadas en nuestro país y las diversas estimaciones del número de contagios, muchos han volteado a ver las cifras de defunciones como una alternativa con más certeza. Comparan absolutos, niveles per cápita y tasas de crecimiento del número de defunciones para tratar de entender dónde estamos, y más importante aún, cuándo podremos empezar a regresar a algo que se parezca a la normalidad. Y para esto, los únicos datos con los que contamos son las cifras oficiales de defunciones por COVID-19 publicadas por la Secretaría de Salud.1

Con el fin de contribuir a un mejor entendimiento de estos datos, en este texto analizamos uno de los aspectos menos visibles, pero potencialmente más problemáticos, de las cifras oficiales de COVID-19 en México: la variación temporal del número de muertes ocurridas en una fecha específica. Por “variación temporal” no nos referimos al cambio previsible en el número de muertes ocurridas de un día a otro, sino al cambio en el número de fallecimientos registrados en un mismo día, a lo largo de diferentes cortes de información publicados por la autoridad.

Como detallamos a lo largo del texto, entender este punto tiene implicaciones potencialmente relevantes tanto para la manera en que analizamos y comunicamos la evolución de la epidemia, como para la forma en que se construyen los modelos para predecir diversos aspectos asociados a la misma, y las políticas públicas que de ellos se derivan.

Nuestras reflexiones se basan en el análisis de las poco más de 2.1 millones de observaciones incluidas en las 28 bases de datos publicadas diariamente por la Dirección General de Epidemiología (DGE) de la Secretaría de Salud (SS) entre el 13 de abril y el 10 de mayo. En todos los casos usamos el archivo originalmente publicado por la autoridad y no las versiones disponibles en la sección de Bases Históricas.2 Tanto los datos como el código usado en este análisis pueden ser consultados en este repositorio.

Análisis

Limitémonos a una fecha arbitraria —el 24 de abril3 y a solo utilizar cifras oficiales para responder una pregunta: del total de casos confirmados de COVID-19 en México hasta esa fecha, ¿cuántas personas fallecieron ese día?

Partiendo de los datos presentados en la conferencia de prensa de esa tarde (ver minuto 11:32), podríamos concluir que dado que ahí se anunciaron 1,221 defunciones y el día previo 1,069 fallecimientos (ver minuto 12:44), el 24 de abril murieron 152 personas por COVID-19. Ésta es la lógica seguida por muchos medios de comunicación (ejemplo 1, ejemplo 2) y analistas (uno de nosotros incluídos) para tratar de analizar la evolución temporal del costo en vidas de la epidemia.

Ahora bien, si partimos de la base de datos publicada por la DGE el 24 de abril y observamos la columna “Fecha de defunción”, la respuesta sería que ese día murieron tres personas por COVID-19. Y si nuestro análisis se basará en la misma base de datos, pero con corte al 10 de mayo, nuestra respuesta sería que el 24 de abril fallecieron 138 personas por esta enfermedad.4

¿Cómo explicar esta aparente inconsistencia en las cifras oficiales?

Comencemos analizando las cifras de la base de datos publicadas el 24 de abril. Si comparamos el número total de muertes registrados en este corte de la base de datos con respecto a la cifra del corte del día previo, confirmamos que entre uno y otro dato hay un incremento de 152 fallecimientos.

Sin embargo, al analizar la fecha de defunción asociada a cada una de las 152 muertes incorporadas a la base de datos el 24 de abril, se vuelve evidente que, tal como lo ilustra la siguiente gráfica,5 esta variación no corresponde al cambio ocurrido entre ese día y el día previo, sino a la actualización de los registros diarios de fallecimientos de un período de más de tres semanas.6

Por un lado, la gráfica muestra que en el corte del 24 de abril se actualizaron los registros de defunciones ocurridas en 20 de los 22 días del período que va del 3 al 24 de abril.7 Por otro lado, revela que el cambio total en el número de defunciones reportadas en las bases de datos del 23 y 24 de abril fue el resultado de incorporar nuevas muertes a la base de datos y de eliminar decesos previamente registrados (barras negativas del 3 y 9 de abril).

La gráfica ilustra además que 87 de las 152 defunciones incorporadas a la base de datos del 24 de abril (57% del total) ocurrieron en los tres días previos a la publicación de la base (entre el 21 y 23 de abril) y sólo tres de las nuevas muertes se registraron el propio 24 de abril.8 Muestra también que las 62 muertes restantes incluidas en el corte del 24 de abril ocurrieron al menos cinco días antes de que se publicara esta base de datos, así como que 36 de los fallecimientos (23.7% del total) ocurrieron a más de una semana de distancia de la publicación del corte.

Esta primera gráfica nos deja dos lecciones. Primero, la diferencia en el número total de muertes anunciadas en la conferencia vespertina de un día respecto a la cifra publicada el día anterior no debe ser interpretada como el incremento diario en el número de muertes, sino como el resultado de la actualización del registro de fallecimientos diarios en un período que puede abarcar, al menos, las tres semanas previas. Segundo, es muy factible que el número de muertes registradas en una fecha particular sea actualizado (para arriba o para abajo) en los días subsecuentes.

Este último punto es ilustrado con mayor detalle por la siguiente gráfica. Ésta muestra el número de casos confirmados de COVID-19 que fallecieron el 24 de abril, de acuerdo con el corte que se consulte de las bases de datos publicadas por la DGE entre el 24 de abril y el 10 de mayo.

La primera columna de izquierda a derecha indica que la base de datos publicada el 24 de abril solo incluía tres fallecimientos con fecha de ese mismo día. La segunda columna ilustra que al corte del día siguiente, 25 de abril, la base de datos ya reportaba 19 muertes ocurridas el 24 de abril, la tercera columna muestra que para el corte del 26 de abril esta cifra había aumentado a 31 muertes, y así sucesivamente. La última columna del lado derecho corresponde al corte del 10 de mayo, último día para el que contamos con datos oficiales, e indica que en esta versión de la base de datos se incluyen 138 muertes ocurridas el 24 de abril. De esta forma, la cifra de decesos ocurridos en un mismo día, el 24 de abril, aumentó de 3 a 138 en poco más de dos semanas. A esto nos referimos cuando hablamos de la “variación temporal” del número de fallecimientos registrados en un mismo día.

Hasta ahora nos hemos concentrado en una fecha arbitraria, el 24 de abril, para simplificar el análisis. Pero ¿qué sucede con el resto de los días? Como muestra la siguiente gráfica, el patrón que acabamos de describir para las muertes ocurridas el 24 de abril se repite de forma sistemática para buena parte de las otras fechas en las que se registró uno o más decesos por COVID-19.

Esta gráfica muestra la misma información que la anterior, pero ahora para los fallecimientos ocurridos en los 50 días transcurridos entre el 22 de marzo y el 10 de mayo.9 Cada uno de los paneles ilustra cómo se actualizó el número de muertes ocurridas en el día correspondiente de acuerdo con los diferentes cortes de la base de datos publicada por la DGE.

Como se puede observar, al menos a partir de los fallecimientos ocurridos el 8 de abril (panel en el segundo renglón y octava columna),10 vemos el mismo patrón que describimos para las muertes registradas el 24 del mismo mes: el número de decesos aumenta consistentemente al considerar los datos de cada corte subsecuente de la base de datos publicada por la DGE. Este proceso dura al menos dos semanas, punto en el cual la cifra de fallecidos comienza a estabilizarse.

La gráfica también muestra que para los fallecimientos registrados entre el 17 de abril y el 5 de mayo, la magnitud de las actualizaciones diarias, particularmente durante los primeros días, es más grande que con las muertes ocurridas en días previos. Si bien es factible que esto mismo ocurra con los decesos registrados después del 6 de mayo, el proceso de actualización aún se encuentra en su etapa inicial.

La siguiente gráfica resume la información que acabamos de describir, pero desde una perspectiva diferente. En este caso, cada línea representa un día entre el 18 de marzo y el 10 de mayo. El eje horizontal muestra los días que han transcurrido desde la primera vez que se reportó el registro de al menos un fallecimiento en esa fecha y el eje vertical el número de defunciones.11 La evolución de la línea señala cómo ha variado el número de muertes registrada en una fecha conforme se publican nuevas versiones de la base de datos.12

De forma consecuente con lo dicho antes, la mayoría de las líneas tienen una pendiente positiva, indicando que conforme se publican nuevos cortes de la base de datos mayor es el número de defunciones reportadas para ese día. Las líneas correspondientes a las defunciones ocurridas antes del 6 de abril (todas las que no tienen etiqueta y están en la parte baja de la gráfica) son en su mayoría horizontales. Esto se debe a que el proceso de actualización diario inició —y probablemente concluyó— antes del 13 de marzo, fecha del primer corte de la base de datos considerada en nuestro análisis.

Vale la pena resaltar que si bien todas las líneas que representan fallecimientos ocurridos el 6 de abril o en días posteriores tiene una pendiente positiva, en general mientras más reciente es la fecha en que se registraron las muertes (y, por lo tanto, más corta es la línea) la pendiente es más pronunciada. Puesto de otra forma, las líneas correspondientes a las fechas de muertes más recientes no solo tienden a empezar con un mayor número de defunciones, sino que los registros de estas fechas acumulan un mayor número de defunciones en un menor número de días.

Por ejemplo, mientras que el valor de la línea correspondiente a las muertes ocurridas el 19 de abril era 89 (eje vertical) en el día 11 (eje horizontal), el valor de la línea que representa las muertes registradas el 29 de abril era 143 (eje vertical) para el mismo día 11 (eje horizontal).

La gráfica también muestra una variación significativa respecto al plazo que le llevó a cada línea para estabilizarse. Por los motivos mencionados arriba, las líneas correspondientes a las defunciones registradas entre el 18 marzo y el 5 de abril muestran una estabilización casi absoluta prácticamente desde el comienzo de la gráfica. En un siguiente conjunto podríamos ubicar a las líneas que representan la evolución del número de muertes ocurridas entre el 6 y el 16 de abril. En este segundo grupo de líneas la estabilización parece haber ocurrido aproximadamente 15 días después de la primera vez que una base de datos incluyó una muerte con esa fecha.

La situación es más incierta para las líneas que representan la evolución de la defunciones registradas después del 16 de abril. Por un lado, sólo tenemos más de 15 cortes de la base de datos para ocho de estas líneas (del 17 al 24 de abril). Por el otro, la gran mayoría de estas líneas —incluyendo buena parte de las que representan datos del 17 al 24 de abril— parecen seguir en su fase ascendente. Esto nos hace pensar que mientras mayor sea el número de fallecimientos registrados en una fecha, más tiempo le llevará a la respectiva línea para estabilizarse, por lo que el plazo para que esto ocurra podría extenderse para las líneas que representan fallecimientos ocurridos más recientemente.

Regresemos a nuestra pregunta original: ¿cuántas personas con COVID-19 fallecieron el 24 de abril? La respuesta, debería ser claro en este punto, depende de cuándo nos hagamos la pregunta. No son las 152 muertes adicionales que mencionamos al inicio, pero es muy probable que tampoco sean los 138 fallecimientos reportados hasta el corte del 10 de mayo. Y, de forma sin duda insatisfactoria, no podemos tener certeza de cuál será la respuesta mañana o en días posteriores.

En conjunto, las tres últimas gráficas nos dejan tres lecciones adicionales. Primero, las cifras de muertes por COVID-19 tienen un rezago de, cuando menos, 15 días. Esto tiene una explicación lógica, misma que en parte radica en lo que ha mencionado el Dr. Hugo López Gatell varias veces. Los registros de defunción deben ser validados por dos sistemas de información, el Sistema de Vigilancia Epidemiológica de Enfermedades Respiratorias (Sisver) y la Red de Defunciones Sujetas a Vigilancia Epidemiológica (Redeve), que a su vez obtienen información de las unidades médicas y las jurisdicciones sanitarias. En palabras del subsecretario López Gatell, para muchas de las defunciones por COVID-19 a las que sí se le hicieron pruebas “están en espera del proceso de certificación o de revisión de la certificación y de clasificación por dictamen”. Los procesos de dictaminación y confirmación toman días y dependen de la información que llegue de los centros de salud y de las entidades federativas. Conforme estos sistemas están bajo mayor estrés por el aumento de cargas de trabajo derivado del mayor número de casos, más tardado será el proceso.

La segunda lección es que a partir de los datos publicados en una conferencia vespertina no podemos afirmar que en ese día —o en cualquier otro— se registró el mayor número de defunciones (ejemplo). Lo máximo que podemos decir es que hasta el corte del día X, la fecha con más muertes por COVID-19 era Y. Por ejemplo, con base en los datos disponibles al corte del 10 de mayo, el 1 de mayo es el día que —hasta el momento— acumula el mayor número de fallecimientos, con 146. Frasear así la nota es mucho menos atractivo en términos de comunicación, pero contribuye a clarificar las limitaciones que tienen las cifras oficiales de muertes.

Una tercera lección al observar los datos desde esta perspectiva es que dado el rezago en las cifras de muertes para buena parte de los últimos 15-20 días, nos parece muy arriesgado confirmar o negar que la curva se “está aplanando”, entendido esto último como que el número de muertes crece a un ritmo cada vez más lento. En este momento simplemente no contamos con la información suficiente para concluir en uno u otro sentido. Y como muestra la siguiente gráfica, esta misma limitante persiste si en lugar de analizar el número de muertes registradas en un día, nos concentráramos en el número de casos confirmados de acuerdo con la fecha en que comenzaron a sentir síntomas.

Si algo muestran las últimas dos gráficas es que, a pesar del rezago ya mencionado, las líneas correspondientes a los fallecimientos o casos confirmados más recientes tienen pendientes cada vez más pronunciadas, y que al contar con cortes nuevos de datos es muy factible que la magnitud de la actualización de las cifras de estas líneas sea cada vez mayor. De ser así, esto implicaría que la estabilización de este conjunto de líneas será en niveles cada vez más altos. Por ejemplo, si observamos la curva del 24 de abril, nuestra fecha de referencia, y asumimos que tendrá un comportamiento similar a la de los días previos, podemos asumir que se estabilizará en unos días en un nivel más alto que la de los los días previos, y que las curvas de los días posteriores se estabilizarán a un nivel más alto que el de nuestra fecha de referencia. Por supuesto, este no será un proceso indefinido, pero por ahora no parece ir en sentido inverso.

Más allá de las limitantes o virtudes de los sistemas de información de salud con los que actualmente disponemos, el análisis aquí presentado busca ilustrar el importante desfase que tienen las cifras de muertes —y casos confirmados— que vemos todos los días, así como las implicaciones que esto tiene para las forma en que comunicamos estos datos y las políticas públicas que se derivan de ellos. Con los datos públicos disponibles al día de hoy nos parece arriesgado afirmar que la curva se está aplanando o no, o bien, que México está logrando disminuir la tasa de crecimiento de contagios y defunciones, y por ende se pueden empezar a disminuir las medidas de confinamiento y el cierre de actividades económicas en nuestro país. Asimismo, nuestro análisis sugiere que cualquier comparación de la situación de México con la de otros países debería partir de la base que la velocidad con que se actualizan los datos en cada caso probablemente sea muy diferente, y esto dificulta la comparación.


  1. Las cifras de mortalidad de 2020 del INEGI tardarán más de un año en ser publicadas.

  2. Esta diferencia es relevante pues en la sección de “Bases históricas” hay archivos correspondientes a un día que fueron actualizados después de su publicación original.

  3. Como se verá más adelante, la fecha exacta que se elija es irrelevante. Los problemas para responder cuántas personas fallecieron en una día específico persisten, particularmente para fechas más recientes.

  4. Por motivos que explicamos más adelante, incluso tomando este último corte, 15 días después de la fecha de interés, la respuesta que podríamos ofrecer solo sería preliminar.

  5. La gráfica no incluye un fallecimiento incluido en la base de datos del 24 de abril, con fecha de registro del 23 de enero de 2020, porque de acuerdo con las autoridades de la Secretaría Salud las primeras muertes por COVID-19 en México ocurrieron el 18 de marzo.

  6. Este mismo punto fue señalado por Alfredo Figueroa el 30 de abril, cuando declaró que “en realidad, la información que difunden [la Secretaría de Salud] corresponde a días o semanas previas”.

  7. Las excepciones son el 5 de abril, fecha en la que no hubo modificaciones, y el 24 de abril, fecha que no estaba en la base de datos del día anterior.

  8. Esto último tiene sentido, pues como anunciaron las autoridades de Salud desde las primeras conferencias vespertinas, los datos publicados cada noche son consolidados a la 1 p.m. del respectivo día.

  9. La gráfica excluye las muertes ocurridas el 18 y 21 de mayo para mantener la simetría.

  10. Es probable que el mismo fenómeno ocurriera en fechas previas, pero dado que la primera base de datos que analizamos es del 13 de abril, este proceso no se refleje en la gráfica.

  11. La última posición horizontal de la línea correspondiente a los fallecimientos registrados el 25 de abril es el día 14 y no 15, porque el primer corte de la base de datos que reportó una muerte en esta fecha fue el del 26 de abril.

  12. El primer valor de las líneas correspondientes a las muertes registradas entre el 18 de marzo y el 12 de abril es mayor a cero porque ocurrieron antes de la publicación del primer corte de la base de datos analizadas (13 de abril). Para entonces el proceso de actualización diario ya había iniciado y en algunos casos el número de muertes era mayor a 35.

Relacionado