Datos y Covid, el data quality en tiempos de pandemia
Datos y Covid están conformando un binomio circunstancial debido a la generación de información que está causando la pandemia del coronavirus. Al respecto, el matemático francés Emmanuel Candès, advirtió hace meses que los países deben contar con “datos de muy buena calidad” sobre la evolución del virus.
Además, Candès –condecorado con el Premio Princesa de Asturias de la Investigación Científica y Técnica 2020- recomienda que esta información sea compartida entre los estados. De esta manera, sería factible incrementar la efectividad de las investigaciones. En este contexto, el data quality es un recurso indispensable para garantizar la fiabilidad de los datos relativos al Covid-19 durante su tratamiento e intercambio.
Generación de datos y Covid, la importancia de la calidad
En el ámbito científico, la generación de datos y Covid acaparan la atención de los investigadores. ¡Y no es para menos! Con el fin de establecer predicciones relativas a la pandemia con alto grado de certeza, la calidad de los datos debe ser óptima. Por lo que captar esta información de manera eficaz y compartirla con las autoridades y la comunidad requiere de mucha disciplina, como subrayó Candès.
El referido matemático, apunta que el trabajo de los estadísticos es presentar a los organismos públicos, hechos científicamente comprobados de la manera más clara y transparente. En base a estos, los funcionarios y responsables de gobierno tomarán las decisiones pertinentes. Estas medidas, repercutirán tanto en las políticas a implementar, como en la conducta de los ciudadanos. Por estos motivos, surge la importancia de obtener y procesar datos empleando criterios exigentes y herramientas de excelente calidad informática.
Los datos de calidad son esenciales para responder al Covid-19
Desde el principio de la pandemia hasta hoy, los datos siguen constituyendo la principal herramienta para generar respuestas al COVID-19. En efecto, las actualizaciones periódicas relativas a cifras de casos, fallecimientos y la capacidad de la atención sanitaria, demuestran que la importancia y el carácter público de los datos nunca fueron tan relevantes como ahora. Más aún, las decisiones de organismos públicos y de las políticas de cada país, se basan en el acceso al conjunto de información que evoluciona de forma constante.
Medidas de confinamiento, entre ellas las de viajeros procedentes de otros países, actividades educativas virtuales y restricciones de ocio, se aplican de acuerdo a las cifras más recientes. Las administraciones públicas deben dar respuestas «en tiempo real» y ello exige disponer de datos a un ritmo vertiginoso.
Por lo tanto, el data quality es fundamental para el uso eficiente de los datos. Tanto es así que un alto nivel en la calidad de los datos es considerado como una «adecuación al propósito«, es decir, una garantía de calidad. Este es un requerimiento vital en medio de las circunstancias impuestas por el coronavirus. Esto supone además, un reto para científicos y estadísticos cuando se trabaja a un ritmo tan acelerado.
Retos del Data Quality en el contexto de la pandemia
En el ámbito del análisis y de conformar datos, la situación causada por la pandemia del Covid-19 plantea importantes retos al data quality. Entre ellos, incluimos la preparación de datos para su posterior análisis, además de su limpieza, estructuración y enfoque contextual.
Datos masivos y de múltiples procedencias
Ciertamente, existen grandes conjuntos de datos – en continuo crecimiento y de fuentes muy diversas- aportados a la investigación y toma de decisiones respecto al coronavirus. No obstante, la calidad de gran parte de estos datos es cuestionable debido a la cantidad de problemas estructurales que presentan. Lo que dificulta su análisis, sobre todo para quienes no son científicos de datos.
En gran parte de los casos, el éxito de las iniciativas de la administración pública en relación al Covid depende totalmente de la calidad de los datos. Algunos expertos estiman que más del 80% de la ejecución de proyectos sustentados en datos se dedican a la limpieza y preparación de los mismos.
Evaluación y tratamiento de los datos
Con el propósito de garantizar la calidad de los datos, los especialistas deben valorar el contenido de éstos, estructurarlos y cotejarlos con otras fuentes. Luego procederán a limpiar los defectos y a diseñar las características para asegurar que la información que manejan esté debidamente estructurada. Los responsables de los datos pueden abordar dicho proceso con el mismo enfoque que emplearía un científico de datos al identificar y definir cualquier elemento fundamental para el análisis en la información.
De esta manera, previo a la toma de decisiones, los encargados de los datos deben considerar:
- ¿Cuáles son los elementos de estos datos que resultarán determinantes para el éxito de las iniciativas a plantear?
- Por otro lado, es vital identificar el origen de la información. ¿Proceden estos datos de una fuente confiable coherente y precisa?
- ¿Estos datos son relevantes en función del contexto y el tema específico que estamos analizando?
- Con respecto a su calidad, ¿los datos respecto al Covid están completos y tienen el formato adecuado? ¿Presentan algún valor atípico o incoherencias?
Comprensión del contexto y análisis comparativo
De acuerdo a lo anterior, es importante que los responsables de los datos posean sólidos conocimientos del contexto de la información que gestionan. Desde cómo fue su recopilación y la determinación de los metadatos de cada característica, hasta cuándo ocurrió su más reciente actualización. En este sentido, antes de tomar decisiones basadas en datos es imprescindible que los encargados estén seguros de tener total comprensión de tales condiciones.
De la misma manera, los responsables han de comparar sus conjuntos de datos con los procedentes de otros puntos. En medio del crecimiento exponencial en la cantidad de datos sobre coronavirus, es relevante saber distinguir la calidad de aquellas informaciones cuestionables. Por ejemplo, un conjunto de datos que presenta tendencias totalmente diferentes a la de otros acopios que proveen información sobre Covid, llamará la atención. Y la institución debería poner en duda su validez, antes de tenerla en cuenta para implementar iniciativas.
¿Con qué herramientas contamos?
Soluciones como MyDataQ, desarrollada por DEYDE, reducen la cantidad de esfuerzo requerido para corregir, normalizar y enriquecer datos procedentes de diferentes medios. Por este motivo, resultan particularmente útiles en instituciones científicas que desarrollan investigaciones sobre el Covid-19 y en organismos oficiales responsables de políticas públicas relacionadas con la pandemia. La incorporación de recursos de este tipo es esencial para la implantación del data governance en este tipo de organizaciones.