Comprendiendo los desafíos de calidad de datos en Colombia

Comprendiendo los desafíos de calidad de datos en Colombia

 

El 56% de las bases de datos de las grandes empresas de Colombia tienen mala calidad según el informe interno de Deyde DataCentric. Debido a la digitalización y al gran volumen de captura de registros de datos de estos últimos dos años, y teniendo en cuenta que el ciclo de vida de los datos en las empresas se limita a tres meses antes de que pierdan su calidad, los equipos de datos se enfrentan a ficheros con muchos problemas de calidad.

 

La dificultad más común que se produce es la falta de visión única del cliente. Es decir, los empresarios se encuentran con registros duplicados de una misma persona. Esto se produce por tener varias fuentes de entrada de datos, por ejemplo, el sitio web, formularios de landings, publicidad en redes sociales… La mayoría de estos registros están llenos de discrepancias e incoherencias hasta que consigue relacionar y cribar la información correcta con la persona correcta.

Otra problemática está relacionada con las direcciones de correo electrónico. Muchos emails que se introducen en formularios contienen errores o no existen. Es muy común que al escribir las direcciones se comentan errores de escritura, entren caracteres no permitidos o estén mal formateadas (ausencia de arrobas, espacios, etcétera).

Por último, debemos hablar de las direcciones postales. La nomenclatura urbana en Colombia se basa en un modelo numérico. A nivel administrativo, existen callejeros y catastros, pero utilizan diversas fuentes de datos. Además, no fue hasta 2013 que se empezó a utilizar el código postal como iniciativa para facilitar y automatizar el encaminamiento de los envíos postales. Todo esto contribuye a una baja calidad de datos postales.

A estas alturas en la transformación digital del país, las empresas colombianas no se pueden conformar con solo capturar información. Como tal, se centran en prácticas innovadoras de automatización de procesos mediante, por ejemplo, la gestión de inteligencia artificial.

Sin duda, existe un gran interés entre las empresas colombianas en convertirse en organizaciones guiadas por datos y sacar el mayor provecho de los mismos. Pero el camino para llegar a ello no es sencillo. ¿Qué dificulta la implementación de la calidad de datos en Colombia? Los motivos los analizamos en este e-book gratuito, junto a varios casos de éxito de empresas colombianas que han dejado sus datos en manos de Deyde DataCentric.

Cifrado de datos, la encriptación de datos para empresas

cifrado de datos

Los datos son muy valiosos. Y mucho más cuando hablamos de la confidencialidad dentro de una empresa o una organización. Si se produce, el filtrado de información sensible puede convertirse en un verdadero quebradero de cabeza. Esto se traduce en una pérdida drástica de la confianza por parte de consumidores y clientes. A su vez, puede provocar pérdidas sustanciales en los ingresos. Para evitarlo, el gran aliado es el cifrado de datos.

Proteger datos gracias a un criptosistema es una de las mejores soluciones para este grave problema. No obstante, alrededor de ese concepto relacionado con la seguridad informática surgen algunas dudas. Es lógico que te preguntes qué es exactamente el cifrado de datos, cómo funciona, qué tipos de algoritmos o cuándo debe aplicarse. En esta guía abordamos estas cuestiones y les damos una respuesta precisa y concisa.

¿Qué es el cifrado de datos y para qué sirve?

El cifrado de datos es una técnica empleada para proteger información y hacerla inaccesible a atacantes externos. Para conseguirlo se utiliza con algoritmo de cifrado. Mediante la creación de una clave, es posible convertir los datos en información incompresible.

El tipo de clave de cifrado que utiliza el algoritmo puede seguir varios patrones. Por un lado, existen claves simétricas, es decir, que son iguales en el punto de cifrado y en el de descifrado. Por el contrario, también es posible emplear en el cifrado de datos claves asimétricas. O lo que es lo mismo, la clave no es igual en el punto de cifrado y en el descifrado. Existe, además, una tercera modalidad llamada criptografía híbrida, que aúna ambos tipos de claves.

El cifrado es perfecto para transmitir información de un punto a otro de manera segura. También para almacenar datos y dificultar su filtración. Para entender mejor este concepto, podemos asemejarlo a los idiomas.

Si dos personas se envían un mensaje confidencial usando el español, cualquier persona que entienda ese idioma y escuche la conversación conocerá el contenido. La solución pasa por cambiar el idioma, usando uno distinto, y, así, proteger la información transmitida. De igual manera, el cifrado de datos cambia el idioma del mensaje y lo hace ininteligible. Si aplicamos esto a la transmisión o almacenamiento de información confidencial, solo aquel que conozca el idioma, el personal autorizado para leer los datos, tendrá acceso.

Seguridad informática: cómo funciona un algoritmo de cifrado

El algoritmo de cifrado es el patrón que se sigue para transformar la información y, como consecuencia, encriptarla. Dentro del cifrado de datos y la seguridad informática, el algoritmo juega un papel fundamental. En su interior se alojan las instrucciones que deben seguirse para que el cifrado de datos sea efectivo.

Si antes hablábamos del cifrado de datos como la transformación de un mensaje de un idioma a otro, el algoritmo de cifrado es como un diccionario que marca las pautas, las normas ortográficas y la sintaxis del lenguaje. El algoritmo es el encargado de definir cómo deben generarse las claves que posteriormente se usarán para cifrar y descifrar la información.

Algunos ejemplos de algoritmos de cifrado que existen son:

  • Enigma. Este algoritmo fue utilizado por las fuerzas armadas alemanas para cifrar sus comunicaciones durante la Segunda Guerra Mundial. Fue un sistema mecánico que se encargaba de cifrar datos escritos.
  • RSA. Es un algoritmo de cifrado que data del año 1979. Usa la factorización de números enteros. Se utiliza a día de hoy en aplicaciones de mensajería que usa la encriptación punto a punto.
  • AES. Creado por dos criptólogos belgas en el año 1998, tiene una popularidad mayor que la que alcanza el RSA. En realidad, es uno de los algoritmos de cifrado más utilizados del mundo.

¿Cuándo es necesario usar un criptosistema?

Despejadas algunas dudas básicas relacionadas con el cifrado de datos, es el momento de preguntarse cuándo debería utilizarse un criptosistema y cuándo no. Este procedimiento, que alberga varios algoritmos de cifrado, está enfocado en la confidencialidad de los datos.

Cifrado de datos, depende de la toxicidad

Entendemos como dato tóxico aquel que, en caso de filtración, puede afectar a la empresa o a su negocio. Sin importar si las consecuencias de su exposición pública perjudica a clientes, empleados o la estructura organizativa, todos son considerados datos tóxicos.

En el caso de que los datos estén relacionados con acuerdos con otras empresas o con clientes, se les debe aplicar la restricción más severa que sea posible. De esta manera, el cifrado de datos estaría protegiendo la integridad del propio negocio y evitando que una filtración lo destruya.

Diferentes tipos de cifrado

Cuando hablamos de datos que pueden ser útiles para la competencia, deberíamos establecer su verdadero valor. Si se determina que es un valor alto y que otras empresas pueden usarlos para beneficiarse, es importante que se utilice la misma política que en el caso anterior. Por el contrario, si son datos con un valor muy limitado para otras empresas, es posible emplear una protección más limitada que permita el acceso interno por parte de los empleados.

Otro supuesto que es necesario tener en cuenta es si los datos ponen en riesgo a los empleados o a los clientes, incluso llegando a violar su privacidad. Si es el caso, es obligatorio aplicarles una política de acceso interno, como mínimo.

Por último, el cifrado de datos no es necesario si hablamos de datos que no ponen en riesgo el propio negocio de la empresa, no son útiles para la competencia y no dañan a los clientes o a los empleados. Podemos considerar que la toxicidad de esta información es tan baja que no merece la pena realizar inversiones que la protejan con un criptosistema.

La seguridad informática debe ser una obligación en las empresas

El cifrado de datos es una de las maneras más efectivas de proteger información sensible y mantener la confidencialidad de los datos. Sin embargo, aplicar estas técnicas no siempre es suficiente. La digitalización de los datos ha propiciado que las empresas se vean obligadas a promocionar la cultura de la protección de información entre sus empleados. Lamentablemente, lograrlo tiene sus retos.

Por ejemplo, muchos empleados no tienen los conocimientos técnicos para entender la verdadera importancia del cifrado de datos. La necesidad de utilizar un software que desencripte la información tampoco pone las cosas fáciles, sobre todo cuando el usuario necesita usar más de un dispositivo.

Asimismo, la aplicación del cifrado de datos no siempre es la correcta. De hecho, muchas empresas cifran equipos enteros para prevenir las filtraciones en caso de extravío. Lamentablemente, no se hace lo mismo con ciertas comunicaciones ni cuando se envían documentos a terceras personas.Debemos reconocer el que el cifrado de datos hacer que la auditoría de datos sea más difícil de llevar a cabo. De igual manera, tras la desencriptación, un archivo puede ser manipulado y filtrado con relativa facilidad.

El cifrado de datos y la protección de los datos

En vista de esto, sale a relucir la importancia de que las empresas promuevan la cultura de la protección de datos dentro de su organización. Al fin y al cabo, los beneficios que mantener a salvo la información confidencial son inmensos. El cifrado de datos ayuda a proteger, no solo información, sino la reputación de toda la empresa. Sí, la seguridad informática que aplica un algoritmo de cifrado puede salvar un negocio.

Data cleaning, data cleansing o limpieza de datos ¿son necesarios?

data cleaning

Vivimos en la era del big data. El análisis exhaustivo de una gran cantidad de datos sirve para generar estadísticas y predicciones certeras. Esto a su vez, conduce a una toma de decisiones exitosa por parte de los empleados y los directivos de una corporación. Por eso, cada vez es más importante el data cleaning.

¿Qué es exactamente la limpieza de datos, el data cleaning o data cleansing? ¿Qué ventajas tiene y cómo debe aplicarse? En la siguiente guía buscamos la respuesta a todas estas preguntas.

¿Qué es el data cleaning y para qué sirve?

Lo que se conoce como data cleaning, data cleansing o, en español, limpieza de datos es un proceso aplicado en las bases de datos. Se lleva a cabo para identificar, corregir y eliminar datos erróneos, cuando estos se ubican dentro de una data base.

El data cleaning es un proceso importante dentro del mundo del big data. Mediante esta técnica se realiza una validación de datos que permitirá a las bases de datos operar entre ellas dentro de un mismo sistema. También conocemos este concepto como data scrubbing. Por decirlo así, el data cleansing se encarga de que todos los datos sigan las mismas reglas.

Estas técnicas son fundamentales porque garantizar que la información que se almacena en una base de datos sea exacta y precisa. Sin aplicar data scrubbing sobre aquellos datos que son incorrectos, tienen un formato no adecuado o está repetido, se pierde la coherencia. Por lo tanto, el big data y el análisis masivo de datos deja de ser útil para la toma de decisiones dentro de una corporación o un área de negocio.

El origen de los errores en la información que se introduce en una base de datos es diverso. Hay algunas casuísticas que llevan al uso incorrecto de los datos y hacen preciso un data cleaning, como por ejemplo:

  • Errores humanos en el momento de introducir información.
  • Incoherencias o duplicidades al combinar diferentes bases de datos.
  • No disponer de un estándar definido dentro de la compañía.
  • Usar un sistema antiguo que contiene datos obsoletos.

¿Cómo se lleva a cabo la limpieza de datos o data cleansing?

El proceso a la hora de realizar una limpieza de datos o data cleansing puede dividirse en varias fases concretas. Basta con un breve repaso para comprender exactamente cuáles son los pasos necesarios para llevar a cabo el data cleaning. Los hemos fraccionado en cuatro partes.

En primer lugar, deben auditarse los datos. Esto consiste en revisar la información que hay alojada en la base de datos para descubrir cuáles son las posibles anomalías y si existen incoherencias. En este punto es donde aparecen los datos erróneos y se los sitúa dentro de la data base.

En segundo lugar, hay que diseñar un flujo de trabajo. Es muy importante conocer exactamente por qué han aparecido los datos erróneos en el sistema. Como ya hemos comentado anteriormente, esto puede deberse a diferentes causas. Solo con esta información es posible diseñar un workflow, o flujo de trabajo, adaptado a las necesidades de la limpieza de datos.

En tercer lugar, hay que ejecutar el flujo de trabajo. La eficiencia de este es un punto básico en el proceso de data cleaning. Si el flujo de trabajo no está bien optimizado, los costes del proceso aumentarán drásticamente.En cuarto y último lugar, hay que abordar la corrección manual y el control. En esta última fase, los datos que no han podido ser corregidos mediante el flujo de trabajo automatizado deben validarse de manera manual. De nuevo, un workflow optimizado ayudará a que las correcciones manuales sean lo menos numerosas posible. Una vez finalizado este último paso, los datos se someten a un nuevo data scrubbing con un flujo de trabajo adicional.

Las técnicas más comunes para realizar limpieza de datos

Para llevar a cabo el data cleaning se deben aplicar diversas técnicas durante todo el proceso. Estos son algunos de ellos:

  • Eliminar datos duplicados o irrelevantes. Es imprescindible que no existan entradas repetidas, que inmediatamente se tornan en irrelevantes. Este hecho viene provocado, en ocasiones, por la recepción de datos desde diversos departamentos o clientes.
  • Corregir errores de estructura. Englobamos aquí los posibles errores tipográficos, las clases con etiquetas erróneas o con incoherencias.
  • Filtrar los valores no deseados. Esta técnica sirve para dar valor real a los datos que, de entrada, parecen atípicos. Pero no por serlo deben ser considerados erróneos.
  • Controlar los datos que faltan. Es importante hacer las comprobaciones oportunas para verificar cuáles son los datos que falta.
  • Comprobar el sentido de los datos. Después de una limpieza de datos, deben quedar despejadas algunas dudas, como si estos tienen sentido o si siguen las reglas apropiadas en cada caso.

¿Cuáles son las ventajas de data cleaning o limpieza de datos?

Las ventajas que se derivan de la limpieza de datos son claras. ¿Quieres conocerlas?

Mejora la productividad de los empleados

Usando técnicas de validación de datos o data scrubbing, una empresa puede aumentar considerablemente la productividad de su plantilla. Eliminar datos innecesarios permite a los empleados trabajar más rápido, evitar realizar tareas innecesarias o duplicar esfuerzos. En un menor tiempo abarcarán una carga de trabajo mayor sin esfuerzos adicionales.

El data cleaning mejora la toma de decisiones

El big data tiene un objetivo claro: mejorar la toma de decisiones por parte de las empresas. Por eso, si el análisis se basa en datos validados, bien estructurados y exactos, las directivas adoptadas también serán más eficaces.

La limpieza de datos aumenta los ingresos de la compañía

Es una consecuencia directa del anterior punto: el data cleaning ayuda a aumentar los ingresos de un negocio. Como las estadísticas son más exactas, las decisiones en el campo del marketing son mejores. Y, como es de esperar, eso conduce a una mejora de los resultados.

La compañía gozará de una mejor reputación

En el caso de las compañías que deben compartir información de manera pública, la limpieza de datos les otorga una mejor reputación. La confianza de sus clientes aumentará porque los datos proporcionados son efectivos.

Conclusión: el data cleaning es muy necesario

Después del análisis que hemos realizado acerca de la limpieza de datos o data cleansing, queda atestiguada la importancia de esta técnica. No podemos negar que es un proceso caro, que requiere mucho tiempo y trabajo. Pero se traduce en un análisis de los datos óptimo y, como consecuencia, en unas estadísticas y decisiones más exactas.

Una vez aplicado el data cleansing mediante la validación de datos, se requiere un mantenimiento, que es uno de sus retos. También lo es la posible pérdida de información. En cualquier caso, estas técnicas en la depuración y validación de datos propician que una compañía tome mejores decisiones y aumente su productividad. El data cleaning también permite que goce una mejor reputación.

MyDataQ de Deyde DataCentric es la herramienta definitiva para la optimización de datos. Un sistema compuesto por módulos que realizan normalización de nombres, estandarización y codificación de direcciones postales; también identifican los duplicados y enriquecen las direcciones postales con datos geográficos.