¿Por qué es importante normalizar datos?
La importancia de normalizar datos reside en poner un orden y coherencia a los datos que tenemos para después poder extraer el máximo beneficio.
Tras un primer acercamiento con la tarea de normalizar datos, y en concreto aplicado a direcciones postales y nombres, y la codificación de los mismos, recordamos que en el caso de los nombres no se aplica esta codificación, ya que no existe una lista completa de todos los nombres y apellidos con los que nos podemos encontrar. En este sentido, podemos decir que una forma de codificar un nombre, asociado a una dirección, podría ser el número de documento de identidad, pero para eso deberíamos disponer de un censo de todas y cada una de las personas que vivan en cada país.
Así, los pasos serían, en primer lugar, normalizar el dato y, posteriormente, buscarlo en el fichero maestro para codificarlo. El dato normalizado puede coincidir con el dato correcto reflejado en el fichero maestro, o por el contrario no coincidir. En este último caso existen diferentes técnicas para tratar de emparejar un dato normalizado con un dato maestro.
Qué hacer si un dato normalizado no coincide con el dato maestro
Las dos principales técnicas son:
- Búsqueda por parecido: se trata de devolver el dato maestro que más se parezca al dato normalizado de origen.
- Búsqueda por versiones o variantes: se trata de tener otro fichero maestro que contenga diferentes acepciones, versiones o variantes de escritura asociadas a un dato maestro. Es decir, si nos llega como localidad ‘MADRIZ’ podemos decir que es una variante o una forma incorrecta de escribir ‘MADRID’. El proceso de codificación, además de poner el código de MADRID, devuelve el literal corregido.
En el caso de DEYDE utilizamos el método de las versiones. Si bien en ciertos países se hace un uso limitado de las búsquedas por parecido, el sistema de versiones es mucho más fiable que el de parecido. Este tiene un mayor margen de error, pero a la vez requiere de un mayor esfuerzo tanto en recursos humanos como en recursos software. Cuando el dato de entrada no es igual que el dato de salida normalizado y codificado, es que hemos aplicado un proceso de corrección del dato.
¿Para qué sirve normalizar datos y codificarlos?
El principal motivo y más importante de normalizar datos es que nos ayuda sobre todo a poner un orden. Si por ejemplo tenemos tres fuentes de datos, con nombres y direcciones, y cada una de ellas tiene un diseño diferente, tenemos un verdadero caos si pretendemos juntarlas. Imaginaos organizar algo así: una con el nombre y apellidos juntos en un campo; otra con un campo de nombre y otro campo para los dos apellidos; y la tercera con un campo para el nombre, otro para el primer apellido y otro para el segundo. A priori parece algo muy complejo.
Normalizar datos permite, por tanto, unificar diseños y facilitar la gestión de ese dato; y, como veíamos antes, igualar criterios a la hora de escribir ciertas palabras. Pero eso no es todo, ya que si tenemos nuestros datos codificados, además de permitirnos verificar la validez del dato, podemos reducir el espacio de almacenamiento de la información. Así, para referirnos a una población y una calle podemos almacenar en lugar de su nombre, su código, y luego tenemos un repositorio con los pares código y literal asociado.
¿Qué ventajas ofrece tener los datos corregidos?
Tener nuestros datos corregidos, nos ayuda a todo. Permite dar valor a nuestros datos, nos ayuda a tener una buena imagen frente a nuestros clientes, nos facilita obtener información y análisis fiables, entre otras muchas cosas.
Por ello, confiar en el uso de soluciones para una buena calidad de datos puede aportar a nuestras bases de datos numerosos beneficios. Además de tener una base de datos cuidada y limpia, puede evitarnos errores futuros muy costosos para la empresa. No esperes a que ocurra y pon en orden los datos de tus clientes. ¡Ponte en contacto con nosotros y solicita más información!
Más sobre DEYDE
Nace en el año 2001 en España, junto con su servicio principal. Ofrecemos normalización de nombres, estandarización y codificación de direcciones postales, identificación de duplicados y enriquecimiento de direcciones postales con datos geográficos. Diez años más tarde, desarrollamos MyDataQ Global Service y ofrecemos servicios de Calidad de Datos a nivel mundial. A los 15 años de su fundación, ya contamos con presencia en Portugal, Italia, México, Colombia y Chile (www.deyde.com).