¿Por qué es importante normalizar datos?

normalizando datos

La importancia de normalizar datos reside en poner un orden y coherencia a los datos que tenemos para después poder extraer el máximo beneficio.

Tras un primer acercamiento con la tarea de normalizar datos, y en concreto aplicado a direcciones postales y nombres, y la codificación de los mismos, recordamos que en el caso de los nombres no se aplica esta codificación, ya que no existe una lista completa de todos los nombres y apellidos con los que nos podemos encontrar. En este sentido, podemos decir que una forma de codificar un nombre, asociado a una dirección, podría ser el número de documento de identidad, pero para eso deberíamos disponer de un censo de todas y cada una de las personas que vivan en cada país.

Así, los pasos serían, en primer lugar, normalizar el dato y, posteriormente, buscarlo en el fichero maestro para codificarlo. El dato normalizado puede coincidir con el dato correcto reflejado en el fichero maestro, o por el contrario no coincidir. En este último caso existen diferentes técnicas para tratar de emparejar un dato normalizado con un dato maestro.

Qué hacer si un dato normalizado no coincide con el dato maestro

Las dos principales técnicas son:

  1. Búsqueda por parecido: se trata de devolver el dato maestro que más se parezca al dato normalizado de origen.
  2. Búsqueda por versiones o variantes: se trata de tener otro fichero maestro que contenga diferentes acepciones, versiones o variantes de escritura asociadas a un dato maestro. Es decir, si nos llega como localidad ‘MADRIZ’ podemos decir que es una variante o una forma incorrecta de escribir ‘MADRID’. El proceso de codificación, además de poner el código de MADRID, devuelve el literal corregido.

En el caso de DEYDE utilizamos el método de las versiones. Si bien en ciertos países se hace un uso limitado de las búsquedas por parecido, el sistema de versiones es mucho más fiable que el de parecido. Este tiene un mayor margen de error, pero a la vez requiere de un mayor esfuerzo tanto en recursos humanos como en recursos software. Cuando el dato de entrada no es igual que el dato de salida normalizado y codificado, es que hemos aplicado un proceso de corrección del dato.

¿Para qué sirve normalizar datos y codificarlos?

El principal motivo y más importante de normalizar datos es que nos ayuda sobre todo a poner un orden. Si por ejemplo tenemos tres fuentes de datos, con nombres y direcciones, y cada una de ellas tiene un diseño diferente, tenemos un verdadero caos si pretendemos juntarlas. Imaginaos organizar algo así: una con el nombre y apellidos juntos en un campo; otra con un campo de nombre y otro campo para los dos apellidos; y la tercera con un campo para el nombre, otro para el primer apellido y otro para el segundo. A priori parece algo muy complejo.

Normalizar datos permite, por tanto, unificar diseños y facilitar la gestión de ese dato; y, como veíamos antes, igualar criterios a la hora de escribir ciertas palabras. Pero eso no es todo, ya que si tenemos nuestros datos codificados, además de permitirnos verificar la validez del dato, podemos reducir el espacio de almacenamiento de la información. Así, para referirnos a una población y una calle podemos almacenar en lugar de su nombre, su código, y luego tenemos un repositorio con los pares código y literal asociado.

¿Qué ventajas ofrece tener los datos corregidos?

Tener nuestros datos corregidos, nos ayuda a todo. Permite dar valor a nuestros datos, nos ayuda a tener una buena imagen frente a nuestros clientes, nos facilita obtener información y análisis fiables, entre otras muchas cosas.

Por ello, confiar en el uso de soluciones para una buena calidad de datos puede aportar a nuestras bases de datos numerosos beneficios. Además de tener una base de datos cuidada y limpia, puede evitarnos errores futuros muy costosos para la empresa. No esperes a que ocurra y pon en orden los datos de tus clientes. ¡Ponte en contacto con nosotros y solicita más información!

Más sobre DEYDE

Nace en el año 2001 en España, junto con su servicio principal. Ofrecemos normalización de nombres, estandarización y codificación de direcciones postales, identificación de duplicados y enriquecimiento de direcciones postales con datos geográficos. Diez años más tarde, desarrollamos MyDataQ Global Service y ofrecemos servicios de Calidad de Datos a nivel mundial. A los 15 años de su fundación, ya contamos con presencia en Portugal, Italia, México, Colombia y Chile (www.deyde.com).

¿A qué nos referimos al hablar de Normalización de los datos?

normalización

La normalización de los datos es, como la propia palabra indica, el acto de establecer una norma sobre algo, en este caso sobre una cifra, letra o palabra.

Dentro de la normalización de datos encontramos un amplio abanico de posibilidad de datos a normalizar dentro de cada empresa. En el caso que nos ocupa, asociado a la labor de DEYDE, hablamos de normalización de direcciones y de nombre. De este modo, en DEYDE:

Separamos una dirección en tipo de vía + nombre de vía + número de vía + resto de vía + código postal + población. Además, normalizamos esa misma dirección si en lugar de “resto de vía”, dividiésemos ese campo en piso + puerta + letra + bloque + escalera. Otros datos donde aplicamos la normalización es a la hora de separar un nombre en los distintos campos posibles, nombre + primer apellido + segundo apellido. Asimismo normalizaríamos ese mismo nombre si lo separásemos en nombre + nexo del primero apellido + primer apellido + nexo del segundo apellido + segundo apellido.

Campificación de datos

En este sentido, al normalizar lo que hacemos es separar la información de origen en diferentes campos, y por ello hablamos también de términos como campificar o parsear la información.

Esta normalización también la realizamos cuando existen varias formas de escribir una palabra como Avenida, avda, avd., av., avenida,…, y la convertimos en una sola como por ejemplo ‘AVDA’. Lo mismo sucede al hablar de las formas de escribir Izquierda, izq, izda IZQDA, que pasamos a convertir en ‘IZDA’.

En todos los casos, establecemos normas y vemos también que la normalización permite a su vez la corrección de los datos. Por ejemplo si nos llega un nombre como FANCISCO MTNEZ el proceso de normalización, además de separar en nombre y apellido, lo corregiría como FRANCISCO MARTINEZ, gracias a tablas de conocimiento que relacionan palabras con su corrección.

Un tipo de datos a normalizar de tipo numérico son los teléfonos, con acciones como la de asignar siempre el prefijo, separar el prefijo del número de teléfono en diferentes campos, eliminar los caracteres no numéricos del teléfono, … En el caso de los documentos de identidad, también podemos normalizarlo eliminando caracteres no alfanuméricos (puntos, guiones, comas, …).

Codificación de datos

En ocasiones a la labor de normalizar también se le denomina estandarizar, o lo que es lo mismo, aplicar un estándar. Ciertos datos, una vez normalizados, son susceptibles de ser codificados (asignar un código único al elemento tratado)

En DEYDE el concepto de codificar se aplica a las poblaciones y calles en el proceso de normalización de direcciones postales. De este modo, cada población y cada calle existente (en nuestros maestros) tiene un código único, asociado a la forma correcta de denominar a esas poblaciones y calles. Cuando codificamos un dato, además del propio acto en sí mismo, estamos confirmando que ese dato existe en un catálogo concreto, en nuestro caso, que existe en nuestros maestros.

De este modo, un dato puede estar normalizado pero no estar codificado. Por ejemplo:

  • La dirección ‘Calle Chile 4 28000 Las Matas’ se normaliza como ‘CL CHILE 4 28000 LAS MATAS’. Codificamos la población y la calle, ya que existe en dicha población.

  • La dirección ‘C/ Chile 4 28.000 Madrid’ se normaliza como ‘CL CHILE 4 28000 MADRID’. Codificamos la población, pero no la calle, ya que no existe en dicha población.

Por contrario, otros datos, como el caso de los nombres, no se codifican ya que no tiene mucho sentido. Podríamos poner un código a todos los que se llaman “LUIS”, y otro código para todos los que se apellidan “MARTINEZ”, el problema es que no existe una lista completa de todos los nombres y apellidos con los que nos podemos encontrar. Por el contrario, el número de calles y poblaciones, está más limitado, por mucho que sea elevado.

Apostar por una buena calidad de datos es evitar problemas más adelante, y para ello es importante tener tus bases de datos normalizadas. Si estás interesado en normalizar tu base de datos o las de tus clientes desde DEYDE recomendamos nuestra solución MyDataQ. ¡Ponte en contacto con nosotros y solicita más información!