Skip to content

¿Qué es la deduplicación?

El término “deduplicación” hace referencia a la identificación de un registro que aparece repetido o que contiene los mismos datos que otro en una base de datos. Este término no está recogido por la RAE, pero en el entorno del Data Management es muy utilizado para hacer referencia a la localización de uno o varios registros duplicados en un fichero.

Mediante la comparación de los datos de comunicación, identificación y/o de localización podemos identificar el grado de parecido que hay entre dos registros. Según sea este grado de parecido podremos decir si existe duplicidad o es un registro único. Todo ello nos permite obtener una visión única de cliente.

Para la localización de duplicados se comparan los datos de nombre y dirección postal pudiendo utilizarse otros parámetros de apoyo como el teléfono, el NIF, etc. y, en función del parecido se determina si los registros son el mismo.

En todo momento hablamos de la identificación o localización de registros duplicados en una base de datos para su posterior tratamiento, ya que tras esta identificación se pueden realizar acciones como el borrado de datos duplicados, la ampliación de información por combinación de ambos registros o cualquier otro tratamiento que se desee.

El software incorpora el dato de grado de parecido (peso) entre los registros comparados, cuanto menor sea el valor del peso de diferencia mayor similitud existe entre los registros. Este indicador de peso es de gran ayuda a la hora de tomar decisiones sobre los resultados obtenidos en el proceso.

Sin duda alguna, para obtener un aumento en la garantía de parecidos de los registros de una base de datos se recomienda aplicar, de forma previa, las normas de normalización, estandarización y codificación de los datos. El hecho de comparar los datos en bruto (sin normalizar) aumentará el riesgo de no considerar duplicados.

Un ejemplo claro:

LUIS MARTINEZ PEREZ       PSO CASTELLANA 23 MADRID

LUIS MTNEZ PEREZ              AVDA GENERALISIMO 23 MADRID (Antiguo nombre del Paseo de la Castellana)

Si el proceso de localización de duplicados no se ejecuta sobre una base de datos precisamente normalizada estos dos registros del ejemplo anterior no se marcarían como iguales. Sin embargo, si el fichero es previamente normalizado el resultado a comparar sería:

LUIS MARTINEZ PEREZ           PSO CASTELLANA 23 MADRID

LUIS MARTINEZ PEREZ           PSO CASTELLANA 23 MADRID

A simple vista se detecta que los registros no solo están duplicados, sino que son idénticos.

La búsqueda de duplicados comienza con la generación de una clave para cada registro que agiliza la comparación de los mismos, dicha clave se genera con la información del nombre y dirección postal de cada registro.

De forma similar a la identificación de duplicados, la tecnología utilizada en Deyde DataCentric resulta útil para comparar registros entre ficheros y listas de supresión.

Otro de los puntos fuertes de la tecnología de Deyde DataCentric con respecto a la identificación de registros duplicados radica en la identificación de unidades familiares y/o vecinales. La capacidad de agrupar varios registros pertenecientes a un mismo entorno resulta fundamental a la hora de elaborar la estrategia de la empresa, y además consigue una notable reducción de tiempo y costes.

Ventajas de la deduplicación de datos

ventaja 1

Visión única del cliente libre de duplicidades

ventaja 2

Segmentación y agrupación de tu base de datos por unidades familiares/vecinales.

ventaja 3

Identificación de clientes pertenecientes a la Lista Robinson de exclusión publicitaria

ventaja 4

Esencial para la transformación digital

Otras formas de optimización de datos

Normalización de datos

Estandarizamos y campificamos datos de nombres, direcciones postales, ID, teléfono y e-mail.

Enriquecimiento de datos

Aportamos riqueza y aumentamos la información de las bases de datos con información geográfica y estadística.