Déduplication universel

 

Avec ces fonctions, les colonnes à utiliser et les critères à être appliqués dans le dédoublonnage peuvent être déterminés au choix. Vous pouvez déterminer pour chaque colonne si elle doit être incluse dans la comparaison.

Si un champ de données doit être comparé avec, les informations suivantes doivent être saisies:

  • Contenu du champ: Type de contenu du champ de données. La sélection qui y est effectuée doit décrire le contenu du champ de données aussi précisément que possible, afin que le programme puisse traiter les données de manière appropriée lors de la comparaison. Pour un champ de données contenant un code postal, vous devez également sélectionner « code postal » comme contenu de champ.
  • Degré de conncordance: Valeur seuil pour le facteur concordance en pourcentage, qui doit au moins être atteint pour la paire de colonnes ou le groupe en question.
    Si plusieurs champs de données contiennent le même contenu de champ, ils peuvent être combinés en un groupe. Leur contenu est alors soit combiné pour la comparaison, soit chaque champ de données d'un groupe est individuellement comparé avec chaque champ de données de l'autre groupe.

Il est par ailleurs possible de définir une valeur seuil individuelle pour le degré de concordance calculé pour l'ensemble du enregistrement.

En outre, les options suivantes peuvent être utilisées si nécessaire:

  • Múltiples definiciones para la deduplicación: Ceci vous permet de définir plusieurs critères de comparaison différents qui sont ensuite traités l'un après l'autre. Il peut s'agir par exemple, comme pour le All-in-One deduplication, du numéro de téléphone, de l'adresse électronique et de l'adresse postale.
  • Pondération: En réduisant le poids des champs de données moins importants, le facteur de concordance calculé pour l'ensemble du jeu de données peut être minimisé.
  • Sauter le jeu de données si le champ de données est vide: Ceci vous permet d'exclure les jeux de données incomplets de la comparaison.
  • Condition qui peut ne pas s'appliquer: Dans ce cas, la valeur seuil du facteur concordance ne doit pas être dépassée, mais doit être inférieure à la valeur seuil pour aboutir à un résultat positif. Par exemple, il est possible de déterminer des jeux de données dans lesquels le prénom correspond, mais pas le titre de salutation. Il est également ainsi possible, lors de la comparaison de deux tableaux, que deux enregistrements de données ne soient pas comparés si leur ID est identique.

Vu que les critères de comparaison pour cette fonction peuvent être composés au choix, des applications variées sont pensables: ainsi, un dédoublonnage peut être faite avec la date de naissance, les coordonnées bancaires ou avec le numéro de carte de crédit. Mais aussi des tables contenant des données autres que des adresses peuvent être dédoublonnées, tel que des désignations d’article, des titres de livres ou des remarques. 

 

Comparaison universelle