Malheureusement, les adresses sont des données pour lesquelles il n'est généralement pas facile d'associer un enregistrement à un autre. En règle générale, il n'existe pas de critère clair à cet effet. En effet, les adresses ne se composent pas seulement de différents éléments, elles sont aussi souvent saisies de manière différente. Les fautes d'orthographe ne sont qu'un des problèmes. À cela s'ajoutent les mots inversés, les abréviations, les omissions et les ajouts et, dans les cas extrêmes, même les synonymes tels que les surnoms. Pour pouvoir enrichir une adresse, il faut toutefois disposer d'une relation aussi claire que possible entre les deux bases de données à utiliser à cette fin. Cela limite considérablement le choix des outils pouvant être utilisés à cette fin.

Enfin, il y a le problème que les bases de données à utiliser pour l'enrichissement des adresses peuvent être disponibles dans différents formats. La source de données cible pour l'enrichissement pourrait être, par exemple, une liste d'adresses enregistrée dans un fichier Excel. Et la source de données pourrait être un fichier texte. Ou il peut s'agir de données provenant d'une base de données gérée par un serveur de base de données tel que MySQL ou SQL Server. Bien sûr, avant l'enrichissement proprement dit, on pourrait, dans un premier temps, s'assurer que les deux ensembles de données sont au même format en les exportant et/ou en les convertissant de manière appropriée. Mais il est beaucoup plus simple de s'en passer et de traiter les données directement dans le format dans lequel elles sont disponibles.

Les DataQualityTools, entre autres, maîtrisent tout cela et bien plus encore. Pour enrichir des données d'adresses, procédez comme suit:

  1. Si vous ne l’avez pas encore fait, téléchargez DataQualityTools gratuitement ici. Installez le logiciel et demandez une activation d’essai. Ainsi, vous pouvez travailler avec le logiciel pendant une semaine sans aucune restriction.
  2. La fonction dont nous avons besoin pour enrichir la liste d'adresses se trouve dans le menu, dans le bloc "Comparaison entre deux tablesw". Sélectionnons la fonction "Comparaison via l'adresse postale" pour l'enrichissement des adresses:

    Comparaison via l'adresse postale

  3. Suite au démarrage de cette fonction, l'administration des projets apparaît à l’écran. Créez un nouveau projet avec un nom de projet quelconque et cliquez ensuite sur le bouton "Continuer".
  4. À l'étape suivante, nous ouvrons d'abord le fichier contenant la liste d'adresses à traiter à l'aide du bouton "Ouvrir le fichier":

    Source des données Access

    Les fichiers Excel, Access, dBase, CSV et texte sont pris en charge.

    Pour les serveurs de bases de données (MS SQL Server, MySQL, MariaDB, Oracle, Azure SQL ou PostgreSQL), sélectionnez d'abord le serveur de base de données correspondant dans la liste de sélection sous "Format / Accès à". Saisissez ensuite le nom du serveur de base de données. Après avoir cliqué sur le bouton "Se connecter au serveur", vous devez saisir les données d'accès. La sélection de la base de données souhaitée et du table correspondant s'effectue enfin à partir des listes de sélection correspondantes.
  5. Il faut ensuite indiquer au programme dans quelle colonne du table il trouve quelles informations, par exemple dans quelle colonne se trouve la rue ou le nom de la localité. Pour ce faire, il faut sélectionner dans les listes de sélection contenant les noms des colonnes du table le champ de données qui correspond le mieux à la désignation située à gauche:

    Attribution des champs

    Le programme effectue automatiquement cette attribution des champs en fonction des noms des colonnes. Comme nous voulons rechercher les doublons à partir de l'adresse postale, nous devons également indiquer, pour tous les éléments de l'adresse postale, les colonnes du table à traiter dans lesquelles ces informations sont enregistrées. Le résultat de l'attribution des champs peut être vérifié à l'aide du "Contrôle de l'attribution des champs" situé dans la partie droite de l'écran.
  6. Pour pouvoir spécifier le deuxième table, cliquez sur le bouton "Suivant". La boîte de dialogue qui s'affiche est identique à la précédente et s'utilise de la même manière. Spécifiez ici le deuxième table et effectuez l'attribution des champs de la même manière que pour le premier table.
  7. Le bouton "Continuer" nous amène à la boîte de dialogue dans laquelle la fonction proprement dite est configurée. Il faut tout d'abord indiquer la valeur seuil pour l'écart maximal autorisé entre deux adresses.

    Facteur de correspondance

    En outre, certains éléments de l'adresse postale peuvent être exclus de la comparaison. Pour cela, il faut bien sûr indiquer une colonne des deux tables pour chaque élément de l'adresse postale à comparer dans l'affectation des champs effectuée lors des deux étapes précédentes.

    Remarque : les deux tables entre lesquels la recherche de doublons doit être effectuée peuvent être structurés de manière très différente. Par exemple, dans un table, le numéro de maison peut se trouver dans la même colonne que la rue, tandis que dans l'autre table, ces informations peuvent se trouver dans deux colonnes distinctes. Il est seulement important que les trois colonnes soient spécifiées dans l'attribution des champs pour ces deux tables.
  8. Le table que nous avons d'abord indiqué au programme est généralement celui dans lequel les adresses du deuxième table sont recherchées.

    Sens de la comparaison

    Par défaut, dans ce cas, les données de ce table sont transférées vers le deuxième table lors de l'enrichissement. Mais cela peut être modifié. D'une part, il est possible de modifier à cet endroit du programme le sens dans lequel la comparaison doit être effectuée. Si le sens est modifié, les enregistrements de la deuxième table ne sont plus recherchés dans la première table, mais ceux de la première table dans la deuxième. De plus, lors de la configuration de l'enrichissement des adresses, il est également possible de spécifier ultérieurement à partir de quelle table les données doivent être transférées vers l'autre table.
  9. Un clic sur le bouton "Continuer" lance alors la recherche de doublons. Cela ne prend pas longtemps et un résumé du résultat s'affiche.

    Résultat de la comparaison

    Si le programme a trouvé des doublons entre les tables à traiter, un clic sur le bouton "OK" ouvre la boîte de dialogue avec les fonctions permettant de traiter le résultat. Sinon, il convient de choisir une valeur seuil plus faible pour le degré de correspondance et de relancer la synchronisation.
  10. Dans la boîte de dialogue contenant les fonctions permettant de traiter le résultat, vous trouverez tout en haut un bouton intitulé "Traitement manuel". Le résultat de la comparaison y est présenté sous forme de table. Les enregistrements à supprimer sont signalés par une croix rouge, qui peut être supprimée si nécessaire.

    Exemple d'enrichissement d'adresses

  11. Enfin, le résultat doit encore être traité. Comme mentionné ci-dessus, nous voulons enrichir les données d'adresse, c'est-à-dire transférer certaines informations d'une base de données à l'autre à partir du résultat de la comparaison. Pour ce faire, nous sélectionnons la fonction correspondante en cliquant d'abord sur "Fonctions d'enrichissement":

    Fonctions d'enrichissement

    Puis sur "Enrichir dans le table d'origine":

    Enrichissement d'adresses

  12. Dans notre cas, le table dans lequel les données sont écrites (= table cible) est le table "sample1.xls":

    Tableau cible

    Les données du jeu de données sans marque de suppression sont transférées vers le jeu de données avec marque de suppression (voir table avec le résultat décrit au point 10):

    Transférer les données vers l'enregistrement AVEC marquage

    Pour enrichir les adresses, il ne nous reste plus qu'à indiquer au programme quelles informations il doit écrire et à quel endroit. Pour ce faire, nous ajoutons ici une ou plusieurs paires de colonnes:

    Ajouter une paire de colonnes

    Par exemple, les informations de la colonne "Tel" du table source pourraient être écrites dans le champ de données "Result_A" du table cible et les informations de la colonne "Email" dans le champ de données "Result_B".

    Attribution des colonnes

    Dans les deux cas, le contenu du champ de données cible doit être écrasé, le cas échéant, par les informations du table source (= "Action") :

    Action : écraser

  13. En option, il est possible d'ajouter aux enregistrements enrichis d'informations supplémentaires une indication précisant la provenance de ces données. Cette indication est nécessaire pour pouvoir satisfaire pleinement au droit d'accès aux données à caractère personnel et ainsi respecter les dispositions de diverses lois sur la protection des données, telles que le RGPD (règlement général sur la protection des données).

    Origine des données

    Toutes les informations nécessaires à l'enrichissement des adresses sont désormais disponibles. Cliquez sur le bouton "Traiter les données" pour lancer le processus.

Renseignement: Il y a une vidéo d’instruction pour DataQualityTools qui vous introduit à l’opération du logiciel par l’exemple d’une recherche de doublons dans une table.