Pour cela, il faut un programme capable d'associer les enregistrements d'une table aux enregistrements d'une autre table. Pour les identifiants et les données similaires, il suffit de trouver des correspondances exactes. Pour certaines données, telles que les adresses, une approche plus complexe est toutefois nécessaire. En effet, les noms sont souvent orthographiés différemment, certaines parties peuvent être abrégées ou omises, ou encore être tout simplement mal orthographiées. Un programme de comparaison entre deux tables doit bien sûr tenir compte de ces divergences. Les DataQualityTools sont un programme qui peut être utilisé à cette fin.
Pour ce faire, procédez avec les étapes suivantes:
- Si vous ne l’avez pas encore fait, téléchargez DataQualityTools gratuitement ici. Installez le logiciel et demandez une activation d’essai. Ainsi, vous pouvez travailler avec le logiciel pendant une semaine sans aucune restriction.
- La fonction requise se trouve dans le menu du bloc 'Comparaison entre deux tables'. Choisissez 'Dédoublonnage universel':

- Suite au démarrage de cette fonction, l'administration des projets apparaît à l’écran. Créez un nouveau projet avec un nom de projet quelconque et cliquez ensuite sur le bouton 'Continuer'.
- Dans la prochaine étape, il faut commencer par ouvrir, à l'aide du bouton 'Ouvrir un fichier', le fichier Access avec les données à traiter.

Ensuite, il faut entrer le nom du serveur de bases de données. Cliquez sur le bouton 'Connexion avec le serveur' et entrez vos données de connexion. Dans la liste de sélection correspondante, vous pouvez alors choisir la base de données et la table à traiter. - Ensuite, il faut indiquer au programme quelles sont les colonnes de la table à comparer:

Dans cet exemple, la colonne 'City' fait partie des colonnes à comparer. Elle contient les noms de villes, c'est pourquoi le champ 'Ville' a été sélectionné dans la liste de sélection du contenu. Une valeur minimale de 70% a également été sélectionnée pour le degré de concordance. Le nom de la ville doit donc correspondre à au moins 70% pour que l'entrée en question apparaisse dans les résultats.
Si nécessaire, plusieurs colonnes individuelles peuvent également être regroupées:
Le contenu des colonnes est alors fusionné dans le groupe avant la comparaison pour être comparé en même temps. Dans cet exemple, le contenu des champs de données 'City' et 'HouseNo' de la table 1 est comparé au contenu du champ de données 'Street' de la table 2. - En cliquant sur le bouton 'Suivant', une boîte de dialogue s’ouvre avec d’autres options. Elles ne sont pas utiles ici.
- En cliquant sur 'Continuer', vous démarrez la recherche de doublons. Ça ne prend que quelques moments et vous obtenez un sommaire des résultats.

Si le logiciel trouve des doublons entre les deux tables, en cliquant sur 'OK' vous parvenez au dialogue avec les fonctions pour la traitement des résultats. Sinon, la valeur seuil pour le degré de concordance doit être réduite et vous devez redémarrer la comparaison. - Dans le dialogue avec les fonctions pour traiter les résultats, il y a un bouton tout en haut avec l’inscription 'Retouches manuelles'. Ici, les résultats de la comparaison sont présentées sous forme tabellaire. Les enregistrements qui doivent être supprimés sont marqués ici avec une croix rouge, qui peut aussi être enlevée au besoin.

- Finalement, il faut encore traiter les résultats. Par exemple, on pourrait supprimer les enregistrements qui sont marqués d’une croix rouge directement dans le fichier Access. Pour cela, on sélectionne la fonction appropriée en cliquant d'abord sur 'Fonctions de suppression':

Puis sur 'Supprimer dans la table source':
La recherche de doublons entre deux tables peut aussi se faire avec DedupeWizard. Celui-ci ne peut traiter que les fichiers Excel et ne contient que les fonctions les plus importants des DataQualityTools.
Renseignement: Il y a une vidéo d’instruction pour DataQualityTools qui vous introduit à l’opération du logiciel par l’exemple d’une recherche de doublons dans une table.
Dans l'article 'Supprimer des doublons dans Access', vous pouvez lire comment utiliser DataQualityTools pour la recherche de doublons dans une liste d'adresses.

