Doublons avec de petites différences

Trouver des doublons exacts ne pose, en général, pas de problèmes. Cependant, quand il s’agit de trouver des doublons avec de petites différences comme cela peut se produire, par exemple, à cause d’une faute de frappe, des mots transposés, des lettres omises et des lettres ajoutées, la tache devient beaucoup plus difficile.

Les données et surtout les adresses sont enregistrées, en général, par des personnes. Et ce faisant, chaque personne utilise son propre style. Celui-ci a l’habitude d’enregistrer le prénom devant le nom de famille, comme dans "Albert Einstein". Alors que celui-là estime qu’il est évident que le nom de famille doit être enregistré avant le prénom comme dans "Einstein Albert". Quelqu’un d’autre va abréger le prénom parce qu’ainsi les informations peuvent être enregistrées plus rapidement : "A. Einstein". Un autre encore fait une erreur typographique et transforme "Albert Einstein" en "Albert Einsein".

Il en va de même pour les noms de sociétés : les noms de lieux comme "Berlin" dans "BioEnergy Berlin GmbH" ou la mention de l’objet commercial comme "Computer" dans "Apple Computer Inc" sont souvent omis ou enregistrés sous une forme modifiée. Même la forme juridique d’une entreprise n’est pas toujours enregistrée de manière cohérente. Les variations possibles dans ce cas seraient, par exemple, "G.m.b.H." et "GmbH". C’est le même problème avec les noms de rue : "First Avenue", "First Av" ou "1st Av", désignent probablement la même rue. Toutes ces différences dans l’enregistrement des données sont des doublons, mais des doublons avec de petites différences et ceux-ci vous coûtent de l’argent.

Alors que faire ? Si les adresses sont enregistrées dans des fichiers texte, vous ne pouvez rien faire sans une solution conçue expressément à cet effet. Pour les serveurs de base de données comme MySQL, MariaDB ou SQL Server, vous pouvez essayer de résoudre ce problème avec la commande SOUNDEX, mais les possibilités qu’elle offre sont limitées. Vous pouvez vous renseigner à ce sujet en lisant l’article "Trouver les doublons flous avec SQL". Même dans Excel, les choses ne s’arrangent pas : Excel n’offre qu’une seule fonction qui ne trouve que les doublons exacts, c’est-à-dire les doublons qui correspondent caractère par caractère. Les doublons qui diffèrent un peu ne sont pas reconnus par cette fonction. En dernière analyse, seuls les outils spécialisés qui incluent un algorithme d’appariement tolérant aux erreurs peuvent fournir une solution satisfaisante à ce problème, comme DeduplicationWizard et DataQualityTools: