Les adresses en double

Il arrive souvent que les listes d'adresses utilisées pour les campagnes de marketing soient composées de différentes sources. Et même si toutes les adresses proviennent de la même source, vous pouvez être sûrs que certaines adresses s’y retrouveront en double et en triple.

Différents facteurs peuvent être à l’origine des doublons dans les listes d'adresses:

  • Lors de la fusion d’adresses provenant de différentes sources, les doublons sont quasi inévitables, puisque le cas est rare où il n’y aura pas de chevauchement entre les listes d'adresses à fusionner.
  • Il se peut que différents employés aient différentes idées sur la saisie des adresses, par exemple, si le terme 'boulevard' dans le nom de la rue doit être écrit en toutes lettres ou non. Et même lorsqu’il s’agit d’un seul employé, la saisie des adresses peut aussi varier. Les adresses saisies sous pression de temps, par exemple, ne contiendront que les informations réduites au minimum.
  • Si le logiciel utilisé pour saisir les adresses n’est pas assez flexible, par exemple, les adresses peuvent être saisies en double pour la simple raison qu’il n’y a pas la possibilité d’entrer plus qu’un interlocuteur par adresse.
  • Si le logiciel utilisé pour saisir les adresses n’est pas conçu pour prévenir les doublons lors de la saisie ou si la fonction du logiciel à cet effet n’est pas assez performante, l’employé qui veut saisir la nouvelle adresse ne se rend même pas compte que celle-ci existe déjà dans la liste d'adresses.

On voit qu’il est presque impossible de prévenir les entrées multiples dans les listes d'adresses. Donc, il est d’autant plus important de faire une recherche des adresses en double de temps en temps dans les listes d'adresses. Beaucoup de solutions qui sont offertes pour adresser ce problème ou qui sont intégrées dans les logiciels d’administration ne résolvent le problème qu’en partie. Il peut avoir de grandes différences entre deux adresses qui sont en fait identiques:

  • Le prénom pourrait être écrit en avant du nom de famille dans une des adresses, et dans l’autre, en arrière du nom de famille.
  • Le prénom ou d’autres parties constituantes de l’adresse peuvent être raccourcis.
  • Particulièrement avec les noms de compagnies, il est possible que des parties de la raison sociale n’aient pas été saisies, par exemple, 'BMW' au lieu de 'BMW Group'.
  • Il peut aussi y avoir des lettres manquantes, des lettres inversées ou des erreurs de frappe, par exemple, un 'i' a été frappé au lieu d’un 'j'.
  • Il peut y avoir des différences dans l’emploi des majuscules et minuscules. Par exemple, les adresses qui ont été saisies dans des formulaires Internet sont souvent sans majuscules, et ne sont composées que de lettres minuscules.

Le nom 'Albert Einstein', par exemple, pourrait être saisi des façons suivantes:

  • (100%) Einstein Albert
  • (95%) A. Einstein
  • (98%) Albert Einssein
  • (87%) Abert Meinstein

Les logiciels qui sont spécialement créés pour adresser ce problème le résolvent en calculant un pourcentage pour le degré de concordance entre deux mots. Dans l’exemple précédent, les pourcentages entre parenthèses montrent le degré de concordance calculé par DataQualityTools. Avec de tels logiciels, l’utilisateur peut généralement déterminer, à l’aide d’une valeur seuil, la déviation permise entre deux adresses qui seront alors reconnues en tant que doublons. Plus que cette valeur seuil est basse, plus que la déviation permise entre deux adresses est grosse, et plus que la probabilité sera grande que le logiciel trouvera des doublons qui n’en sont pas. Idéalement, l’utilisateur pourra vérifier les résultats de la recherche de doublons et enlever l’un ou l’autre doublon erroné avant qu’il ne soit supprimé de la liste d'adresses.

DedupeWizard et DataQualityTools sont deux logiciels créés spécialement pour cette tâche: