Dans l'idéal, les deux tables à traiter comportent un critère permettant de les relier de manière univoque, par exemple un identifiant ou un numéro d'article. Dans ce cas, la première étape consistant à relier les deux tables est rapidement effectuée. Si ce n'est pas le cas, nous vous recommandons de consulter cet article : "Enrichir les adresses"

Enfin, il se peut que les données à utiliser pour l'enrichissement soient disponibles dans différents formats. Le table cible pour l'enrichissement peut par exemple être une liste enregistrée dans un fichier Excel. Et le table source peut être un fichier texte. Ou il peut s'agir de données provenant d'une base de données gérée par un serveur de base de données tel que MySQL ou SQL Server. Bien sûr, avant l'enrichissement proprement dit, vous pouvez, dans un premier temps, vous assurer que les deux ensembles de données sont au même format en les exportant et/ou en les convertissant de manière appropriée. Mais il est beaucoup plus simple de s'en passer et de traiter les données directement dans le format dans lequel elles sont disponibles.

Les DataQualityTools, entre autres, maîtrisent tout cela et bien plus encore. Pour enrichir les données, procédez comme suit :

  1. Si vous ne l’avez pas encore fait, téléchargez DataQualityTools gratuitement ici. Installez le logiciel et demandez une activation d’essai. Ainsi, vous pouvez travailler avec le logiciel pendant une semaine sans aucune restriction.
  2. La fonction dont nous avons besoin se trouve dans le menu du bloc "Sélectionner les données". Sélectionnons la fonction "Enrichir les données (2 Tables)" pour l'enrichissement:

    Enrichir les données

  3. Suite au démarrage de cette fonction, l'administration des projets apparaît à l’écran. Créez un nouveau projet avec un nom de projet quelconque et cliquez ensuite sur le bouton "Continuer".
  4. À l'étape suivante, nous ouvrons d'abord les deux tables contenant les données à traiter à l'aide du bouton "Ouvrir le fichier":

    Ouvrir le fichier

    Les fichiers Excel, Access, dBase, CSV et texte sont pris en charge.

    Pour les serveurs de bases de données (MS SQL Server, MySQL, MariaDB, Oracle, Azure SQL ou PostgreSQL), il faut d'abord sélectionner le serveur de base de données correspondant dans la liste déroulante sous "Format / Accès à". Il faut ensuite saisir le nom du serveur de base de données. Après avoir cliqué sur le bouton "Se connecter au serveur", il faut saisir les données d'accès. La sélection de la base de données souhaitée et du table correspondant s'effectue enfin à partir des listes de sélection correspondantes.
  5. Il faut ensuite indiquer au programme le critère à l'aide duquel les deux tables doivent être liés. Par exemple, nous pourrions relier les deux tables via le champ de données "ID" du premier table et "ID_B" du deuxième table :

    Lier des tables

    Dans ce cas, le résultat comprend toutes les paires d'enregistrements pour lesquelles le contenu de la colonne "ID" du premier table correspond au contenu de la colonne "ID_B" du deuxième table.
  6. Si nécessaire, un filtre peut être créé pour chacun de ces deux tables:

    Filtrer les données

    Dans ce cas, seuls les enregistrements du premier table dont le contenu de la colonne "ID" est inférieur à 100 sont utilisés pour la liaison avec le deuxième table.
  7. Un clic sur le bouton "Continuer" lance alors le traitement des données. Cela ne prend pas longtemps et un résumé du résultat s'affiche:

    Résultat de la sélection

    Si le programme a trouvé des correspondances entre les tables à traiter, un clic sur le bouton "OK" ouvre la boîte de dialogue avec les fonctions permettant de traiter le résultat.
  8. Dans la boîte de dialogue contenant les fonctions permettant de traiter le résultat, vous trouverez tout en haut un bouton intitulé "Traitement manuel". Le résultat de la comparaison y est présenté sous forme de table. Les enregistrements à sélectionner sont signalés par une coche verte qui peut être supprimée si nécessaire.

    Exemple d'enrichissement des données

  9. Enfin, le résultat doit encore être traité. Comme mentionné ci-dessus, nous voulons enrichir les données, c'est-à-dire transférer certaines informations d'une base de données à l'autre en fonction du résultat de la sélection. Pour ce faire, nous sélectionnons la fonction correspondante en cliquant d'abord sur "Fonctions d'enrichissement":

     Fonctions d'enrichissement

    Puis sur "Enrichir dans le table d'origine":

    Enrichir dans la table d'origine

  10. Dans notre cas, le table dans lequel les données sont écrites (= table cible) est le table "sample1.xls":

    Table des cibles

    Les données du jeu de données non marqué sont alors transférées vers le jeu de données marqué (voir post-traitement manuel):

    Transférer les données vers l'enregistrement AVEC marquage

    Pour enrichir les données, il ne nous reste plus qu'à indiquer au programme quelles informations il doit écrire et à quel endroit. Pour ce faire, nous ajoutons ici une ou plusieurs paires de colonnes:

    Ajouter une paire de colonnes

    Par exemple, les informations de la colonne "Tel" du table source pourraient être écrites dans le champ de données "Result A" du table cible et les informations de la colonne "Email" dans le champ de données "Result B".

    Attribution des colonnes

    Dans les deux cas, le contenu du champ de données cible doit être écrasé, le cas échéant, par les informations du table source (= "Action") :

    Action : écraser

  11. En option, il est possible d'ajouter aux enregistrements enrichis d'informations supplémentaires une indication précisant la provenance de ces données. Cette indication est nécessaire pour pouvoir satisfaire pleinement au droit d'accès aux données à caractère personnel et ainsi respecter les dispositions de diverses lois sur la protection des données, telles que le RGPD (règlement général sur la protection des données):

    Origine des données

    Toutes les informations nécessaires à l'enrichissement des données sont désormais disponibles. Cliquez sur le bouton "Traiter les données" pour lancer le processus.

Renseignement: Il y a une vidéo d’instruction pour DataQualityTools qui vous introduit à l’opération du logiciel par l’exemple d’une recherche de doublons dans une table.