Pour cela, nous avons d'abord besoin du projet qui sera lancé ultérieurement via la ligne de commande. Pour le créer, procédez comme suit:

  1. Si vous ne l’avez pas encore fait, téléchargez le BatchDeduplicator gratuitement ici. Installez le logiciel et demandez une activation d’essai. Ainsi, vous pouvez travailler avec le logiciel pendant une semaine sans aucune restriction.
  2. Il faut commencer par créer un nouveau projet et entrer toutes les informations qui sont requises pour la recherche de doublons. Pour cela, on démarre l'administration des projets.

    Démarre l'administration des projets

  3. En cliquant sur 'Créer un nouveau projet', ...

    Créer un nouveau projet

    ... un dialogue apparaît dans lequel il faut commencer par entrer un nom pour le nouveau projet.

    Créer un nouveau projet - nom pour le projet

    En cliquant sur 'Suivant', vous arrivez à la sélection du type du projet. Vous aurez le choix ici entre 'Comparaison dans une table', 'Comparaison entre deux tables', 'Comparaison multiple' et 'Vérifier les adresses'. Choisissez 'Comparaison dans une table'.

    Créer un nouveau projet - type du projet

    En cliquant sur 'Suivant' encore une fois dans les fonctions de comparaison, vous arrivez au choix du critère à utiliser pour la recherche de doublons, par exemple, l'adresse postale ou le numéro de téléphone. Choisissez l’adresse postale comme critère de comparaison.

    Créer un nouveau projet - critère à utiliser pour la dédoublonnage

    En cliquant une dernière fois sur 'Suivant' et ensuite sur 'Terminer', le programme ouvre automatiquement la fenêtre 'Modifier un projet'.
  4. Ici vous ouvrez, à l’aide du bouton 'Ouvrir un fichier', le fichier avec les données à traiter.

    Source de données Access

    Pour les serveurs de bases de données (MS SQL Server, MySQL, Oracle ou PostgreSQL), il faut plutôt commencer par choisir le serveur de bases de données correspondant dans la liste de sélection dans 'Format / Accès à'. Ensuite, il faut entrer le nom du serveur de bases de données. Cliquez sur le bouton 'Connexion avec le serveur' et entrez vos données de connexion. Dans la liste de sélection correspondante, vous pouvez alors choisir la base de données et la table à traiter.
  5. Ensuite, il faut indiquer au logiciel où il peut trouver quelles informations dans la table, donc par exemple, la colonne dans laquelle est écrit le nom de la rue ou de la ville. Pour cela, il faut choisir, dans la liste de sélection avec les titres de colonne qui apparaissent dans la table, le champ de données qui correspond le mieux à chacune des désignations qui se trouvent juste à gauche.

    Classement de champs

    Le logiciel effectue automatiquement un classement des champs par défaut, basé sur les titres de colonnes. Puisqu’on veut rechercher des doublons en utilisant l’adresse postale, on doit aussi indiquer, pour chacune des parties constituantes de l’adresse postale, la colonne dans la table à traiter qui contient ces informations. Vous pouvez vérifier les résultats du classement des champs à l'aide de la 'Vérification du classement des champs', qui se trouve à droite sur votre écran.
  6. En cliquant sur 'Continuer', on arrive au dialogue pour la configuration de la fonction elle-même. Ici, le plus important c’est d’indiquer la valeur seuil pour la déviation maximale permise entre deux adresses.

    Degré de concordance

    De plus, on peut aussi exclure de la comparaison certaines parties constituantes de l’adresse postale. Ce faisant, il faut bien sûr avoir indiqué, lors du classement des champs effectué dans l’étape précédente, une colonne dans la table à traiter pour chaque partie constituante de l’adresse postale qui doit être inclue dans la comparaison.
  7. Finalement, il faut indiquer au logiciel comment il doit traiter les résultats de la comparaison, par exemple, s’il doit supprimer les enregistrements en double directement dans le fichier source ou s’il doit seulement les marquer. En cliquant sur 'Continuer', vous obtenez un aperçu avec les fonctions de traitement disponibles. Choisissez ici le 'Protocole de suppression standard' et le 'Fichier de résultats'.

    Traitement des résultats

    Vous devez entrer un nom de fichier pour chacun. Le fichier de résultats contiendra alors les données nettoyées.
  8. Bon, maintenant il devrait avoir un crochet vert à côté de notre projet dans la liste de projets disponibles dans l’aperçu. Le projet est ainsi complet et peut être exécuté. Vous pouvez démarrer le projet à l'aide du bouton 'Traiter le projet'. Ainsi, il sera exécuté immédiatement.

    Démarrer le projet

Bien, nous avons donc déjà le projet qui doit être lancé via la ligne de commande. Il ne nous reste plus qu'à trouver la commande pour la ligne de commande afin de lancer ce projet:

  1. Pour ce faire, fermez d'abord la gestion de projet. Appelez ensuite la fonction 'Paramètres de la ligne de commande' dans le menu principal:

    Paramètres de ligne de commande

  2. Sélectionnez le projet qui doit être lancé via la ligne de commande. Cliquez ensuite sur le bouton 'Créer la commande pour démarrer BatchDeduplicator en utilisant la ligne de commande':

    Générer les paramètres de ligne de commande

  3. La commande générée ressemblera probablement à celle-ci:

    "C:\Program Files (x86)\DataQualityApps\BatchDeduplicator8\BatchDeduplicator.exe" -exec 100


Si nécessaire, les paramètres suivants peuvent être ajoutés à cette commande:

  • -file1="<nom de fichier>" : le nom de fichier spécifié avec ce paramètre remplace le nom de fichier du premier table du projet à traiter. Le nouveau fichier/table doit contenir au moins tous les champs de données utilisés dans le projet concerné.
  • -nobackup : si ce paramètre est spécifié, aucune sauvegarde du fichier n'est créée avant sa modification lors de l'appel du programme.
  • -nolog : si ce paramètre est spécifié, aucun protocole n'est créé lors de l'appel du programme.
  • -noemail : si ce paramètre est spécifié, aucun e-mail de notification n'est envoyé lors de l'appel du programme.

Il est bien sûr pratique de pouvoir laisser un projet se dérouler sans surveillance. Mais si un problème survient, on souhaite naturellement en être informé. Pour savoir comment configurer un email de notification dans BatchDeduplicator, consultez l'article 'Configurer un email de notification'.