Qualité des données avec un Tableau de bord Qlik Sense

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus

Le volume et les sources de données continuent d’augmenter dans les entreprises; il est important de s’assurer que le volume de données ne dégrade pas la qualité des données. Il n’y a rien de pire pour une entreprise que de prendre une décision sur la base de données de mauvaises qualité provenant de son système d’information.

Pour éviter cette situation, il est important de mettre en place des actions locales pour garantir une meilleure qualité. Je dis une meilleure qualité car un niveau de qualité de 100% n’existe pas, sauf peut être dans les petites entreprises.

Dans cet article, je vais aborder la qualité des données dans le processus de Décisionnel (BI). Les aspects liés à la gestion de la qualité des données dans le système de production ne seront pas abordés.

 

Les problèmes de qualité des données coûtent aux entreprises américaines plus de 3 billions de dollars par an.

Voici le sommaire de cet article :

1. Dimensions de la qualité des données
2. Profilage des données
3. Processus de qualité des données
4. Créer un Tableau de bord de qualité des données avec Qlik Sense
5. Distribuer automatiquement des rapports sur la qualité des données

1- Dimensions de la qualité des données

Comprendre les dimensions clés de la qualité des données vous aidera à évaluer vos données et à déterminer les causes profondes de la qualité des données et si vous devez passer par le nettoyage des données.

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus

1.1- Complétude

Souvent, dans les bases de données, il manque des données. Mais selon les cas, les données manquantes peuvent être un problème ou non. Si le prénom et le nom d’un client sont requis, mais que le numéro de téléphone est facultatif, un enregistrement peut être considéré comme complet même si le numéro de téléphone n’est pas disponible. Si vous êtes une banque et que vos clients doivent utiliser un numéro de téléphone pour la double authentification, l’enregistrement doit être considéré comme incomplet.
Il n’y a pas de règles universelles; en fonction des besoins de votre entreprise, vous devez savoir quelles informations doivent être complètes.

1.2-Validité (conformité)

Il est nécessaire de s’assurer que les données de même nature respectent le même format pour maintenir une structure et une nomenclature cohérentes pour le partage des données et la gestion interne. Si les données de transaction contiennent la date et l’heure, vous devez vous assurer que cela est respecté dans toutes les sources de données.

1.3- Précision

Les données correspondent-elles aux valeurs réelles attendues ? Des fautes d’orthographe, des décimales mal placées ou des données obsolètes peuvent conduire à une analyse inexacte. Si les ventes d’un client ne sont pas libellées dans la bonne devise ou si l’adresse e-mail d’un contact est mal orthographiée, les données sont inexactes.

1.4- Actualisation

Il est important de s’assurer que les données sont disponibles dans les délais fixés pour ne pas retarder toute la chaîne d’utilisation des données. Si l’entrepôt de données n’est pas mis à jour le lundi à 5 heures du matin, tous les tableaux de bord et rapports qui dépendent de l’entrepôt de données ne seront pas actualisés avec les nouvelles données.

1.5- Cohérence

Les données de plusieurs systèmes reflètent-elles les mêmes informations? Si les données proviennent de plus d’un système, elles doivent avoir les mêmes informations. Si une base de données marque le compte d’un client comme actif, tandis qu’une autre marque le compte comme fermé, l’ensemble de données n’est pas cohérent.

1.6- Unicité

Certaines informations doivent être enregistrées de manière unique. Exemple: l’adresse e-mail d’un client ne peut pas être enregistrée deux fois dans la base de données avec des ID client différents.

 

2- Profilage des données

À un moment ou à un autre, une entreprise sera confrontée à des problèmes de qualité des données. Il est préférable d’anticiper et de mettre en œuvre des contrôles et des actions correctives avant de subir les conséquences de l’utilisation de données de mauvaise qualité.

Le profilage des données peut se faire de plusieurs manières: script SQL, langage de programmation (python, C #, … etc.), ou un outil d’intégration de données.
Plus le système d’information est complexe, plus il est recommandé d’utiliser des outils plus complets.

2.1- Avantages du profilage des données

a- Meilleure qualité et crédibilité des données

Une fois les données analysées, l’application peut aider à éliminer les doublons ou les anomalies. Il peut déterminer les informations utiles susceptibles d’affecter les choix commerciaux et identifier les problèmes de qualité de son système d’information.

b- Prise de décision prédictive

Les informations profilées peuvent être utilisées pour éviter que de petites erreurs ne se transforment en gros problèmes. Le profilage des données permet de créer un instantané précis de la santé d’une entreprise pour mieux éclairer le processus de prise de décision.

c- Gestion proactive de crise

Le profilage des données peut aider à identifier et à résoudre les problèmes rapidement, souvent avant qu’ils ne surviennent.

d- Bonne traçabilité des données

Le profilage peut retracer les données jusqu’à leur source et garantir un cryptage approprié pour la sécurité. Un profileur de données peut ensuite analyser ces différentes bases de données, applications source ou tables et s’assurer que les données respectent les mesures statistiques standard et les règles métier spécifiques.

2.2- Techniques de profilage des données

Il existe trois composants distincts du profilage des données :

  • Découverte de la structure : la découverte de la structure permet de déterminer si vos données sont cohérentes et correctement formatées. Il utilise des statistiques de base pour fournir des informations sur la validité des données.
  • Découverte du contenu : la découverte du contenu se concentre sur la qualité des données. Les données doivent être formatées et normalisées. Par exemple, si une adresse postale n’est pas formatée correctement, cela peut signifier que certains clients ne peuvent pas être joints ou que la livraison ne puisse pas être réalisée.
  • Découverte des relations : la découverte des relations identifie les connexions entre différents ensembles de données.

3- Processus de qualité des données

Le processus de qualité des données passe par quatre étapes principales.

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus

3.1- Définir les exigences de qualité des données

Il s’agit d’effectuer un profilage des données pour aider à découvrir les fréquences et les formats des données. Le profilage des données peut être effectué avec des outils spécialisés, des langages de requête sur des sources de données (SQL) ou des langages de programmation.
Des problèmes de qualité des données peuvent être découverts lors du profilage, mais le profilage vise à découvrir des informations pour l’évaluation de la qualité des données.

3-2. Évaluation de la qualité des données

Dans cette étape, nous définissons les règles de qualité des données concernant : l’exactitude, la validité, l’exhaustivité, etc., ainsi que les seuils de qualité.
En vous basant sur les règles de qualité prédéfinies, effectuez une évaluation de la qualité des données en vous référant aux règles de qualité des données de l’ensemble de données.

3.3- Résolution des problèmes de qualité des données

Pour les problèmes identifiés lors de l’évaluation de la qualité des données, effectuez une analyse des causes profondes pour résoudre les problèmes en éliminant leur cause.

3.4- Suivi et contrôle de la qualité des données

Enfin, il est important de mettre en place des tableaux de bord avec des KPIs de qualité des données pour suivre et surveiller la qualité des données.

 

4- Créer un Tableau de bord de qualité des données avec Qlik Sense

Je vais maintenant vous montrer un exemple de création d’un tableau de bord de qualité des données à l’aide de Qlik Sense. Bien entendu, vous pouvez utiliser d’autres outils BI (Tableau, Power BI, …) pour créer ce tableau de bord.
Le tableau de bord doit fournir une vue des six dimensions de la qualité des données: l’exhaustivité, l’actualisation, la validité (conformité), la précision, la cohérence et l’unicité.

4.1- Règles métier à mettre en œuvre

Nous voulons vérifier les règles métier suivantes dans un ensemble de données stocké dans une table appelée customer.

Rule ID Data quality dimension Attribute Rule Comment
Rule_01 Validity Email Where a customer has provided an email address, it should be valid. The email should adhere to the pattern [email protected].
Rule_02 Uniqueness Email Every customer should have a unique Email. Duplicate emails with different IDs are not allowed.
Rule_03 Completeness Phone_num Every customer should have a phone number, as these are used for two-factor authentication.
Rule_04 Validity DOB Every customer should have a valid date of birth.
Mesures de qualité des données à capturer

Pour chaque règle métier, nous voulons avoir:

  • Nombre total de lignes traitées
  • Nombre total de lignes ayant échoué
  • Score de QD

 

4.2- Conception du tableau de bord

Nous utiliserons le script Qlik Sense pour charger la table Customer et vérifier les quatre règles métier que nous avons définies précédemment.
Nous allons créer une nouvelle colonne pour chaque règle et évaluer la validité de chaque ligne par rapport aux quatre règles. Nous utiliserons ces nouvelles informations pour créer le tableau de bord de la qualité des données.

Veuillez noter que cette méthode n’est utilisée que pour vous montrer le processus de mesure de la qualité des données. Il ne conviendra pas dans toutes les situations, en particulier, pour traiter un grand nombre de données. Je vous recommande d’utiliser un outil d’intégration de données pour profiler vos données.

Voici à quoi pourrait ressembler notre tableau:

id First_name Last_name

email

Phone_number Date_of_birth rule_01_validity_email rule_02_uniqueness_email rule_03_completness_phone_number rule_04_Validity_dob row_faild
1 Valentina Holmes [email protected] 0606060606 2/10/1982 1 1 1 1 0
2 Ashley Parker [email protected] 0626656565 31/12/9999 1 1 1 0 1
3 Finley Francis [email protected] 0659588788 5/3/1986 1 1 1 1 0
4 Elena Taylor [email protected] 0785986532 15/5/1978 1 1 1 1 0
5 Amina Jackson [email protected] 4/8/1992 1 1 0 1 1
6 Morgan Kelly [email protected] 0645326598 28/2/1990 1 1 1 1 0
Calculer les KPIs dans Qlik Sense

En utilisant la table, nous pouvons calculer les indicateurs suivants :

  • Score global de qualité des données (%)
    somme des lignes en échec / somme des lignes traitées :
    (Sum (rows_failed) / count (id)) * 100
  • Nombre total de lignes traitées
    count (id)
  • Lignes ayant échoué
    Sum (rows_failed)
  • Score de completude
    (Sum (rule_03_completness_phone_number) / count (id)) * 100
  • Score de validité
    (Sum (rule_01_validity_email * rule_04_Validity_dob) / count (id)) * 100
  • Score de cohérence
    (Sum (rule_03_completness_phone_number) / count (id)) * 100
  • Score d’unicité
    (Sum (rule_02_uniqueness_id) / count (id)) * 100

Le tableau de bord de la qualité des données est divisé en deux niveaux :

a- Niveau récapitulatif – Qualité globale des données

Le niveau récapitulatif affiche le score global de toutes les données profilées et surveillées.

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus

b- Niveau de règle détaillé

Le niveau de la règle affiche des mesures au niveau de la règle métier. Cela inclut des données telles que:

  • Nom de la règle
  • Concept de données
  • Élément de données
  • Description de la règle
  • Dimension de la qualité des données
  • Total traité
  • Total échoué
  • Score de QD

 

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus

5. Distribuer automatiquement des rapports sur la qualité des données avec Qalyptus

Après avoir créé le tableau de bord de qualité des données dans Qlik Sense, vous pouvez créer et distribuer un rapport personnalisé aux Data Owners et à toute autre personne susceptible d’être intéressée par le contrôle de la qualité des données.

Pour ce faire, vous pouvez utiliser Qalyptus, notre solution de reporting pour Qlik Sense et QlikView. Vous pouvez envoyer le rapport dans différents formats : PDF, Excel, HTML, PowerPoint, … etc.

Le rapport peut être envoyé à intervalle régulier (example : Chaque semaine) ou envoyé en fonction des valeurs des KPI (example : si Overall DQ score <80%).

Avec Qalyptus, vous pouvez envoyer un e-mail et intégrer le tableau de bord que nous avons créé précédemment dans le message de l’e-mail et joindre un fichier Excel avec plus de détails.

 

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus

 

%Qlik Sense Reporting Tool & Alternative to NPrinting%Qalyptus