Comment préparer les données pour l’analyse ?

La préparation des données est peut-être l’étape la plus importante dans le processus de d’analyse des données, car elle permet de limiter les erreurs et les inexactitudes qui peuvent survenir pendant le traitement des données. La préparation des données est généralement la partie la plus longue dans un projet d’analyse des données. Des décisions efficaces et précises doivent se baser sur des données fiables.

Qu’est-ce que la préparation des données ?

La préparation des données est le processus de nettoyage et de transformation des données brutes avant le traitement et l’analyse. Le but ultime de la préparation des données est d’améliorer la qualité, l’utilisabilité et l’accessibilité des données avant de les mettre à disposition des personnes et des systèmes d’analyse des données.

La préparation des données est souvent une tâche de longue haleine, mais elle une étape d’une grande importance dans le processus de transformation de la donnée en information fiable prête à être utilisée pour la prise de décision. Cela peut inclure toute une série de processus, mais nous allons, dans cet article, nous concentrer sur l’intégration, le profilage, le nettoyage et la gouvernance des données.

ETL

Questions à poser lors de la préparation des données

1. Où sont vos données ?

La première étape consiste à identifier vos sources de données et à savoir où elles sont stockées physiquement. En fonction des entreprises, les données peuvent être stockées dans différents endroits et dans différents systèmes de stockage. Les moyens de stockages les plus utilisés sont :

  • Les bases de données relationnelles (Oracle, MySql, SQL Server, PostgreSQL, …)
  • Les bases de données NoSQL (MongoDB, Cassandra, HBase, …)
  • Les fichiers structurés (Excel, CSV, QVD, ..)
  • Les fichiers semi-structurés comme XML
  • Les services web (REST or SOAP)
  • Lacs de données Hadoop

Avant de choisir les sources de données à utiliser, vous devrez également savoir quelles sont les autorisations nécessaires pour accéder aux données, les données externes sont-elles fiables ou nécessitent une vérification et quel est le niveau de granularité dont vous avez besoin.

2. Avez-vous besoin de modifier les données ?

En fonction de la qualité des données que vous traitez, il se peut que certaines données nécessitent une transformation ou une manipulation manuelle afin de les fiabiliser.

Exemple de cas où vous avez besoin de modifier les données :

  • Un ensemble de données utilisent différents formats pour les mêmes informations,
  • Des données incohérentes ou qui contiennent des informations en double,
  • Besoin de regrouper des données de nouvelles façons.

Voici les questions que vous devez vous poser concernant la qualité des données.

  • Pour chaque source de données, est-elle complète, précise et à jour ?
  • Ces données peuvent-elles répondre à mes besoins ?
  • Que dois-je faire pour nettoyer les données ? Dois-je modifier manuellement quelques valeurs ou mettre en place une démarche plus systématique ?
  • Mon outil de préparation des données peut-il se connecter à l’ensemble de mes sources de données ?
  • Dois-je engager une démarche de modification des données à leur emplacement d’origine (production) ou faire les modifications dans un processus de préparation des données.

Dans le cas où vous utilisez des sources de données hétérogènes, vous devez vous assurer que les champs de liaison contiennent le même type de données avec le même format. Exemple : Le champ « ID_client » qui se trouve dans la table « Client » correspond au numéro du client et il est de type Entier. Si vous utilisez un fichier CSV qui contient des informations sur les clients, le fichier doit contenir un champ qui contient le numéro du client au format Entier.

Pensez également à l’évolution de votre modèle de données.

  • Est-il facile d’ajouter des sources de données et d’apporter des modifications au modèle plus tard ?
  • Les sources de données externes seront-elles disponibles dans le futur avec la même structure ?
  • Puis-je simplifier mon modèle sans affecter les performances ?

3. Comment importer les données ?

Pour importer vos données vous avez le choix entre interroger directement les bases de données de production (déconseillé) et charger vos données dans un environnement secondaire avant de faire vos traitements afin d’éviter de surcharger votre environnement de production avec vos requêtes. Les questions que vous devez vous poser sont les suivantes :

  • Comment l’importation des données affectera-t-elle mon environnement de production ?
  • À quelle fréquence dois-je importer les données ? A quel moment dois-je lancer le chargement ?
  • Combien d’environnements intermédiaires dois-je mettre en place ?
  • Le serveur sur lequel je déplace mes données a-t-il les logiciels et le matériel nécessaire pour gérer les quantités de données traitées ?

4. Comment vérifier les résultats ?

A la fin du processus de préparation des données, vous devez vous assurer que le résultat final est exact et que vous n’avez commis aucune erreur durant le traitement. Pour vérifier les données, assurez vous que :

  • Les résultats ont du sens un niveau général
  • Les mesures que vous voyez correspondent à ce que vous savez déjà sur l’entreprise
  • Le nombre d’enregistrements de la période n’est pas excessivement différent de celui de la période précédente.

La préparation des données est initialement réservée pour les équipe IT, car les outils nécessitaient des connaisses techniques. Aujourd’hui les logiciels de préparation des données se sont améliorés et permettent désormais aux utilisateurs métiers de faire, de façon autonome ou collaborative, leurs préparations sans connaissances techniques ou presque !

 

 

Menu