Créer une base de données avec un tableur

Les tableurs (Microsoft Excel, LibreOffice Calc, OpenOffice Calc) sont les outils les plus agréables à utiliser lorsqu’il s’agit de créer une base de données destinée à une analyse directe. Ils permettent une complétion plus simple que sur un fichier texte ainsi que de manipuler aisément les données (nettoyage de la base de données, transformation de variable, statistiques descriptives etc.). Par ailleurs, ils sont facilement exportables, de manière directe, ou, indirecte en faisant quelques manipulations. Enfin, ils permettent de réaliser et de personnaliser des tableaux de données ou des graphiques.

Dans ce tutoriel, vous apprendrez à créer en quelques étapes une base de données à l’aide d’un tableur.


L’architecture  :

Tableau de recensement des variables :

Ce tableau vous aidera à définir et recenser toutes vos variables. Par ailleurs, lorsque votre base de données sera terminée, le tableau de recensement pourra vous aider dans le traitement et l’analyse des données. Je vous recommande d’y inclure 4 informations : le nom de la variable, son type, une description ainsi que les modalités de réponses le cas échéant.

tableau-recensement-variables

Déterminer toutes les variables :

Une fois votre tableau conçu, il suffira de le remplir avec vos variables. Pour ce faire, vous aller devoir toutes les déterminer. Si vous partez d’un questionnaire, le nombre de variables  n‘est pas obligatoirement égal au nombre de questions. Les réponses d’une question peuvent couvrir différentes informations. Il faudra les identifier afin de créer le bon nombre de variables. Par ailleurs, les questions à choix multiple se codent en N variables booléennes  de la forme Oui/Non. N désigne le nombre de choix possibles de la question.

bdd_encodage_QChoixMult
Question : Quel(s) fruit(s) avez-vous l’habitude de consommer ?

Le type de variable :

Tableau récapitulatif des types de variables

tableau_typesVariables

Nommer les variables :

Les tableurs ne connaissent aucune contrainte concernant le nom des variables. Cela étant, deux remarques sont à faire. Le but de la base de données sera de faire des traitements statistiques. Il est donc recommandé d’utiliser des noms vous seront explicites afin de ne pas avoir à vérifier à quoi correspond chaque variable. Par ailleurs, même si les tableurs ne connaissent pas de contraintes, la plupart des logiciels sont susceptibles de contenir des contraintes de nommage. Je vous recommande donc de :

  • Commencer le nom d’une variable par une lettre minuscule (vous pourrez utiliser des majuscules pour les caractères suivants)
  • Ne pas utiliser de caractères spéciaux
  • Ne pas utiliser d’espace
  • Vous pouvez utiliser des tirets ( – ou _ )
  • Vous pouvez utiliser des chiffres

Encoder les modalités des variables qualitatives :

Les variables quantitatives n’auront pas besoin d’être encodée (définition d’un code de correspondance entre une modalité et la manière dont elle sera désignée dans la base de données). Il suffira de saisir les valeurs numériques correspondantes. En revanche, pour les variables qualitatives, il faudra les encoder. Il n’existe pas d’obligation. Cela étant, je vous recommande chaudement d’utiliser un encodage numérique. Cela allégera votre base de données. Notons qu’il existe des conventions de nommage. Ces dernières ne sont pas obligatoires mais permettent de rapidement comprendre la composition d’une base de données. Le sexe est codé par : 1 = homme, 2 = femme. De même, non = 0 et oui = 1.


Création et complétion

Feuilles de calcul :

Au sein de votre document tableur, vous avez la possibilité d’avoir plusieurs feuilles de calcul (onglets de travail). Selon les logiciels, par défaut, une ou plusieurs feuilles sera(ont) déjà créé(e)s sous l’appellation « Feuille1 », « Feuille2 » etc. On les retrouve en bas à gauche du tableur.

feuillesCalcul

Si vous souhaitez faire des traitements statistiques au sein du même document, voici mes conseils :

  • La feuille de calcul dans laquelle sera la base de données lui sera réservée. Utilisez d’autres feuilles pour vos traitements.
  • Pour chaque type de traitements (tableaux des effectifs, graphiques, statistiques descriptives etc.) créez une feuille de calcul.
  • Donnez des noms explicites à vos feuilles de calcul. Par exemple, pour la base de données, nommez-la « bdd ».

Sens de la base de données :

Par convention, les bases de données seront construites de la manière suivante :

  • Chaque variable sera complétée sur une colonne.
  • Chaque individu sera décrit sur une ligne.

sensBDD

Définir un identifiant :

Un identifiant est une variable qui permet d’identifier un individu au sein d’une base de données. Pour ce faire, il doit être unique à chaque individu. Si vous dans les informations à saisir il n’y a aucun identifiant prévu, il faudra le créer (et le reporter sur votre source d’information). Pour ce faire, vous pouvez utiliser un numéro d’identification. Vous pouvez également concaténer (coller) les données de plusieurs variables afin de créer votre identifiant. Attention, il faudra tout de même s’assurer que cela crée bien un identifiant unique pour chaque individu.

Cela peut être fait de manière automatique grâce à la fonction CONCATENER des tableurs. Il suffira de taper =CONCATENER(A1 ; B1 ; C1). Notez que les cellules indiquées ne sont que des exemples, il faudra les substituer par les cellules qui vous intéressent. Si vous souhaitez aller plus loin avec la fonction CONCATENER, vous pouvez l’agrémenter des fonctions GAUCHE ou DROITE. Ces dernières renvoient les premiers ou derniers caractères d’une cellule. Par exemple, =GAUCHE(A1 ; 5) renverra les 5 premiers caractères de la cellule A1. Ou alors, =DROITE(A1; 3) renverra les 3 derniers caractères de la cellules A1. Ainsi en tapant, par exemple =CONCATENER(A1 ; GAUCHE(B1 ; 5) ; DROITE(C1 ; 5)) affichera l’intégralité de A1 + 5 premier caractères de B1 + 5 derniers caractères de C1.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *