Réutilisation de données d’enquête: quelles précautions prendre lors du traitement?

Comprendre le contexte de production de l’enquête : l’importance des métadonnées


Les métadonnées sont les données sur les données. Elles correspondent à l’ensemble de la documentation accompagnant les données d’enquête. Elles permettent de contextualiser une enquête pour une personne qui n’a pas participé à la conception et à la collecte des données.

Les métadonnées comprennent :

  • Des éléments descriptifs : une description générale des objectifs de l’enquête et des thématiques couvertes, le type de données, le nom du ou des organismes producteurs, le champ de l’enquête, la couverture géographique, l’inscription éventuelle dans un programme de recherche…
  • Des éléments méthodologiques : plan de sondage, mode de collecte, traitement de la non-réponse, méthode de calcul des pondérations, description des opérations réalisées sur les bases de données avant leur diffusion (recodages, corrections, calculs de variables…)
  • Des élements sur la qualité des données : taux de réponse, incohérences repérées, circonstances particulières ayant pu affecter la collecte…
  • Le questionnaire de l’enquête ainsi que les documents fournis aux enquêteurs pour la passation
  • Un dictionnaire des codes : il s’agit d’une liste de toutes les variables présentes dans la ou les bases de données de l’enquête, à la fois celles collectées à partir du questionnaire et celles calculées en aval de la collecte.

En amont de la demande d’accès aux données, les métadonnées facilitent l’identification et la localisation des jeux de données pertinents pour la recherche que l’on souhaite mener.
Une fois les jeux de données obtenus, les métadonnées renseignent sur la façon de bien utiliser ces données. Elles informent sur les éventuels biais et précautions à prendre lors de l’exploitation des données et de l’interprétation des résultats.
Enfin, elles facilitent la prise en main du jeu de données.

Plan de sondage

Les enquêtes sont réalisées en interrogeant une fraction seulement de la population cible : un échantillon. Celui-ci doit permettre d’étudier l’ensemble de la population dont il est extrait. Pour cela, la sélection de cet échantillon doit répondre à des règles précises afin d’être représentatif de la population cible. Cette représentativité permet de généraliser les résultats obtenus à partir des informations collectées sur l’échantillon à l’ensemble de la population grâce aux méthodes d’inférence statistique. Le plan de sondage fait référence à la méthodologie utilisée pour sélectionner l’échantillon.

Inférence statistique
L’inférence statistique est l’ensemble des méthodes permettant d’induire les caractéristiques (inconnues) d’une population à partir de celles (connues) d’une fraction de celle-ci. Ces méthodes reposent sur la théorie des probabilités.

Le plan de sondage est dit probabiliste, ou aléatoire lorsque la sélection de l’échantillon se fait par tirage aléatoire parmi une base de sondage répertoriant l’ensemble des individus constituant la population cible. Chaque individu a alors une probabilité connue et non nulle de faire partie de l’échantillon.

Base de sondage
Une base de sondage est une liste actuelle et exhaustive de tous les individus qui composent la population cible. Elle doit en outre comporter les informations nécessaires pour identifier et entrer en contact avec chaque individu de la population cible (ex : nom, adresse…). Cela peut être un registre de population, un registre des logements, un fichier de données fiscales… Une solution alternative est de générer aléatoirement des numéros de téléphone (fixe ou mobile).
On parle de défaut de couverture lorsque certains individus appartenant à la population cible ne font pas partie de la base de sondage, et ont par conséquent une probabilité nulle d’être sélectionnés pour faire partie de l’échantillon.

Exemple : le plan de sondage pour la première vague (2005) de l’enquête ERFI-1

Pour la première vague de l’enquête ERFI-1 en 2005, la base de sondage est l’Echantillon-Maître du recensement 1999. Il s’agit de la liste des logements recensés par l’INSEE en 1999 (recensement le plus récent au moment de la conception de l’enquête ERFI). Les ménages à enquêter ont été tirés selon un plan de sondage aléatoire simple, c’est-à-dire que chaque ménage a la même probabilité d’être sélectionné pour intégrer l’échantillon.
Dans un second temps, au sein de chaque ménage inclus dans l’échantillon, une seule personne parmi tous les membres du ménage correspondant au champ de l’enquête (c’est-à-dire toute personne âgée entre 18 et 79 ans) est sélectionnée aléatoirement pour répondre au questionnaire. Si cette personne refuse de répondre, aucun autre membre du ménage n’est sollicité afin de ne pas compromettre le caractère aléatoire de la sélection.
Au total, 10 079 personnes ont été interrogées.

Données manquantes

On parle de donnée manquante dans une enquête lorsque la valeur associée à la réponse d’un enquêté pour une variable spécifique n’est pas disponible. Il y a plusieurs raisons pour expliquer cette absence :

  • La personne n’était pas concernée par cette partie de l’enquête, la question ne lui a pas été posée (exemple : pour les personnes vivant seules, les variables relatives aux questions sur la répartition des tâches entre conjoints sont associées à des données manquantes)
  • La personne, bien que concernée par la question, n’y a pas répondu
  • La donnée a été perdue ou effacée (ex : réponse illisible dans le cas d’un questionnaire papier, bug informatique dans le cas d’une collecte assistée par ordinateur, réponse considérée incohérente et effacée lors du traitement post-collecte…)

Dans le premier cas, l’absence de donnée est normale et attendue. En revanche, dans les deux derniers cas, elle est davantage problématique et son traitement doit faire l’objet de choix méthodologiques, de la part des concepteurs de l’enquête comme de la part des utilisateurs.

Dans certaines enquêtes, les données manquantes sont corrigées par imputation avant la mise à disposition des données. L’imputation des données manquantes est une procédure qui consiste à remplacer une valeur manquante par une valeur “probable”, extrapolée à partir des réponses données par les individus présentant des caractéristiques proches de l’individu pour qui la donnée est manquante.
Dans d’autres, les données manquantes sont laissées comme telles dans le jeu de données. C’est le cas par exemple dans ERFI-1. La gestion de ces données manquantes appartient alors à l’utilisateur. Il peut décider de procéder lui-même à une imputation selon la méthode de son choix, ou bien, plus simplement, d’exclure de son analyse les individus pour lesquels il manque une donnée.

La gestion des données manquantes et la méthode utilisée pour l’imputation le cas échéant font partie des informations présentes dans les métadonnées.

Note

La fréquence des données manquantes (hors questions soumises à filtre) est un indicateur de la qualité des données. Un fort taux de données manquantes indique une certaine fragilité de la variable et appelle à une interprétation prudente des résultats obtenus à partir de celle-ci.

Les pondérations

La spécificité des données d’enquêtes est que chaque observation représente en réalité un plus grand nombre d’unités statistiques. En effet, chaque individu enquêté représente non seulement lui-même, mais aussi plusieurs autres individus de la population totale, qui auraient le même profil. A chaque individu est associé un poids.

Ce poids permet de :

  • Ramener la taille de l’échantillon à celle de la population réelle : faire la somme des poids de tous les individus interrogés permet de retrouver l’effectif total de la population réelle ;
  • Corriger des biais liés à la non-réponse, lorsque les caractéristiques des non-répondants diffèrent de celles des répondants ;
  • Améliorer la qualité des estimations en rapprochant la structure de l’échantillon interrogée de celle de la population-cible, à partir des caractéristiques connues de celle-ci (ex: sexe, âge, type de ménage…), afin de corriger une éventuelle sur- ou sous-représentation de certains profils d’individus.
Comment sont calculées les pondérations

La pondération est d’abord calculée en attribuant à chaque individu un poids de sondage, qui correspond à l’inverse de sa probabilité d’inclusion dans l’échantillon. Ce poids de sondage est ensuite ajusté pour corriger la non-réponse, et caler la structure de l’échantillon sur celle de la population-cible, par une procédure de post-stratification.

On parle de non-réponse lorsqu’une personne sélectionnée pour faire partie de l’échantillon interrogé n’a pas répondu à l’enquête, soit parce qu’il n’a pas été possible de la contacter, soit parce qu’elle a refusé de prendre part à l’enquête. La non-réponse créée un biais dans la représentativité de l’échantillon du fait de son caractère sélectif : certaines catégories de population sont plus difficiles à joindre, ou ont plus tendance à refuser les enquêtes que d’autres. En général, un poids plus important est alors attribué aux enquêtés présentant les caractéristiques des non-répondants, afin de rétablir l’équilibre.

La procédure de post-stratification correspond au redressement de l’échantillon en calant sa structure sur celle de la population-cible, en utilisant une série de variables auxiliaires disponibles grâce à une autre source de données (ex: recensement). On fait en sorte que la distribution de la population enquêtée soit la plus proche possible de celle de la population-cible pour ces variables auxiliaires. Par exemple, si la population-cible compte 48 % d’hommes mais que l’échantillon n’en comporte que 40 %, un poids plus important sera attribué aux répondants hommes, pour se rapprocher de la proportion attendue.

La variable de pondération fournie dans la base de données correspond ainsi au poids de sondage, ajusté après prise en compte de la non-réponse et opérations de post-stratification. Il est important de toujours utiliser la pondération dans les analyses, afin que les résultats produits ne soient pas entâchés de biais d’échantillonnage.

Les pondérations dans ERFI-1

Dans ERFI-1, la pondération a été calculée à partir de six variables, dont la distribution dans la population-cible est connue grâce à l’Enquête Emploi en Continu de 2004 et à l’Enquête Annuelle de Recensement de 2006 :

  • Croisement sexe et groupe d’âge
  • Croisement sexe et nombre d’habitants du ménage
  • Catégorie socioprofessionnelle
  • Nationalité
  • Taille de l’unité urbaine de résidence
  • ZEAT (Zone d’Etudes et d’Aménagement du Territoire) de résidence (unité géographique utilisée par l’INSEE)

Le poids moyen d’un individu interrogé dans ERFI-1 est de 4342.46, ce qui signifie que chaque individu enquêté représente en moyenne un peu plus de 4000 individus de la population totale des 18-79 ans en France métropolitaine.

Structure et mise en forme de l’information pour l’analyse

Les fichiers contenant les données d’enquête respectent certaines normes quant à l’organisation de l’information afin d’en permettre un traitement rapide par les principaux logiciels de traitement statistique. Prenons par exemple le jeu de données anonymisé de ERFI-1 sur lequel nous allons travailler dans la suite de cette formation :

  • Chaque ligne correspond à un individu interrogé, et chaque colonne à une variable.
  • La première ligne du fichier contient les noms des variables. Chaque nom de variable doit être unique, court, et sans espace. Le dictionnaire des codes permet de faire le lien entre les noms de variables utilisés dans la base, et les questions auxquelles ils correspondent.
  • Chaque individu possède un identifiant (il se trouve souvent dans la première colonne, ici “id”). Cet identifiant, qui peut être un numéro d’ordre ou une suite de caractères alphanumériques, est unique pour chaque enquêté. Il permet entre autres de s’assurer que chaque répondant est bien présent une seule fois dans la base de données.
Comment sont calculées les pondérations

Etant donné le volume important de données collectées par les enquêtes, il est fréquent que l’information soit stockée dans différents fichiers de données (tables). Cela permet d’éviter que les tables soient trop volumineuses et ralentissent les traitements, ou bien de stocker des informations de nature différente (informations relatives aux enquêtés mais aussi aux enfants des enquêtés ou encore aux individus des ménages des enquêtés par exemple). Pour cette formation toutes les données de ERFI-1 fournies sont regroupées dans un seul fichier, mais les données complètes, accessibles via Quételet-Progedo-Diffusion, sont divisées en trois fichiers :

  • Un fichier enfant, qui contient les informations concernant les enfants des répondants ;
  • Un fichier individu, contient les informations relatives à l’ensemble des personnes résidant dans le ménage enquêté ;
  • Un fichier répondant, qui contient les réponses au questionnaire individuel passé auprès de la personne du ménage sélectionnée pour répondre à l’enquête.

L’identifiant individuel du répondant est présent dans chacune des trois bases de données et permet de passer de l’une à l’autre en réalisant des jointures.