Présentation et organisation de la formation
Introduction
Le mouvement en faveur de la science ouverte qui accompagne le développement des plateformes de diffusion de données (telle que Quetelet Progedo-Diffusion) permet l’accès gratuit de la communauté scientifique à un nombre croissant de bases de données publiques, dont de grandes enquêtes quantitatives issues du monde de la recherche. Les données de sondage et d’enquêtes sont également fréquentes dans les associations, les collectivités, les entreprises ou encore les organismes de sondage qui ont très souvent recours à des questionnaires afin de collecter des informations sur différentes thématiques.
L’objectif de cette formation est triple.
Présenter les potentialités pour la recherche en SHS des bases de données publiques et des données des grandes enquêtes diffusées par Quetelet Progedo-Diffusion en prenant l’exemple de l’enquête européenne “Étude des relations familiales et intergénérationelles (ERFI)” réalisée par l’INED (Institut National des Études Démographiques) et par l’INSEE (Institut National de la Statistique et des Études Économiques) en 2005. Cette démonstration vise à promouvoir l’utilisation des données issues du nouveau cycle d’enquêtes ERFI-2 dont la collecte, lancée en 2023, s’inscrit dans le cadre du projet LifeObs coordonné par l’INED. La disponibilité prochaine des données de ERFI-2 via l’application Quetelet Progedo-Diffusion offre de nombreuses perspectives d’analyse pour l’étude des comportements familiaux récents et leurs évolutions depuis le premier cycle d’enquêtes ERFI-1.
Sensibiliser les participants à l’exploitation de données d’enquêtes réelles et à ses particularités à travers la réplication des premiers résultats obtenus à partir des données de l’enquête ERFI-1 publiés dans un article écrit par Arnaud Régnier-Loilier en 2006 dans la revue Population et Sociétés: “À quelle fréquence voit-on ses parents?”. À travers cet exemple d’exploitation, il s’agira notamment d’aborder les pondérations et leur usage, le traitement de la non-réponse et des valeurs manquantes, le recodage et la transformation de variables, le calcul de statistiques descriptives de base, la réalisation de tableaux croisés et de représentations graphiques simples, etc.
Initier les participants à l’utilisation du langage R et de son interface R-Studio pour le traitement statistique de données d’enquêtes, principalement à travers l’écosystème Tidyverse. Il s’agit de présenter les bases de ce langage très puissant et relativement simple afin d’en dédramatiser l’usage, tout en fournissant des éléments permettant de progresser de façon autonome dans son apprentissage.
Déroulé de la formation
Le kit peut-être réalisé de façon indépendante par les étudiants (auto-formation). Dans le cas où un formateur est présent, la durée de la formation est modulable (6 à 12 heures) en fonction du niveau des étudiants et de l’organisation de la formation (autonomie laissée aux apprenants dans la réalisation du kit, exercices pratiques proposées, nombre et durée des séances de formation).
Pour permettre aux apprenants de s’exercer par eux-mêmes, il est possible de proposer en fin de séance la reproduction du même graphique que celui réalisé pour l’ensemble des femmes et hommes âgées de 30 à 79 ans (Répliquer les premiers résultats de l’article “À quelle fréquence voit-on ses parents?” (Arnaud Régnier-Loilier, 2006)) séparément pour les hommes et/ou pour les femmes.
Pré-requis
Aucun pré-requis n’est nécessaire pour la réalisation de ce kit. Il s’adresse particulièrement aux personnes qui sont peu familières avec le traitement de données d’enquêtes quantitatives.
Documents de la formation
Cette formation s’appuie sur l’utilisation de plusieurs ressources :
- un jeu de données simplifié et anonymisé à visée pédagogique de l’enquête ERFI-1 préparé par le Service des Enquêtes de l’INED (Institut national d’études démographiques). Il contient une sélection des réponses originales dans l’enquête ERFI-1 dont certaines sont recodées/modifiées en vue de leur anonymisation
- ce support de formation (conçu sous RStudio avec RMarkdown) mêlant exposés théoriques (description de l’enquête ERFI-1, particularités du traitement de données d’enquête, éléments de formation de base à R) et un cas pratique détaillant les différentes opérations à réaliser (instructions R et résultat de leur exécution) permettant d’obtenir les premiers résultats d’un article écrit par Arnaud Régnier-Loilier en 2006 dans la revue Population et Sociétés: “À quelle fréquence voit-on ses parents?”
- d’autres documents utiles à la formation: documentations du jeu de données anonymisé et des données de l’enquête originale ERFI-1, article de la revue Population et Sociétés dont certains résultats sont ici répliqués, le dictionnaire des variables du fichier anonymisé ERFI-1, etc.
L’ensemble de ces ressources est directement accessible aux participants à partir du projet RStudio ERFI1
distribué.
La procédure d’anonymisation appliquée à certaines des variables du jeu de données de cette formation ne permet pas d’utiliser ce fichier à des fins de recherche. Il ne peut être réutilisé qu’à des fins pédagogiques.
Pourquoi anonymiser les réponses originales des enquêtés?
Le règlement général sur la protection des données (RGPD) vise à encadrer le traitement et la circulation des données à caractère personnel sur le territoire de l’Union Européenne. La pseudonymisation et l’anonymisation constituent deux mesures de modification d’une version originale d’un jeu de données qui sont recommandées par le RGPD pour limiter les risques liés au traitement de données personnelles.
L’anonymisation est une procédure qui vise à supprimer tout caractère identifiant, direct (nom, adresse, numéro de sécurité sociale, …) ou indirect (issu du croisement de plusieurs variables comme par exemple l’âge, la PCS et le nombre d’enfants), d’un jeu de données. L’application de cette procédure à un fichier de données individuelles (ou fichier de microdonnées) peut induire des destructions et des modifications substantielles dans les données collectées : suppression locale d’informations, modification de valeurs, échanges de valeurs entre individus, etc. La conséquence est que les résultats tirés d’un tel fichier de données ne peuvent pas être utilisés à des fins scientifiques. Les microdonnées anonymisées sont des données en accès libre et gratuit, facilement réutilisables par toutes et tous (open data) mais uniquement à des fins pédagogiques. Des détails concernant les procédures d’anonymisation appliquées par le service des enquêtes de l’INED au jeu de données anonymisé de cette formation sont accessibles ici.
La pseudonymisation consiste à remplacer les données directement identifiantes par des données indirectement identifiantes (regroupement de modalités, utilisation d’alias, …), sans induire de perturbation dans les données d’origine. Les microdonnées pseudonymisées offrent donc davantage d’informations que les données anonymisées et peuvent être réutilisées à des fins de recherche scientifique. Toutefois, les données pseudonymisées restent potentiellement réidentifiantes. Leur accès nécessite donc une autorisation administrative auprès du Comité du secret statistique.
Le fichier pseudonymisé de l’enquête ERFI-1 (pouvant être réutilisé à des fins de recherche) est mise à disposition gratuitement de la communauté scientifique via Quetelet-Progedo-Diffusion. Pour obtenir ces données, l’utilisateur doit formuler une demande sur le portail de commande de Quetelet-Progedo Diffusion ; acceptée sous condition de statut, présence d’une adresse e-mail institutionnelle de rattachement et du bref résumé d’un projet de recherche. Si la demande est acceptée, cela conduit à la signature d’un engagement individuel à destination de l’ADISP (Archives des Données Issues de la Statistique Publique), et dans le cas d’un fichier de données pseudonymisées (appelé fichiers de Production et de Recherche-FPR), d’un engagement de confidentialité à destination du Comité du Secret Statistique. La procédure d’habilitation auprès du Comité du secret statistique est gérée par l’intermédiaire des équipes de Quetelet-Progedo-Diffusion. L’accès aux données se fait ensuite depuis l’ordinateur du chercheur sous un délai d’environ deux semaines. Les données du second cycle de l’enquête ERFI (ERFI-2) seront également rendues accessible à la communauté scientifique prochainement via l’application Quetelet-Progedo-Diffusion.
Fichier de données individuelles (ou fichier de microdonnées)
Dans un jeu de données individuel, chaque observation correspond à un individu (ex: microdonnées de recensements ou d’enquêtes). A l’inverse, dans un jeu de données agrégé les observations correspondent à un regroupement de données individuelles à un niveau supérieur qui peut être défini à partir d’un critère géographique (commune, département, …), démographique (âge, sexe, …) ou de tout autre critère d’agrégation.
Quetelet-Progedo-Diffusion
Quetelet-Progedo-Diffusion est un entrepôt et un catalogue de données qui propose en 2024 l’accès à plus de 1500 jeux de données, issues de l’INED et de l’ADISP (Archives des Données Issues de la Statistique Publique). L’application Quetelet-Progedo-Diffusion permet de réaliser une recherche de données par mot clé et/ou selon différents filtres (producteurs, années, thème, couverture géographique, …) et de déposer une demande d’accès aux données.