Projet de stage

Problématique

Au sein du Laboratoire Lorrain de Sciences Sociales, Hervé Jory me confia la gestion de l’étude sur le décrochage étudiant. Il voulait définir et étudier le phénomène du décrochage. Ainsi, deux niveaux de questionnement furent traités : comment définir le décrochage ? Quels sont les facteurs d’influence ?


Premier volet : analyse du profil étudiant

Contexte d’intervention

Mon travail débuta après la création et la diffusion d’un questionnaire papier auprès d’étudiants de première année. Ces derniers avaient été réputés comme assidus. En effet, le questionnaire avait été diffusé lors d’un cours en novembre. Leur réponse était la preuve de leur assiduité. Cette première population était considérée comme témoin. Elle nous permettait de dresser un profil étudiant. Par ailleurs, malgré le postulat d’assiduité, elle était le moyen d’étudier la présence (ou non) de facteurs d’influence sur un potentiel décrochage.

Dans ce premier volet, le questionnaire étant déjà créé et diffusé, mon travail était, par conséquent, de le traduire à travers d’une base de données et l’analyser grâce à différents traitements statiques.

Conception de la base de données

Cette partie de mon travail fut la plus importante. En fait, le questionnaire avait été conçu sans un regard statistique. Le questionnaire comptait un certain nombre de questions semi-ouvertes. Par ailleurs, certaines questions fermées n’étaient pas clairement formulées. Les répondeurs les complétaient comme des questions semi-ouvertes. Enfin, certaines informations étaient implicites et avaient besoin d’être recensées. Par exemple, la correspondance entre la filière suivie et les vœux formulés en terminale.

Par conséquent, je consacrai une importante pour lire l’ensemble des questionnaires et déterminer les variables à créer. L’intérêt était de pouvoir traduire un maximum d’informations dans la base de données, tout en ayant une base de données facilement exploitable.

Analyse à postériori du travail fourni : avec mon regard actuel, je me rends compte que mon travail aurait pu être de meilleur qualité. J’ai réussi à traduire le questionnaire. Pour autant, j’aurais pu optimiser ma base de données au niveau des noms de variables choisis ainsi l’encodage des modalités.

Préparation de la base de données

Il s’agissait de vérifier le contenu de la base. Dans un premier temps, la vérification était au niveau de la cohérence des données. En fait, je recherchais si, pour chaque variable, les valeurs indiquées correspondaient aux modalités possibles de la variable. Dans un second temps, pour certaines variables, je vérifiais la fréquence de chaque modalité. Lorsque des modalités étaient trop rares, je faisais des regroupements. Par exemple, les vœux émis furent recodés en passant d’une présentation par disciplines à une présentation par domaine disciplinaire.

Analyse descriptive

Etablissement d’un profil étudiant : au travers  statistiques descriptives, le profil étudiant fut dressé. Il s’est basé sur les variables sociodémographiques (âge, sexe, origines sociales etc.) et le parcours d’études (bac, redoublement(s) etc.).

Comparaison avec la population inscrite : ayant des données sur la population inscrite (type de bac, filière suivie, sexe), des comparaisons ont été faites. J’ai ainsi pu constater des différences d’assiduité entre le type de bac ou la filière suivie.

Tests statistiques

Afin de confirmer, d’un point de vue statistique, les différences constatées entre les population inscrite et les étudiants répondant au questionnaire, j’ai réalisé des tests statistiques. Par ailleurs, j’ai également réalisé des tests au sein de la population témoin dans l’optique de répondre à plusieurs interrogations : les facteurs (supposés) d’influence du décrochages touchent-ils les étudiants de la même manière selon leur profil, les facteurs sont-ils liées entre eux.

Tests du Khi-deux : le test du Khi-deux (khi ², khi carré , chi-deux etc.) est un test qui permet de comparer la distribution de variables qualitatives nominales ou booléennes. Il permet de mettre en évidence si deux variables qualitatives sont statistiquement liées entre elles. Il faut comprendre que l’existence d’un lien statistique ne dit pas comment sont liées les variables. La base de données étant majoritairement composée de variable qualitative nominales ou booléennes, l’emploi de ce test a été très fréquent.

Analyse à postériori du travail fourni : grâce à mes connaissances actuelles, j’aurais pu améliorer la comparaison des variables booléennes en utilisant le test exact de Fisher lorsque les effectifs théoriques étaient faibles.

ANOVA (ANalysis Of VAriance) : l’analyse de la variance permet de comparer la distribution d’une variable quantitative selon une variable qualitative. Cela permet de voir, par exemple si l’âge des étudiant est différent selon la filière universitaire suivie.

Analyse à postériori du travail fourni : l’analyse de la variance est un test paramétrique. Pour l’utiliser, j’aurais dû vérifier à priori la distribution des variables quantitatives testées. Si les conditions n’avaient pas été remplies, j’aurais pu utiliser des tests comme : les tests de Mann-Whitney et Kruskall-Wallis.

Projection des données : Analyse Factorielle des Correspondances

L’Analyse Factorielle des Correspondances (AFC) est un traitement statistique évolué qui permet de représenter les individus sur un graphiques par le biais de deux variables nominales. Son intérêt est de faire des rapprochements entre les modalités des deux variables comparées. Si on prend exemple sur une AFC réalisée lors de mon stage :

afc_poptemoin_type-bac_filiere-univ
Bleu : le type de bac obtenu ; Vert : la filière universitaire suivie

Analyse à postériori du travail fourni : les faibles effectifs de certaines modalités créaient des biais dans les rapprochements faits entre les modalités. En effet, le couple Bac général/Filière histoire masquait les autres liens éventuels entre les modalités.


Second volet : les étudiants décrocheurs

Contexte

Après les partiels du premier trimestre, je disposais de la liste des étudiants de première année inscrits mais ne s’étant pas présentés aux partiels. Du point de vue de notre étude, ils étaient clairement définis comme étant décrocheur. Leur profil était donc pertinent pour l’étude.

Hervé Jory me confia un questionnaire qu’il fallait diffuser auprès de ces étudiants qui n’allaient plus en cours.

Création et diffusion du questionnaire

A partir d’une liste de questions confiée par Hervé Jory, j’ai créé un questionnaire en ligne grâce au logiciel LimeSurvey. Afin de le diffuser, j’ai créé un liste de diffusion à partir des données dont je disposais et ai organisé un emailing avec gestion d’invitation.

Malgré les relances, les réponses n’ont pas été nombreuses. Cela étant, j’ai tout de même pu réalisé quelques statistiques descriptives. Par ailleurs, disposant de la liste complète des étudiants ne s’étant pas présentés aux partiels, j’ai pu faire des comparatifs avec la population inscrite ainsi que la population témoin.