Evaluation de méthodes de lecture avec “Je Lève La Main” : une étude de cas

De façon à mieux faire sentir la révolution apportée par notre plate-forme “Je Lève La Main” dans l’évaluation scolaire, je vais publier dans ce blog une étude de cas qui illustre 3 points forts de la plate-forme:

  1.  la saisie des données d’évaluation
  2.  l’analyse en composantes principales (ACP)
  3.  le groupement (ou clusterisation) des données d’analyse
  4.  l’analyse prédictive

Contexte général : des cycles d’analyse divisés par 100.

Pour bien voir où nous en sommes actuellement en matière d’évaluation scolaire en France, il faut comprendre les points suivants:

Le premier point (saisie des données) empêche de façon pratique la plupart des évaluations d’être menées de façon légère. En effet, toute évaluation a pour but de l’analyse de l’impact de différents critères (sociologiques, technologiques, pédagogiques, …) sur la performance de l’élève. Recueillir ces critères, c’est en général un travail de titan, puis il faut les rentrer dans des systèmes informatiques, les analyser, etc. Ceci explique que les durées moyennes d’analyse soient de plusieurs années. Par exemple, cette étude, menée par le CNRS depuis 2 ans avec des moyens conséquents – une équipe de chercheurs rassemblant plusieurs laboratoires – n’a toujours pas publié ses résultats.

Avec “Je Lève La Main”, le travail de recueil des données est rapide et “gratuit”. L’outil permet aux professeurs, enseignants, élèves de les saisir (selon le type de critère) directement via l’interface de réponse des tablettes. Grâce à cet outil de “délégation”, la “logistique” d’évaluation est incroyablement simplifiée. Les résultats que nous présentons correspondent à une étude de même ampleur que celle du CNRS, mais l’ensemble du processus (saisie et analyse)  a été réalisé en une quinzaine de jours au lieu de deux ans. La partie “Analyse” est réalisée par une seule personne, non statisticienne. La description de l’outil de saisie des évaluations et des critères (le premier point) fera l’objet d’un prochain article.

Cet article illustre le deuxième point, c’est à dire l’Analyse en Composante Principale fournie par “Je Lève La Main”. L’Analyse en Composante Principale est une technique de visualisation des données complexes, qui permet mieux comprendre les liens entre les différents critères étudiés, de les réduire (c’est à dire de simplifier l’étude) et de les trier. Nous allons voir qu’elle prépare les points n°3 et 4 cités ci-dessus, qui eux aussi feront l’objet d’un prochain article: le clustering et l’analyse prédictive.

Toutes les illustrations de ce billet sont générées automatiquement par notre plate-forme “Je Lève La Main”

 

L’étude de cas

Pour illustrer notre propos, nous allons nous baser sur une étude de cas concernant le niveau de lecture des élèves de CP, dans laquelle le logiciel d’évaluation “Je Lève La Main” nous a permis d’obtenir les informations suivantes :

  • les résultats d’un panel de 500 élèves de CP à un quiz de compréhension de lecture
  • les valeurs de 13 critères pour chaque élève du panel :

Critères liés à l’établissement (4 critères) :

Nom

Description

Domaine

Détails

tclass

Taille de la classe

0-5

0 : < 15 élèves

1 : 15 – 19

2 : 20 – 24

3 : 25 – 29

4 : 30 – 34

5 : plus de 34

pub

Établissement public / privé

0-1

0 : Privé

1 : Public

xpprof

Nombre d’années d’expérience de l’enseignant en CP

0-25

mlect

Méthode de lecture utilisée par l’enseignant

0-3

0 : Globale

1 : Dominante globale

2 : Dominante syllabique

3 : Syllabique

Critères liés aux élèves (9 critères) :

Nom

Description

Domaine

Détails

nlivr

Nombre de livres achetés ou empruntés par mois

0-10

nhist

Nombre d’histoires lues par les parents par mois

0-30

sexe

Sexe de l’élève

0-1

0 : Fille

1 : Garçon

necr

Nombre d’heures passés devant un écran par jour (tablette, télévision, ordinateur…)

0-5

petu

Niveau d’études du père

0-5

0 : Aucun / Brevet

1 : BEP / CAP

2 : Bac

3 : Bac + 2

4 : Bac + 2 à Bac +5

5 : Bac + 8

metu

Niveau d’études de la mère

0-5

0 : Aucun / Brevet

1 : BEP / CAP

2 : Bac

3 : Bac + 2

4 : Bac + 2 à Bac +5

5 : Bac + 8

mtrav

La mère de l’élève exerce une activité

0-1

0 : Non

1 : Oui

ptrav

Le père de l’élève exerce une activité

0-1

0 : Non

1 : Oui

hdom

Heure de retour du premier  parent  au domicile

0-3

0 :<= 17h

1 : 17h01 – 18h00

2 : 18h01-19h00

3 : > 19h00

Création de l’expérience

Avant de commencer, nous devons définir une expérience concernant tous les élèves ayant répondu au quiz de compréhension de lecture.

Pour cela, nous créons une nouvelle expérience de type “prise de niveau” que nous nommerons “méthode de lecture”.

image38

Nous ouvrons cette expérience et ajoutons le quiz “Compréhension lecture” aux quiz de l’étude.

image23

Le groupe “Population interrogée”, qui comporte les personnes ayant répondu aux quiz de l’étude, est automatiquement actualisé. Il comporte 500 personnes.

Analyse qualitative

Dans l’onglet “ACP”, partie “Configuration de l’analyse”, nous sélectionnons l’étude “méthode de lecture” que nous venons de créer. Le groupe “Population interrogée” est sélectionné par défaut, nous cliquons sur “OK”.

image2

La liste des critères renseignés pour la population interrogée apparaît alors. Nous retrouvons les 13 critères de l’étude, qui sont cochés par défaut (nous ne voyons ici que les premiers critères car il est possible de les faire défiler verticalement).

image11

Quand nous cliquons sur “Lancer l’analyse”, une Analyse en Composantes Principales (ACP) est effectuée.

La propriété de l’ACP que nous allons exploiter ici est sa capacité à produire des graphiques fournissant un point de vue privilégié sur les données, comme le cercle des corrélations (qui va nous permettre de mieux identifier les ensembles de critères redondants) ou la carte des individus (qui va nous permettre de mieux séparer les individus sur la base des critères).

L’Analyse en Composantes Principales (ACP)

L’ACP est une technique utilisée dans des problèmes mettant en jeu de nombreuses variables. Elle combine des variables liées (ou corrélées) pour créer de nouvelles variables décorrélées les unes des autres, appelées composantes principales.

La construction des composantes principales peut être expliquée de manière géométrique.

Imaginons que nous connaissons les valeurs de critères c1 et c2 sur une population. Nous pouvons représenter chaque individu dans un repère d’axe c1 et c2. Chaque individu est un point dont les coordonnées sont les valeurs pour les critères c1 et c2.

L’ACP effectue un changement de repère, de telle manière que le nuage de points formé par les individus s’étale le plus possible selon un premier axe p1 (le long de la droite décrite ci-avant), puis selon un deuxième p2, et ainsi de suite. Ces nouveaux axes sont les composantes principales.

Le nouveau repère peut être vu comme une rotation du repère initial. Dans ce nouveau repère, les données varient le plus selon p1, puis p2, et ainsi de suite.

image29

Dans notre étude, nous allons utiliser la capacité de l’ACP à nous fournir un point de vue privilégié sur les données. Comme les individus varient le plus sur les premières composantes principales, on peut projeter le nuage de points sur ces axes en le déformant le moins possible (c’est à dire en préservant au maximum les distances : deux individus éloignés le resteront globalement, et inversement).

Si nous reprenons le nuage de points de notre exemple, on peut constater que l’on peut le projeter sur l’axe p1 en gardant la majorité de l’information sur les distances entre individus.

image36

Ce processus de projection permet de mieux mettre en évidence des groupes d’individus ayant des valeurs similaires de critères, appelés “clusters”. Dans la figure ci-dessus on peut par exemple identifier un petit groupe d’individus sur la gauche, détaché du reste de la population.

Il permet également d’observer la population de manière commode quand nous sommes en présence de 3 critères ou plus : comme la visualisation de la population dans un espace de dimension 3 ou plus n’est pas aisée, il est utile de la représenter dans un espace de dimension 2 (un plan) en étant le plus fidèle possible à la répartition initiale des individus.

C’est ce qui est fait en projetant les données dans un plan défini par les deux premières composantes principales. Cette projection est appelée “carte des individus” (voir encadré dédié pour plus d’informations).

Réduction du nombre de critères

La partie “Corrélations entre critères” va nous aider à éliminer d’éventuels critères redondants.

Le premier graphique de cette partie est appelé “Matrice des corrélations”. Pour chaque couple de critères, un point de couleur indique si ces critères sont (linéairement) liés ou non. Un point bleu indique que les deux critères sont corrélés (point bleu) ou anti-corrélés (point rouge).

image34

Deux critères corrélés (corrélation proche de 1) évoluent dans le même sens. Par exemple, le point bleu au croisement de nlivr et nhist signifie que si nlivr augmente, hist augmente. En d’autres termes, plus il y a de livres à la maison, et plus le nombre d’histoires lues par les parents augmente. Certaines corrélations sont plus subtiles, celle entre petu et metu, qui indique les parents ont très souvent le même niveau d’études.

Deux critères anti-corrélés (corrélation proche de -1) évoluent en sens opposé. Par exemple, le point rouge au croisement de nhist et hdom signifie que si nhist augmente, hdom diminue (ou inversement : si hdom augmente, nhist diminue). En d’autres termes, plus les parents rentrent tard à la maison, et moins ils lisent d’histoires à leur enfant.

Corrélation linéaire

Le coefficient de corrélation que nous utilisons dans cette étude est le coefficient de Pearson. Il mesure la force d’un lien linéaire entre deux critères.

Il existe un lien linéaire entre deux critères c1 et c2 si les valeurs de c2 peuvent être déduites de celles de c1 (et inversement) en utilisant une équation de droite.

Cela peut être vu qualitativement en représentant les individus d’une population dans un repère d’axe c1 et c2 (chaque individu est un point dont les coordonnées sont les valeurs pour les critères c1 et c2).

Si c1 et c2 sont linéairement corrélés, alors le nuage de points formé par la population décrit globalement une droite, illustrée en bleu dans l’exemple ci-dessous :

image40

Le coefficient de corrélation donne une mesure quantitative du lien linéaire entre les variables. Il est calculé en mesurant la distance entre la valeur réelle de c2 et la valeur théorique donnée par la droite bleue (chaque distance est représentée par un petit segment noir dans la figure ci-après).

image15

Si ce coefficient est proche de 1 (en valeur absolue), alors ce lien est fort. L’exemple ci-dessus, les critères c1 et c2 ont un coefficient de corrélation de 0.91 environ.

Le signe du coefficient indique si les critères évoluent dans le même sens ou non. S’il est positif, c1 et c2 évoluent dans le même sens : si c1 augmente, c2 augmente (c’est le cas dans notre exemple). S’il est négatif, ils évoluent en sens contraire : si c1 augmente, c2 diminue (et inversement).

image7

Si le coefficient est proche de 0, il n’y a pas de lien linéaire entre les variables. Il est important de noter que cela n’exclut pas qu’il y ait pas d’autres types de liens, plus complexes.

Par exemple, dans la figure ci-dessous, il y a un lien fort entre c1 et c2, puisqu’on a exactement c2 = c1 x c1 (les points décrivent une parabole). Mais la droite moyenne (horizontale) est une approximation médiocre, aboutissant à un coefficient de corrélation égal à 0.

image16

On constate que de nombreux critères sont liés deux à deux, mais il n’est pas aisé d’identifier des ensembles de critères redondants. Pour ce faire, une vue plus appropriée est le cercle des corrélations.

Dans cette représentation, les critères pouvant être regroupés sont alignés (ils ont la même direction, mais pas nécessairement le même sens). Deux critères allant dans le même sens sont corrélés (par exemple petu et ptrav) et deux critères allant dans un sens opposé sont anti-corrélés (par exemple petu et necr). On peut facilement le vérifier dans la matrice des corrélations.

image33

Le cercle des corrélations met clairement en avant deux axes d’étude :

  1. Un axe “statut socio-professionel des parents” (spro), orienté à 45°, dans lequel on trouve petu, ptrav, metu, et necr;
  2. un axe “lecture accompagnée à domicile” (lecta) orienté à -45°, dans lequel on trouve mtrav, hdom, nlivr et nhist.

Pour simplifier l’étude, nous n’allons conserver qu’une variable par axe (les autres pouvant être déduites avec une erreur très limitée compte-tenu des fortes corrélations) :

  • la variable petu pour l’axe “spro”
  • la variable nhist pour l’axe “lecta”

En renouvelant l’opération plusieurs fois (en décochant les critères déjà traités), nous finissons avec l’ensemble de critères suivant : petu, nhist, sexe, tclass et mlect. Nous pouvons vérifier que les critères conservés ne sont que très faiblement corrélés :

image30

Carte des individus

Comme décrit dans l’encadré “Analyse en Composantes Principales”, chaque individu peut être représenté par un point positionné en utilisant la valeur de ses critères. Une difficulté se pose quand il y a plus de 2 critères : les points sont alors dans un espace de dimension 3 ou plus, il faut alors les projeter dans un plan pour pouvoir les observer.

Dans la carte des individus, les individus sont projetés dans un plan qui est défini par les deux premières composantes principales (voir l’encadré “ACP” pour en avoir une définition). Ceci permet d’étaler au plus le nuage de points formé par les individus, et d’ainsi faciliter la visualisation des clusters présentés dans la prochaine partie.

Carte des individus

Considérons que l’on représente chaque individu d’une population par un point ayant pour coordonnées la valeur de ses critères. La représentation de cette population est un nuage de points dans un espace à n dimensions, où n est le nombre de critères.

Quand n > 2, il faut projeter le nuage de point dans un espace de dimension 2 (un plan) pour pouvoir le visualiser. Cette projection implique une altération des distances qui séparaient initialement les points. Pour illustrer cela, imaginons deux points A et B en dimension 3. La projection de ces points sur le plan rouge altère beaucoup plus les distances que celle sur le plan vert. Le plan vert semble donc un meilleur choix que le rouge pour différencier au mieux les points.

image6

Comme nous l’avons vu dans l’encadré concernant l’ACP, les composantes principales sont calculées de telle sorte que le nuage de point s’étale le plus selon la première composante principale p1, puis la deuxième p2, et ainsi de suite jusqu’à pn. Le plan défini par les deux premières composantes principales p1 et p2 est donc celui qui aboutira à une déformation minimale du nuage de points.

La projection de la population dans ce plan particulier est appelée “carte des individus”. Elle permet de distinguer au mieux les éventuels groupements de points (appelés des clusters).

Dans l’exemple ci-dessous, nous considérons une population évaluée sur 3 critères c1, c2, c3. Les composantes principales p1 et p2 sont illustrées par des flèches de couleur, et le plan correspondant en pointillés. Après projection dans ce plan, les deux groupements de points présents en 3D restent clairement distinguables.

image19

Ne loupez pas, demain… Le regroupement des données (ou Clustering)

Laisser un commentaire sur le blog