Evaluation de méthodes de lecture avec “Je Lève La Main”: le regroupement des données (2/3)

Une méthode d’analyse expérimentale

L’objectif d’une analyse en composante principale (ACP)  avec “Je Lève La Main” est d’obtenir des clusters permettant de mettre en évidence des différences de niveau.

Dans ce cas, cela signifie que les critères sélectionnés pour obtenir ces clusters sont pertinents et qu’ils sont liés au niveau atteint par les élèves. Dans le cas contraire, l’ACP ne met en évidence aucun lien entre critères et niveau atteint – ce qui signifie que l’expérience est négative. Les critères observés, quels qu’ils soient, ne jouent pas sur le niveau.

Par analogie avec le chimiste, les critères sont les ingrédients mis dans le tube à essai. Le chimiste cherche à observer le changement de couleur du tube à essai, qui correspond pour nous à la variation du niveau.

Le regroupement des données ou “clustering”

Le clustering permet de constituer des groupes les plus homogènes possibles en termes de valeurs de critères. Ces groupes sont appelés des clusters. Les individus appartenant à un même cluster auront des valeurs de critères similaires.

La figure ci-après montre le clustering de la population réalisé par l’outil en se basant sur les valeurs des 5 critères sélectionnés. Par défaut, l’outil calcule automatiquement le nombre de clusters (ici 2).

image26

Les clusters sont totalement distincts (leur intersection est vide). Mais en 2 dimensions, les clusters semblent se recouvrir car ils sont projetés dans un espace de dimension 2 depuis un espace plus grand (5 dimensions ici). Le fait de représenter les clusters dans la carte des individus limite ces recouvrements mais ne permet pas de les éliminer.

Nous allons ajouter ce clustering en tant que groupe dans notre expérience “méthode de lecture”. Ceci va nous permettre de manipuler ce groupe dans l’onglet “Expériences”.

image24Pour ce faire, nous cliquons sur image35, nous conservons le nom par défaut “clustering1” et cliquons sur OK.

Première analyse des clusters

Le clustering que nous venons de générer va nous permettre de tenter d’établir un lien entre la valeur des critères qui caractérisent ces clusters et le niveau de lecture des individus appartenant à ces clusters.

Pour cela, nous allons dans l’onglet “Expériences” et sélectionnons l’étude “méthode de lecture”. 

Dans la partie “Groupes”, nous constatons qu’une nouvelle partie est apparue : “ACP”. Cette partie contient tous les clusterings calculés dans la partie ACP – pour le moment uniquement le clustering nommé “clustering1”.

image47

Nous constatons que le groupe “clustering1” est bien une partition de la population interrogée. Il contient tous les individus de la population interrogée (500 personnes), et se divise en 2 sous-groupes “Cluster : 1” (255 personnes) et “Cluster 2” (245 personnes). On a bien 255 + 245 = 500.

Nous pouvons évaluer les résultats du groupe “clustering1” sur le quiz “Compréhension lecture” en ajoutant ce groupe aux groupes de l’étude :

image1

Ensuite, nous cliquons sur l’icône image32de la partie “Carte de niveau” et nous obtenons le résultat suivant :

image12

Nous constatons qu’il n’y a pas de différence significative de niveau entre les 2 clusters. Si l’on regarde les choses un peu plus en détail (en cliquant sur le carré bleu puis vert), on peut constater que la répartition des niveaux dans ces clusters est très similaire à celle de la population interrogée :

image43image17

A ce stade, notre expérience a donc échoué puisque les clusters obtenus ne nous disent rien sur le niveau de lecture des élèves. Nous sommes dans la situation du chimiste qui, ayant mélangé divers ingrédients dans son tube à essai, constate que celui-ci ne change pas de couleur.

Elimination des critères non pertinents (méthode itérative)

Analysons ce qui différencie le plus les clusters 1 et 2. Pour ceci, nous retournons dans l’onglet “ACP”, partie “Valeur des critères sur les clusters”,[a][b][c][d] et nous demandons d’évaluer la différence de valeur de critères entre les clusters 1 et 2 :

image46

Nous constatons que les clusters sont totalement différents sur le critère “sexe” (la valeur 1 correspond à une différence de “100%”) : un cluster ne contient que des filles, et l’autre que des garçons.

Nous avons aussi constaté que les deux clusters avaient des niveaux de lecture équivalents, nous pouvons donc en déduire que le critère “sexe” n’a pas d’impact sur le niveau de lecture.

Deuxième analyse des clusters

Le critère “sexe” n’ayant pas d’impact sur le niveau de lecture, nous pouvons l’exclure de notre étude pour tenter d’identifier les critères ayant un impact sur le niveau parmi les restants.

Cette exclusion se fait en décochant le critère “sexe” dans la liste des critères dans la configuration de l’analyse :

image5

Nous recalculons les clusters en fixant le nombre de clusters à 4 pour bien séparer les sous-groupes tout en gardant des sous-groupes de taille raisonnable (un nombre élevé de clusters peut amener à des sous-groupes contenant très peu d’individus) .

image25

Nous ajoutons ce nouveau clustering à l’étude sous le nom “clustering2”.

Si nous regardons la composition de ce clustering, nous constatons que les sous-groupes sont de taille homogène et qu’ils possèdent au moins 100 personnes.

image45

Si nous demandons les résultats de ce clustering sur le quiz de compréhension, nous constatons une différence significative de niveau entre les clusters 1 et 2.

Notre “tube à essai”” a maintenant bien changé de couleur.

image4

Cette fois, la répartition des niveaux entre les deux clusters est nettement différente :

image22image44

Nous observons également que ce qui différencie le plus ces deux clusters est le critère “petu”, puis “mlect”. Les autres critères sont quasiment identiques sur ces clusters, leur différence de valeur étant inférieure à 5%.

image42

Nous pouvons en déduire que les critères “mlect” (méthode de lecture) et “petu” (niveau d’études du père) ont un impact sur le niveau, mais nous ne pouvons pas en dire plus.

En particulier, ce n’est pas parce que ce les clusters se différencient le plus sur le critère “mlect” que ce critère a le plus d’impact sur le niveau.

Nous pouvons toutefois avoir une idée de l’évolution du niveau en fonction des critères en utilisant la fonction de partitionnement de la partie “Expériences”.

Par exemple, pour observer l’impact de “mlect” sur le niveau de lecture, nous pouvons créer une partition “mlect” sur la base du critère “mlect” (voir le manuel de l’outil d’analyses statistiques pour le détail des opérations).

La partition “mlect” contient autant de sous-groupes que de méthodes de lecture. Et comme précédemment, l’ensemble des membres de ces sous-groupes donne la population interrogée.

image9

Si nous évaluons les résultats de la partition “mlect” sur le quiz de référence, nous obtenons les niveaux suivants :

image39

Nous voyons clairement que le niveau évolue dans le même sens que mlect, ce qui permet d’identifier une tendance mais pas d’expliquer (et encore moins de prévoir) quantitativement des résultats.

C’est le but du module prédictif que nous allons utiliser dans la partie suivante.

Laisser un commentaire sur le blog