Evaluation de méthode de lecture avec “Je Lève La Main”: prédire les résultats des élèves (3)

Des résultats prédictifs remarquables, à 10% près

Ceux-qui auront la patience de lire cet article jusqu’au bout pourront constater que la qualité du module prédictif est remarquable, sinon extraordinaire. En effet, nous sommes capables de prédire la note des élèves à 10% près pour 80% des élèves. Ceci alors que nous ne connaissons pratiquement rien sur eux. Rappelons les données expérimentales:

  • nous n’avons enregistré que quelques critères sociaux sur les élèves (niveau d’étude des parents…) ainsi que la méthode de lecture employée
  • notre étude ne porte que sur 500 élèves (nombre très faible)
  • nous n’avons fait passer aucun test d’aptitude préalable aux élèves (un tel test améliorerait sans doute grandement la prédiction réalisée par l’algorithme).

Faut-il “donner” les données à Google ?

De tels résultats laissent rêveurs sur la qualité de prédiction que peuvent obtenir les GAFA (Google, Apple, Facebook…) si  les données scolaires leur sont confiées. En effet, les GAFA sont d’ores et déjà capables :

  • d’avoir la connaissance d’une infinité de critères sociaux via les traces d’utilisation des enfants et des parents sur Facebook, Google, ITunes…
  • d’obtenir ces données sur des millions d’enfants (et non pas quelques centaines)
  • d’obtenir des données précises sur le niveau des élèves si les dossiers scolaires leur sont confiés

Dans ces conditions, on peut facilement imaginer que les algorithmes sont capables de prédire le succès au bac ou à un concours d’un élève à 95%. Et peut être même pourront-ils faire ceci des années à l’avance. On peut se servir avec avantage de ces techniques pour détecter de façon précoce des difficultés à venir.

Il s’agit évidemment de résultats statistiques, à interpréter avec modération. L’algorithme peut, (va !) se tromper pour tel ou tel élève.

Mais j’attire d’ores et déjà l’attention du Ministère sur les conséquences qu’il y a à confier, hors tout cahier des charges, ces données à des sociétés privées.

C’est à l’Education Nationale de rédiger le cahier des charges et aux GAFA de s’adapter. Pas le contraire.

Analyse quantitative des résultats

La partie Analyse en Composantes Principales (ACP) a permis  d’étudier une population sous l’angle des critères indépendamment de ses résultats sur des quiz.

Comme nous l’avons vu dans le billet précédent, il est possible de tenter d’établir des liens entre critères et résultats par le biais des clusters. Cependant, cette procédure nécessite de nombreux aller-retours entre les onglets “Expérience” et “ACP”, et permet d’établir des relations qualitatives uniquement. Et une interprétation correcte des résultats nécessite une bonne compréhension des techniques utilisées. 

Aucune expertise nécessaire

Aucune expertise n’est nécessaire pour utiliser le module prédictif. Il découle tout simplement des algorithmes statistiques implémentés dans notre plate-forme.

L’onglet “Expérience” contient un module dont le but est d’établir automatiquement des relations quantitatives entre critères et niveau. Il s’agit de la partie “Module prédictif”. Ce module est qualifié de prédictif car il permet non seulement d’expliquer le niveau en fonction des critères, mais aussi de prédire le niveau d’un élève à partir des valeurs connues sur les différents critères de l’étude.

Arbre de décision et apprentissage

Quand nous appuyons sur , le module commence par séparer automatiquement la population interrogée en deux sous-populations : une population d’apprentissage (80% de la population interrogée) et une population de test (20%).

La population d’apprentissage est utilisée par le module pour construire un arbre de décision. Cet arbre résume les répartitions observées des niveaux sur la population d’apprentissage en fonction de seuils sur les critères. La figure ci-après montre l’arbre automatiquement obtenu sur les données de notre étude :

image31

Dans cet arbre, les noeuds contiennent dans la partie haute un niveau moyen (% de bonnes réponses) et le pourcentage de la population ayant ce niveau. Les noeuds sont colorés en utilisant un dégradé de couleur allant du vert (niveau : 100% de bonnes réponses) au rouge (0%).

La racine de l’arbre correspond au niveau moyen de la population d’apprentissage : 49% de bonnes réponses.

Nous avons un premier choix selon la valeur du critère “petu”. Si sa valeur est inférieure à 1.5 (ce qui correspond aux niveaux d’études “Sans diplôme / Brevet” et “BEP / CAP”), le niveau moyen observé est environ 43% de bonnes réponses (ce qui concerne 58% de la population d’apprentissage). Si la valeur est supérieure à 1.5 (ce qui correspond à un niveau d’études “Bac ou supérieur”), le niveau moyen observé est environ 57% de bonnes réponses (42% de la population d’apprentissage).  

Ensuite, d’autres choix permettent d’affiner la valeur du niveau. Il est à noter qu’un même critère peut faire l’objet de plusieurs choix successifs. Par exemple, si nous allons à droite au choix “mlect < 1.5”, cela signifie que “mlect < 1.5” est faux, c’est à dire mlect >= 1.5. Ceci correspond aux valeurs 2 (dominante syllabique) et 3 (syllabique).

Il y a ensuite un autre choix, “mlect < 2.5” permettant de distinguer ces deux cas. Si nous allons à gauche, cela signifie que “mlect < 2.5” est vrai, donc nécessairement mlect = 2 = “dominante syllabique”. Sinon, mlect = 3 = “syllabique”.

Nous constatons que les deux premiers critères de choix sont “petu” et “mlect”, ce qui est conforme avec nos précédentes conclusions. Cependant, ce n’est pas parce que “petu” est situé à la racine de l’arbre qu’il s’agit du critère ayant le plus d’impact sur le niveau.

En effet, l’importance d’un critère est déterminée par sa contribution à la construction de chaque feuille de l’arbre (noeuds tout en bas). Par exemple, le critère “mlect” intervient deux fois dans la construction de la feuille en bas à droite (73 / 6%) et “petu” une seule fois.

L’évaluation de l’importance des critères pouvant être complexe et souvent contre-intuitive, le module présente une partie “importance relative des critères”.

Le logiciel fournit un graphique mettant en évidence l’importance relative des critères. Nous pouvons constater que l’importance relative des critères “petu” et “mect” est la même, ce qui était difficile à estimer en observant l’arbre.

image3

On peut donc en déduire que le niveau de lecture des élèves est principalement impacté, et en proportions égales, par le niveau d’études des parents et la méthode de lecture.

Prédiction

Nous pouvons enfin prédire le niveau d’un élève à partir de la connaissance que nous avons de la valeur des critères sur cet élève.

Pour cela, nous entrons le nom d’un étudiant dans la partie “Prédiction du niveau d’une personne” et appuyons sur “Prédire”.

image20

Le module navigue alors dans l’arbre de décision en fonction des valeurs des critères connues pour l’étudiant choisi, jusqu’à atteindre une feuille (les valeurs manquantes sont complétées en utilisant les valeurs connues sur le reste de la population). Le niveau de la feuille correspond à la prédiction du niveau pour cet étudiant.

Le module prédit un niveau de 56,6% de bonnes réponses alors que le niveau réel est de 45%, soit une erreur absolue de 11,6% environ.

C’est une précision remarquable quand on pense au peu d’informations utilisées pour faire cette prédiction : uniquement les valeurs des critères “petu” (niveau d’études du père) (utilisé deux fois) et “mlect” (méthode d’apprentissage de la lecture).

Il faut cependant rester prudent car d’une part, les résultats peuvent énormément varier d’un individu à l’autre, et d’autre part, il faut prendre soin de ne pas utiliser d’individus appartenant au groupe d’apprentissage pour évaluer la qualité des prédictions.

En effet, l’arbre de décision a été construit pour donner les meilleurs résultats possibles sur le groupe d’apprentissage. Dans certaines circonstances (groupe d’apprentissage de trop petite taille ou non représentatif de la population totale par exemple), l’arbre peut trop “coller” aux données d’apprentissage. Dans ces conditions, nous obtiendrons d’excellents résultats sur la population d’apprentissage mais des résultats médiocres sur des individus totalement nouveaux.

C’est pourquoi il est d’usage de tester la qualité des prédictions sur des individus que le module n’a jamais vu pendant la phase d’apprentissage. C’est l’objectif du groupe de test.

Réduire l’erreur de prédiction

La partie “Erreur de prédiction” présente le pourcentage du groupe de test ayant eu au plus une certaine erreur de prédiction.

image28

On peut par exemple observer que l’erreur maximale de prédiction est environ 22% sur le groupe de test, ou encore qu’une erreur d’au plus 12% a été obtenue pour 80% du groupe de test.

Ces résultats sont absolument remarquables, compte tenu des critères étudiés. Rappelons que les élèves n’ont passé aucun test d’aptitude. Nous connaissons simplement sur eux quelques critères sociaux de base et la méthode de lecture employée.