Les conséquences sociales des évaluations sur les enseignants et sur la liberté pédagogique

 

La méthode de production des évaluations

Selon Marx, l’organisation de la société repose sur la spécialisation, qui entraîne l’asservissement de ceux qui exécutent à ceux qui contrôlent et coordonnent.

Les évaluations récemment développées par l’Education Nationale sont conçues par des neuroscientifiques et les enseignants jouent un simple rôle d’exécutant dans leur mise en place. Ils ignorent les principes régissant les exercices – et cette ignorance est nécessaire pour des raisons expérimentales liées au « double aveugle ». Un logiciel centralisé recueille les données qui seront analysées non pas par les enseignants eux-mêmes mais par des experts (en analyse de données, en neurosciences), travaillant au service d’une organisation bureaucratique :  l’Education Nationale.

Or ces données, je l’ai montré dans mon article précédent, contiennent évidemment des éléments de pouvoir. Elles peuvent, et sans doute doivent, être utilisées pour évaluer recteurs, établissements, professeurs, élèves. Elles peuvent, et sans doute doivent, être utilisées pour évaluer différentes méthodes pédagogiques et sélectionner les meilleures, de la maternelle au baccalauréat.

Dans la mesure où l’organisation et la technique des évaluations, telle qu’elles sont actuellement proposées, échappent totalement aux enseignants, il apparaît donc justifié que ceux-ci les redoutent. De toutes les critiques que j’ai pu lire contre le système des évaluations que l’EN tente d’instaurer, celle-ci me paraît la seule qui soit réellement justifiée.

Il est comique que cette critique soit faite par ceux-là mêmes qui ont cherché, dans les dernières années à  transformer les enseignants en bureaucrates en instaurant, par exemple, les kafkaïennes grilles de compétences dont tu trouveras, cher lecteur, une version simplifiée en cliquant ci-dessous.

Evaluation Par Competences

Ces grilles de compétences, incompréhensibles pour presque tous les enseignants comme pour l’ensemble des parents, ont été imposées dans le but de se débarrasser de ces sales notes trop synthétiques qui avaient évidemment pour objectif de développer un esprit de compétition trop malsain chez les enfants. Pourquoi faire simple quand on peut faire compliqué ? Avec ce système, les enseignants sont devenus des gratte-papiers dans le pire sens du terme et ni les élèves ni les parents ne savent où ils en sont. C’est peut-être d’ailleurs le but recherché.

Ceux qui s’inquiètent de la contrainte bureaucratique qu’exercent les évaluations sur les professeurs ont donc, si l’on peut dire, fait leurs preuves ! Mais tu connais bien, cher lecteur, ma rigueur intellectuelle et mon goût pour la dialectique. Peut-on simplement réfuter une critique au simple prétexte que celui qui l’émet est un âne bâté, un incapable et qui plus est, de mauvaise foi ? Evidemment non ! L’objectif de cet article n’est pas de de traiter cet argument par le mépris mais d’essayer de définir un cadre dans lequel ces évaluations pourraient être organisées en plein accord avec la richesse et la noblesse du métier d’enseignant.

Si on pose le problème en termes marxistes, il s’agit donc d’abord de définir une « méthode de production » de ces évaluations permettant d’assurer aux professeurs qu’ils peuvent les utiliser sans subir une contrainte sociale arbitraire de la part de leur administration.

L’architecture du logiciel structure la forme des relations sociales

Comme la méthode de production et d’analyse des évaluations est une méthode logicielle, c’est la nature de l’architecture informatique du programme et des données utilisés par les enseignants qu’il s’agit de définir. L’architecture informatique détermine la forme des structures sociales engendrées par l’utilisation du programme et leurs relations, comme vous pouvez le constater tous les jours quand vous utilisez Facebook ou Google. Les anglo-saxons, faisant du marxisme sans le savoir, expriment ceci sous la forme de la maxime « Code is law ». (Le code, c’est la loi). Et je renvoie ceux qui veulent en savoir plus sur le sujet à l’article fondateur de Doris Lessig (traduction française). Si à défaut de finir mon billet, tu vas lire cet article, tu n’auras pas entièrement perdu ton temps, cher lecteur !

Mon objectif en esquissant les principes de cette architecture n’est pas de rentrer dans les détails techniques. Je précise cependant que toutes les technologies que je vais évoquer sont relativement nouvelles, mais simples à mettre en œuvre. Bien plus simples en tous cas que le logiciel SIRHEN dont j’ai récemment évoqué les déboires.

Une architecture décentralisée pour les évaluations

De façon à ce que les experts n’aient pas le monopole de la conception des évaluations, l’architecture cible doit permettre la création des évaluations par tout enseignant. Ainsi, un enseignant peut faire passer les évaluations « institutionnelles », crées par les experts du MEN, mais il peut aussi concevoir d’autres évaluations, soit dérivées de celles créées par le MEN, soit indépendantes. Les professeurs étant infiniment plus nombreux que les équipes d’experts, la plupart des sujets à évaluer seraient alors définis par la communauté des enseignants. Or, le thème d’étude est à l’évaluation ce que l’ordre du jour est à l’Assemblée.

La question qui se pose immédiatement est la suivante : quelle est la légitimité des enseignants pour concevoir des évaluations ? Les évaluations actuelles sont réalisées par des scientifiques mondialement reconnus en neurosciences et évidemment les enseignants n’ont pas cette compétence. Quelle est donc leur compétence pour concevoir une évaluation et analyser les données obtenues ? A cette question, il y a deux niveaux de réponse.

Evaluer, c’est d’abord comparer.

Le premier niveau découle de l’architecture informatique du programme.

L’évaluation faite par un enseignant n’a pas forcément pour objectif de situer ses élèves au niveau national. Un enseignant peut vouloir, plus modestement, tester une « méthode pédagogique » nouvelle. Par exemple, l’année dernière, il a utilisé une méthode de lecture globale et cette année une méthode syllabique. Quelle méthode donne les meilleurs résultats pour sa classe ? Autrement dit, peut-il définir une évaluation lui permettant de comparer les progressions « globale » et « syllabique » de ses élèves ? Il lui suffit d’élaborer par exemple un ou plusieurs questionnaires évaluant les capacités de lecture de ses élèves en début et en fin d’année de CP.

Cet enseignant est peut-être un pédagogiste adepte, par exemple, de la méthode globale et il se refuse à enseigner la méthode syllabique, décidément trop réac. Une architecture d’évaluation bien conçue va lui permettre alors de comparer simplement les résultats de « sa » méthode avec les résultats obtenus par un autre enseignant.

Pour comprendre ce que serait une telle architecture, on doit simplement imaginer un logiciel en ligne muni des 3 fonctions suivantes :

  • Tout enseignant peut saisir son questionnaire d’évaluation (par exemple sous forme de quiz)
  • Puis le rendre accessible à d’autres enseignants, de façon à ce que ces enseignants puissent faire passer à leurs élèves les questionnaires d’évaluation.
  • Enfin, un logiciel d’analyse statistique, éventuellement guidé par l’enseignant, permet de tirer des indicateurs significatifs (moyenne initiale des élèves de chaque enseignant, progression moyenne avec les deux méthodes, niveau atteint, etc…)

etude-jllm2

Une telle architecture ne se limitera pas à la collaboration de deux enseignants seulement. Elle permet donc aussi à de multiples enseignants de faire passer les questionnaires à leurs élèves. Ainsi, on peut comparer facilement la performance des méthodes pédagogiques sur un échantillon significatif d’élèves et d’enseignants et la technologie actuelle permet d’obtenir des résultats presqu’instantanés. C’est ce qui a été fait ici dans le cas des méthodes de lecture.

L’introduction de la méthode expérimentale à l’école, la liberté pédagogique

De cette façon, l’enseignant n’est plus un simple exécutant faisant passer les évaluations à l’aveugle.

Or qu’est-ce que la liberté pédagogique ? C’est la liberté pour chaque enseignant de choisir librement sa façon d’enseigner et de la faire évoluer, seul ou en collaboration avec d’autres enseignants.

La liberté pédagogique est au service des élèves. Elle  n’a de sens  que si elle permet à l’enseignant de déterminer la meilleure méthode possible pour faire progresser ses élèves. La seule limite à la liberté pédagogique, limite qui est aussi sa finalité, c’est donc l’intérêt des élèves.

Avec une architecture décentralisée d’évaluation, chaque enseignant peut imaginer une innovation pédagogique, la tester, seul ou avec d’autres enseignants, et des conclusions rapides peuvent être atteintes. Ces conclusions sont accessibles à tous et reproductibles par toute la communauté enseignante..

Selon la méthode expérimentale préconisée par Descartes, on apprend à tous les coups. Si l’innovation est bonne, on la garde. Si elle n’est pas fructueuse, on la rejette.

L’utilisation éclairée de cette méthode constitue donc aujourd’hui, à mon sens le plus haut niveau d’expression possible de ce qu’on nomme habituellement la liberté pédagogique de l’enseignant.

Une telle architecture permet de multiplier les évaluations, individuelles ou de groupe, à la discrétion des enseignants. Elle est à l’éducation ce que le tube à essai est à la chimie. Elle constitue une révolution : celle qui marque le passage de la pédagogie dans l’univers des sciences expérimentales.

On a cru depuis 20 ans que les usages de l’informatique à l’école allaient améliorer l’école. Or, à de rares exceptions près, on constate aujourd’hui que l’introduction des nouvelles technologies dans la salle de classe n’améliore pas le niveau des élèves. En revanche, la technologie permet de multiplier le nombre des évaluations et de simplifier l’analyse des données. Le progrès va venir non pas des usages en classe des nouvelles technologies mais de l’introduction de technologies d’évaluation légères, performantes et rapides.

La perspective ouverte par l’analyse de données à grande échelle

Au second niveau, il faut se placer dans une perspective historique plus vaste, celle de la révolution numérique en cours qui change radicalement la façon dont les données peuvent être recueillies et traitées. Les entreprises qui vous connaissent le mieux, Google et Facebook, sont celles qui ont rassemblé sur vous le plus de données. Ces données ont été obtenues de façon relativement empirique et peu structurée, au fil de vos interactions avec les différents sites Web que vous consultez. Pourtant, la capacité prédictive et psychologique de ces plate-formes est remarquable.

Récemment, un jeune homosexuel a été contraint à faire son coming out par Facebook car ses proches constataient, en consultant son profil, que des objets s’adressant à des homosexuels leur étaient proposés par le moteur de publicité de la plate-forme. Pour réaliser cet exploit, Facebook effectue simplement des corrélations statistiques entre les différents profils utilisateurs et associe des bandeaux publicitaires proches pour des profils corrélés. Il est à noter que cette technique s’applique aussi bien pour la partie consciente que pour la partie inconsciente de la personnalité de l’utilisateur et que donc, il n’y a aucun doute que Facebook sera capable à court terme, s’il ne l’est déjà, de révéler leur homosexualité inconsciente à certains de ses utilisateurs.

Technologie fantastique. Mais ces analyses de type « big data » ne servent pratiquement que des intérêts publicitaires. Facebook et Google ne les utilisent que pour vous servir le meilleur bandeau de publicité possible. Cette utilisation n’est pas forcément honteuse, mais elle n’a aucun intérêt pour ce qui est du progrès humain.

Si les enseignants se saisissent massivement des immenses possibilités offertes par de nouvelles architectures d’évaluation, une immense quantité de données pertinentes sera générée et les enseignements à en tirer seront sans doute sans fin. Ainsi, dans l’exemple cité ci-dessus, on arrive à prédire à 90% la performance de lecture d’un élève à partir de 5 paramètres très simples suite à une évaluation ayant rassemblé quelques dizaines de classes seulement. A titre de comparaison, l’EN a fait de ce débat depuis plus de 40 ans une querelle politique, avec des conséquences  catastrophiques pour les élèves. En ce sens, la technologie peut aider à trancher des débats politiques stériles, de nature quasi-religieuse.*

Des neurosciences aux données

Non seulement donc les professeurs, pris dans leur multitude et rassemblés par la bonne architecture technologique, ont toute leur légitimité par-rapport aux experts en neurosciences et statisticiens actuels, mais on peut affirmer que toute l’expertise “neuroscientifique” mise en place ne constitue qu’une toute première étape, le tout début de ce qu’un système d’évaluation bien conçu peut apporter. Les neurosciences ne sont en quelque sorte qu’un exemple d’application possible des enseignements qu’on peut tirer des “big data”. Les neurosciences ne sont pas la fin, au double sens du terme, mais le début des applications possibles données.

Cependant, le potentiel de progrès induit par une architecture numérique bien pensée, décentralisée, non oppressive, permettant de rassembler les expériences faites par la multitude des enseignants n’a pas, à ma connaissance, été envisagé par l’équipe de scientifiques actuellement mise en place par l’EN.

Un modèle alternatif aux GAFA

Beaucoup d’enseignants sont à juste titre méfiants vis-à-vis de l’entrisme des GAFA dans l’enseignement. Méfiants aussi, à juste titre, vis-à-vis de la tolérance que semble accorder l’EN aux GAFA, surtout quand les hauts fonctionnaires en charge des politiques numériques finissent par y pantoufler. Si la situation perdure, les données des élèves échoueront toutes chez les GAFA, dont la priorité n’est certainement pas l’émancipation citoyenne des élèves français ni la liberté pédagogique des enseignants.

La seule réponse possible, la seule réponse à la hauteur, c’est que les données pertinentes générées par la multitude des enseignants dépassent, en quantité, en qualité, en ouverture, en possibilités d’analyse celles obtenues par les GAFA. La guerre des données n’est pas perdue, mais elle ne peut se gagner qu’en s’unissant. La lutte contre Facebook, contre Google ne doit pas être une lamentation, mais une action collective.

Voici pour les grands principes. Je voudrais finir par la réponse à trois objections qui ne manqueront pas d‘être émises.

1 et 2) “Vous semblez avoir une croyance magique dans « les données ». Or les évaluations actuelles sont analysées mais aussi conçues par des statisticiens de métier. Les enseignants n’ayant pas cette formation, ils ne sauront pas structurer leur évaluation, encore moins l’analyser correctement.”

La quantité crée la qualité

L’évolution des puissances de calcul permet de générer sur des données des millions d’analyses statistiques, là où il y a quelques années seules quelques analyses pouvaient être envisagées. Puis des algorithmes, guidés de façon simple, permettent de détecter quelles analyses ont une chance d’être pertinentes. La formation à ces outils est de l’ordre de quelques jours et peut être effectuée en ESPE ou dans le cadre d’un CAPES, par exemple.

Pour les statisticiens de métier (ou les deux profs de philo qui lisent ce blog), je ne peux pas rentrer dans le cadre de cet article dans des explications trop techniques, mais la meilleure façon de voir les choses est la suivante : les données, couplée à la puissance de calcul presqu’infinie des machines actuelles et à venir, illustrent le principe hégélien « la quantité crée la qualité ».

Dans le cas de l’intelligence artificielle, c’est ce qui se passe. On croit au départ, comme Pascal ou Edgar Poe, que les ordinateurs ne sont que de grosses machines à calculer automatiquement mais quand la puissance de la machine augmente de façon exponentielle, de la façon un peu miraculeuse décrite par la loi de Moore, on ne peut nier qu’une intelligence se crée puisque sans aide humaine, l’ordinateur finit par battre l’homme à son propre jeu, celui des échecs. Ce passage de l’ordinateur « machine » à la qualité d’ordinateur « intelligent » s’est produit en 1996 et marque le début de ce qu’on appelle la Révolution numérique.

Il en est de même pour ce qui est des données et de leur analyse. Si on en rassemble suffisamment, si on dispose d’immenses capacités de calcul, on y trouve des enseignements à l’aide de simples algorithmes informatiques même sans compétence statistique importante de la part des enseignants. Et la puissance des machines progressant de façon exponentielle, on y trouvera, avec le temps, toujours plus d’enseignements.

Cet argument répond d’ailleurs, par la même occasion, aux objections concernant les évaluations massives réalisées antérieurement, en France ou dans les pays anglo-saxons, dont les conséquences ont été souvent limitées. On parlait dans les années 90 d’une ou deux évaluations, très lourdes, réservées à des spécialistes et dont l’analyse pouvait prendre des années. On parle ici de milliers d’évaluations par an, simples, légères, que tout enseignant peut mettre en œuvre et dont l’analyse prendra de quelques minutes à quelques semaines. Bref, le terme « évaluation » reste inchangé mais on ne parle plus du tout de la même chose. Là aussi, la quantité crée la qualité.

3) « Vos évaluations, finalement, ce seront des quiz. Or l’évaluation sous forme par quiz, c’est vraiment le degré 0. Le quiz ne peut pas appréhender toute la complexité de certaines matières ni (je pense toujours aux deux profs de philo qui vont me lire !) d’une dissertation. »

Il est évident que la méthode proposée ne peut évaluer une dissertation de philo ou de français. Elle a donc, au moins au départ, ses limites. De même, un tube à essai ne permet pas de réaliser toutes les expériences possibles.

Cependant, ces limites sont moins importantes qu’il n’y paraît. Bien conçu, le quiz permet d’évaluer en profondeur non seulement le savoir de l’élève, mais aussi sa capacité de raisonnement au même titre qu’un devoir complexe. Il y a, pour l’enseignant, tout un « art » du quiz qui pourrait d’ailleurs aussi être enseigné dans le cadre de leurs formations pédagogiques. Dans les meilleures universités américaines, le quiz est utilisé en sciences pour pratiquement tous les examens jusqu’au niveau du doctorat et ayant côtoyé cette forme d’interrogation, je peux témoigner que, bien mise en œuvre, elle n’est en rien moins exigeante, en rien moins profonde que le devoir sur table de 4 h qu’impose la grande tradition française.

En dehors des matières scientifiques, le quiz peut évidemment être utilisé, au moins en partie, dans toutes les matières pour ce qui est des connaissances et de la compréhension, ce qui est déjà beaucoup. On exclut évidemment, encore une fois, tout ce qui est dissertation à ce stade.

Bref, la méthode proposée n’est certes pas complète, mais bien plus vaste que ce qu’on croit en général en France.

J’invite tous ceux qui doutent à consulter, dans leur discipline, les c