perroquetL'Association Française pour I'Information Scientifique (AFIS) a publié récemment sur son site Internet un article intitulé "Tromperies statistiques", rédigé par Nicolas Gauvrit, maître de conférences en mathématiques pures à l’IUFM Nord-Pas-de-Calais et docteur en sciences cognitives. Dans cet article, Nicolas Gauvrit indique que :

"La parapsychologie affirme ainsi détenir des preuves statistiques de la transmission de pensée [...] Ces « preuves » statistiques sont bien évidemment le résultat de l’utilisation fautive, et parfois frauduleuse, des méthodes statistiques. Que les pseudosciences aient recours à de telles manigances ne surprendra pas. Il est plus triste que, pressés par l’ambition, d’avides universitaires tombent eux aussi dans cette délinquance scientifique."

Ce sont là de graves affirmations et l'on serait donc tenté de penser que Nicolas Gauvrit est en mesure de proposer une argumentation précise et cohérente pour étayer ses dires. Voyons donc ce qu'il ressort de l'analyse zététique et parapsychologique de cet article.

Quel est le ton employé dans l'article ?

Le ton est généralement un indicateur intéressant du niveau et de la précision d'un article. Comme souvent, dans les articles de l'AFIS, le ton n'est pas neutre. Les différents termes employés par Nicolas Gauvrit indiquent une une orientation sceptique militante qui vise manifestement à décridibiliser la parapsychologie. Dès lors qu'un article utilise ce type de ton, que ce soit du côté "parapychologique" ou "sceptique", mieux vaut être prudent. En effet, plus les termes choisis manquent de neutralité, et plus le risque est grand qu'ils soient la marque du manque d'objectivité de l'auteur.

Le principe d'omission et l'absence de référence : Les références sont-elles nombreuses ? Qui sont les auteurs cités ?

Il existe des dizaines de publications, dans des revues spécialisées de parapsychologie et des revues classiques de statistiques, qui ont abordé, durant près d'un siècle, les rapports entre parapsychologie et statistiques. Ces écrits sont le fruit d'universitaires et de scientifiques qui ont donné lieu à de nombreux échanges.  Le lecteur souhaitant vérifier cette affirmation peut consulter les références disponibles dans ces deux articles de Jessica Utts, professeur de statistiques :

http://anson.ucdavis.edu/~utts/UttsStatPsi.pdf

http://anson.ucdavis.edu/~utts/JSE1999.pdf

Nicolas Gauvrit ne fait aucune allusion à l'ensemble de ces travaux. Il s'agit d'une conséquence du biais de confirmation, qui consiste à ne sélectionner que les informations qui vont dans le sens de ses préjugés. Il est probable que Nicolas Gauvrit n'a pas étudié les publications scientifiques sur la question, ce qui expliquerait son positionnement actuel qui repose probablement sur le mépris a priori de la parapsychologie.

Une brève revue de littérature permet pourtant de prendre conscience que ce type d'affirmation n'a pas de fondement scientifique. Il s'agit d'un "mythe sceptique" (la parapsychologie serait réductible à des erreurs statistiques) qui peut être repéré à l'aide d'un signe qui généralement ne trompe pas : l'absence de références. Nicolas Gauvrit serait en effet bien en difficulté pour proposer des références scientifiques étayant ses propos.

L'amalgame : les termes sont-ils cités avec précision ? L'auteur sait-il de quoi il parle ?

Cette absence de consultation de la littérature conduit l'auteur à un certain nombre d'amalgames. Par exemple,  parler de surnaturel alors que Sheldrake n'utilise pas ce terme pour désigner ses recherches. En outre, voici la description que Nicolas Gauvrit propose des travaux de Sheldrake :

"La « théorie des champs morphiques » est une invention de Sheldrake (dont nous reparlons plus loin) pour expliquer le « fait » qu’on peut ressentir un regard dans le dos. En gros, il s’agit d’une description de l’esprit ou de l’âme, mais en termes pseudo-biologiques et laïques."

Sheldrake ne défend pas une position spiritualiste ou surnaturelle, il vise simplement à étudier et à tester expérimentalement  certaines affirmations extraordinaires. Quant à la théorie des champs morphiques, elle est plus complexe que ce qu'en laisse penser ce passage. Elle est notamment dans le prolongement des théories de Bergson, et des travaux des biologistes Hans Spemann (1921), Alexander Gurwitsch (1922) et Paul Weiss (1923).

Y a-t-il adéquation entre la critique initiale et la démonstration ?

Pour démontrer les erreurs statistiques de la parapsychologie, l'auteur se réfère tout d'abord à une critique concernant quelque chose qui n'a pas grand chose à voir avec la parapsychologie : le biais d'acquiescement. Ce raisonnement, tout à fait juste, a une valeur illustrative et offre une démonstration qui n'a cependant pas de lien direct avec la parapsychologie.

L'imprécision : la description des expériences est-elle précise ? Les informations sont-elles fiables ?

Nicolas Gauvrit passe ensuite de cette première démonstration à un "deuxième exemple" : l'"invention de Sheldrake, qui, dans sa quête éperdue de surnaturel, nous gratifie régulièrement de mystifications statistiques.". Il propose alors une description simpliste de l'expériences de Sheldrake comportant quelques erreurs. Comparons le résumé de Nicolas Gauvrit à la publication originale :

Résumé de Nicolas Gauvrit : "Aimée Morgana est, nous dit Sheldrake, l’heureuse propriétaire d’un perroquet gris d’Afrique nommé N’Kisi. N’Kisi semble disposer, outre d’un langage de 30 mots environ, d’un talent de télépathe."

Article original, p. 602 : N'kisi a "un vocabulaire contextuel de plus de 700 mots".

Résumé de Nicolas Gauvrit : "Mais Rupert Sheldrake ne croit pas sans preuve au surnaturel, et décide donc de tester scientifiquement N’Kisi."

Article original : le terme surnaturel n'est pas cité une seule fois dans l'article.

Résumé de Nicolas Gauvrit : "L’oiseau est placé dans une pièce, Aimée Morgana dans une autre. A. M. ouvre à intervalles réguliers des enveloppes, dans lesquelles elle trouve des photographies représentant certains objets, dont N’Kisi connaît les noms. A. M. se concentre bien fort sur ces images, et on note ce que conte le volatile pendant ce temps."

Article original : Nicolas Gauvrit ne mentionne pas les précautions 1/ L'ensemble était filmé par vidéo 2/ Ce que disait N'Kisi n'était pas noté en même temps : ce sont trois juges qui ont ensuite repris ce que ce disait N'Kisi à partir de bandes vidéos.

Résumé de Nicolas Gauvrit  :"167 n’étant pas divisible par 20, il n’y a pas autant de photos pour chacun des 20 mots cibles."

Article original : Sur les 167 enveloppes scellées [...] nous avons laissé 147 images pour l'expérience principale". Suite à certains problèmes technique cela laissait "131 essais pour l'analyse".

Outre ces approximations, plusieurs points, qui pourraient rendre l'expérience plus crédible, qui ne sont pas mentionnés. Par exemple le fait que l'analyse statistique a été réalisée de façon indépendante par Jan Van Bohlhuis, professeur assistant de statistiques à l'université d'Amsterdam. Nous conseillons donc aux lecteurs de comparer le résumé de Nicolas Gauvrit avec l'article initial qui se trouve disponible en ligne ici.

De la critique à la généralisation : la critique est-elle pertinente ? Dans quelle mesure peut-elle être généralisée ?

Malgré ces imprécisions, Nicolas Gauvrit remarque un biais potentiel dans l'expérience de Sheldrake :

"Pour être moins douteuse, l’expérience aurait dû utiliser autant de représentations de chaque mot. Il s’agit là d’un piège statistique courant : le tirage des « mots » n’est pas uniformément aléatoire, et l’échantillon est donc biaisé."

Cependant, ce travail critique n'est pas de son fait : cette critique est mentionnée dans l'article lui-même ! Il s'agit d'un commentaire de l'un des deux experts (p.615) chargé de vérifier l'article, Jeffrey Scargle, de la NASA. Généralement, lorque l'on cite une critique, la moindre des politesses consiste à citer l'auteur qui le premier a proposé cette critique.  Car il suffit de lire l'article pour constater qu'il est question de cette critique, non seulement dans les remarques de deux reviewers, mais aussi de la part de l'éditeur qui a choisi de s'exprimer sur cette question. Cette critique est également reprise dans l'article de Sheldrake suite aux remarques des reviewers. Nous citons ces différents passages :

Reviewer Comment: Jeffrey Scargle

In reviewing this paper, I commented on the preponderance of flowers in two aspects of the experiment. The parrot’s vocabulary and the selection of images are not random. Both show enhanced frequencies of certain culturally favored concepts—‘‘flower’’ being only the most obvious one. The statistical analysis presented in the paper assumes randomness, and is therefore inappropriate.
The authors’ response (that it would be unfair, statistically speaking, to arbitrarily remove the most obvious evidence) is correct but misses the point. For their comment to be relevant, ‘‘flower’’ and other concepts, such as ‘‘doctor,’’ and ‘‘medicine,’’ would have to be the most frequent concepts in this experiment simply because of statistical fluctuations. But both samples (the parrot vocabulary and suite of pictures) contain them with higher than average frequency because of their cultural importance.
It is very difficult, if not impossible, to account for this kind of cultural selection effect with statistical analysis of the data. Hence, I do not believe that this experiment provides any evidence supporting the claim of telepathy.What is needed is an experimental protocol insensitive to selection effects in the first place.
Analyzing the data kindly provided by the authors, I found a p-value 4 times larger than theirs for the case where ‘‘flower’’ is removed, but as discussed above this calculation is irrelevant.

JEFFREY D. SCARGLE
Space Science Division
NASA Ames Research Center

Reviewer Comment: Mikel Aickin
Sheldrake and Morgana have done an admirable job in an area of research that is plagued with both methodological and statistical problems. As is customary in JSE, they have described their procedures in meticulous detail, a salutary strategy that becomes particularly important when the compulsive skeptics start sniffing around.
When I originally refereed this article, I was concerned mainly by the omission of the instances in which N’kisi said nothing. It seemed to me that opportunities for him to have had a match, but where he failed, should be counted as failures, regardless of whether he said anything or not. I therefore requested data on the omitted cards/phrases, which the authors immediately supplied. I did a permutation test on the entire dataset, and found a p-value that differed only trivially from the one stated in the article. Although the authors have done an analysis that I would not have done (by omitting data), it makes no difference to the results, and so I was happy.
In passing, I mention that the permutation test done in the article is incorrect. As described, it permutes all 117 words and then assigns them to images with the same frequency as was actually observed (thus, the first image was assigned to four words). This procedure makes the null hypothesis a combination of two separate hypotheses: (1) that N’kisi responds at random, and (2) that the words he uses in any particular session are selected at random. It is only (1) that is at issue, and adding in (2) is a methodological error. The error is that N’kisi could combine words dependently, causing rejection of the hypothesis (1) and (2), leading the researchers to reject (1), when it is (2) that causes the rejection. I make this point only for methodological reasons, because as I said above, a proper permutation test does not contradict the author’s conclusions.

I am not bothered by Scargle’s concerns. The fact that some words occur more or less frequently in the cards or in the responses is irrelevant (so long as it doesn’t become ridiculous, like having a flower on every card). The permutation test (in its correct manifestation) remains appropriate in this case. Sheldrake and Morgana have demonstrated, in a particular instance, a concordance between N’kisi’s phrases and the card images Morgana viewed cannot be explained by chance and does not appear to be explainable by methodological error.

MIKEL AICKIN

Editorial Comment
This article is another instance of your Editor’s difficulties where research protocols and statistical inference are questioned. The first two reviewers of this manuscript made opposing recommendations, and two more reviewers were consulted. Publication was a majority recommendation, though some reviewers felt that the protocol was flawed for the reason described above by Scargle.

Aickin describes how he grappled with the issues and was helped by further information from the authors. My personal reaction is that, once again, we have suggestive results, a level of statistical significance that is less than compelling, and the devout wish that further work with refined protocols will ensue.
At the same time, I want to express publicly our deep indebtedness to reviewers who have, time and again, spent much time and effort in clarifying issues, stimulating authors to refine their presentations, and informing readers of the various views that can be legitimately taken on some of these matters.

Ce problème est également abordé dans la partie discussion de l'article de Sheldrake :

"One of the reviewers of this paper pointed out that much of N’kisi’s success hinged on the frequency of his hits with the word ‘‘flower,’’ which was both the most common key word he said during the series of tests, and was also represented by the largest number of images. If this word were to be excluded from the analysis, the statistical significance of N’kisi’s success would be lower. This is true, but post hoc. In any experiment, if the most obvious evidence is arbitrarily removed afterwards, the significance of the results will be reduced. Nevertheless, to examine this argument more closely, we carried out a statistical analysis eliminating ‘‘flower’’ both as a target and as a response. Using the data from the majority scoring method, as shown in Table 2, following the BRA procedure with 20,000 random permutations, the results excluding ‘‘flower’’ were still strikingly significant (pˆ0.006)."

Ce problème a effectivement été repéré par les reviewers et discuté d'une façon autrement plus professionnelle et précise que ce que fait Nicolas Gauvrit.

Conclusion

Dans cet article Nicolas Gauvrit critique de façon très vive l'usage des statistiques par les parapsychologues. Pourtant, il ne cite pas les publications scientifiques existantes sur la question. Il ne propose pas de références étayant ses propos et ses critiques.

Au lieu de cela, il fait un amalgame entre le surnaturel, l'astrologie et la parapsychologie. Il ajoute à cela la description d'une expérience de Sheldrake, description qui comporte plusieurs erreurs. Il propose ensuite une critique qui est en réalité déjà mentionnée dans l'article initial et dans les remarques des reviewers. De tout cela, Nicolas Gauvrit n'en dit rien non plus.

Ce type d'analyse est à l'opposé d'une démarche zététique et scientifique. Cette approche, malheureusement fréquente dans les travaux de l'AFIS, est une tentative de décridibilisation de la parapsychologie par des procédés peu avouables. Cela est d'autant plus désolant qu'avec ses qualifications, Nicolas Gauvrit aurait tout à fait pu rédiger un article de qualité concernant les débats scientifiques actuels en parapsychologie. Il aurait ainsi pu aider à faire avancer la recherche en propoposant des critiques précises et argumentées et faire ainsi réellement de l'information scientifique. Est-ce réellement ce que fait l'AFIS en publiant de tels articles ?

Pour terminer, il nous faut préciser un point afin d'éviter qu'une nouvelle fois, nos critiques d'approches pseudo-sceptiques ne soient perçues comme une prise de position qui serait elle aussi teintée d'un trop plein de subjectivité.

Sheldrake a déjà été imprécis dans ses calculs, comme l'a souligné récemment un membre de l'OZ.  Sheldrake a tendance à alterner des travaux de grande rigueur avec des travaux comportant parfois des approximations statistiques comme lors des expériences avec N'Kisi ou les Nolan Sisters. Mais il paraît difficile de décridibilier l'ensemble de ses travaux pour ce type d'approximation. Car pour d'autres recherches, notamment sur l'impression d'être observé, les différents critiques n'ont pu mettre en évidence des erreurs ou des biais statistiques. Qui plus est, comme souvent en parapsychologie, les travaux sont l'objet de beaucoup plus de critiques. Les travaux provenant de disciplines plus classiques résisteraient-ils à de telles analyses ? Cela n'est pas sûr quand on sait que près de 10% des publications d'une revue comme Nature comportent également des approximations statistiques.

Au final, l'expérience avec N'Kisi est effectivement loin d'être parfaite. La complexité du dispositif mis en place nous parait inadaptée et l'erreur soulignée par Scargle est tout à fait pertinente. Cependant, cela ne permet pas pour autant de jeter le discrédit sur l'ensemble de ce travail et de nouvelles recherches avec ce perroquet sont nécessaires. Une équipe sceptique  se lancera-t-elle dans cette entreprise ?

*

Ajout 16 février 2008 :

Nicolas Gauvrit nous à répondu concernant cet article. Ses remarques et nos réponses sont disponibles ici.