Repenser la robustesse et la fiabilité en recherche : les chercheurs face à la crise de la reproductibilité

Argumentaire

Les chercheurs sont confrontés au fait de ne pouvoir obtenir les mêmes résultats soit en reprenant les mêmes méthodes et/ou les mêmes données soit en s’appuyant sur de nouveaux jeux de données et/ou d’autres méthodes poursuivant le même objectif de recherche. Le problème de la fidélité et de la réitération des résultats se pose à l’échelle collective (i.e. unité de recherche, spécialistes d’une même discipline) comme individuelle (i.e. : reproductibilité spatio-temporelle (Desquilbet 2018).

Le sujet de la reproductibilité est ancien (Barba 2018) et d’aucuns considèrent qu’il vaut mieux évoquer un changement de paradigme de la recherche plutôt qu’une crise (Fanelli 2018). Il serait tentant de s’en référer à la conception poppérienne de la science selon laquelle l’erreur et sa réfutation résident au cœur même du processus scientifique. Mais le phénomène prend une ampleur telle que les notions mêmes de résultat et de fiabilité sont remises en cause. Si les réplications ne sont pas possibles, quelle est la valeur des travaux précédents s’ils s’avèrent non reproductibles (Zwaan et al. 2017) ?

Les causes de cette crise ne relèvent pas forcément de manquements délibérés à l’intégrité scientifique (i.e. : p-hacking, HARK, selective reporting, etc.) : des méthodes statistiques mal employées, notamment en raison de la sophistication croissante des méthodes (Wilcox et Rousselet 2018) ; des jeux de données mal proportionnés ; des interprétations problématiques de la p-value (Lakens et al. 2017) et plus généralement, un problème de puissance statistique qui perdure depuis des décennies (Lilienfeld et Waldman 2014; Lakens et Albers 2017). La liste n’est pas exhaustive.

Au-delà des problèmes inhérents à la production des données et de leur analyse, les chercheurs doivent composer avec un système éditorial qui n’incite ni à publier les résultats négatifs ni les auto-rétractations. Les dead-ends sont souvent omises et les travaux présentant les résultats positifs bénéficient des faveurs des éditeurs des revues qualifiantes. Les pratiques éditoriales scientifiques sont jugées inadaptées pour faire face aux défis de la reproductibilité (Cornelius 2018; Yale Law School Roundtable on Data and Code Sharing 2010), y compris lorsque les éditeurs affichent une politique volontariste de partage des données (Frankenhuis et Nettle 2018; Stodden 2011). Enfin, le système d’évaluation actuel n’accorde pas une place majeure aux études de réplication.

Mais de nombreux projets voient le jour, y compris dans des domaines réputés imprenables eu égard à la nature des données observées (Milcu et al. 2018), de nouvelles formes éditoriales émergent et l’environnement même de production des connaissances scientifiques évolue.

Dans ce contexte, comment penser les notions de robustesse et de fiabilité dans des domaines disciplinaires variés ?

Quelle place accorder à l’incertitude ? Quel équilibre trouver entre standardisation et dynamique exploratoire ? Comment aborder la question de la reproductibilité notamment dans des disciplines avec des données rares ou non répétables ?

Partenaires de la manifestation

  • Inria (centre Bordeaux sud-Ouest)
  • Délégation Aquitaine du CNRS
  • Pôle ressources humaines et développement social, Université de Bordeaux

Avec l’aimable participation de Mario Peperoni et Sophie Pieraggi, qui nous ont fait l’amitié d’interpréter « Sonata II pour deux violons sans basse de Jean-Marie Leclair (1697-1764), extraite du premier livre (1730) ».

Overview, supports des interventions

Programme détaillé

8h45-9h15 : accueil des participants

9h15-9h30 : allocution de bienvenue, Nicolas Roussel, directeur du centre Inria Bordeaux – Sud-Ouest

9h30-10h : « A simple cure to the p < 0.05 disease », Guillaume Rousselet, Université de Glasgow

« In this talk, I will argue that there is no replicability crisis, just a collection of bad habits and wrong expectations from all involved in the research enterprise. The main habit is the use of P values and confidence intervals to dichotomise results as “significant” or “not significant”. This habit stems from poor training in statistics and unrealistic expectations about our research methods. The cure to the dichotomy madness involves important steps :

  • to provide clear definitions;
  • to embrace measurement uncertainty;
  • to understand the difficulty in assessing theories;
  • to accept that no single experiment can establish a new phenomenon;
  • to match statistical tools to empirical questions, instead of following the herd »

Guillaume Rousselet

Wilcox, Rand R., et Guillaume A. Rousselet. 2018. « A Guide to Robust Statistical Methods in Neuroscience ». Current Protocols in Neuroscience 82 (janvier): 8.42.1-8.42.30. https://doi.org/10.1002/cpns.41.

10h-10h20 : échanges avec le public

10h20-10h40 : pause-café

10h40-11h10 : « Curate Science: Nutritional Labels for Scientific Transparency« , Etienne LeBel, Université de Louvain

« Science requires transparency. No platform currently exists, however, to ensure that published scientific articles comply with the relevant transparency standards. Curate Science aims to solve this problem by building a community web platform for researchers to label, link, and organize the method/data transparency, result reproducibility, and replications of published findings. Think “nutritional labels for scientific articles.” The platform allows researchers to identify transparently reported research and track replications of published effects, which will maximize the re-use, efficiency, and value of research. The platform will also expedite systemic/institutional reforms for various research stakeholders by allowing journals, universities, and funders to ensure that their articles, employees, and grantees, respectively, comply with the appropriate transparency standards. »

Etienne LeBel

11h10-11h30 : échanges avec le public

11h30-12h : « Assisted Authoring for avoiding inadequate claims in scientific reporting », Patrick Paroubek, LIMSI (Laboratoire de recherche en Informatique pluridisciplinaire), CNRS

« First we will review what Natural Language Processing (NLP) offers for analyzing scientific publications through the example of the NLP4NLP corpus studies applied to the field of NLP itself. Then we will present ongoing research in the MIROR European Marie Sklodowska Curie Grant project, focusing on the work done to assist authoring for avoiding inadequate claims in scientific reporting, applied here to the specific use case of reporting randomized controlled trials (RCTs) results in the biomedical literature. Inadequate reporting is akin to spin in context of communication where it refers to misleading presentation or interpretation of information regarding an event, which is aimed at manipulating people’s perception of the topic. »

Patrick Paroubek

Début du projet : nov. 2016 ; durée du projet : 36 mois ; porteur : CNRS

  • MiRoR Project. (2016, janvier 25). Scientific programme MiRoR : Methods in Research on Research. Consulté 13 juin 2018, à l’adresse http://miror-ejd.eu/scientific-programme/

12h-12h20 : échanges avec le public

12h20-13h20 : buffet sur place offert

13h20-13h30 : Expérience autour de la reproductibilité, Sophie Pieraggi et Mario Peperoni. Intermède musical. Sonata II pour deux violons sans basse de Jean-Marie Leclair (1697-1764)-  extraite du premier livre (1730)

13h30-14h : « Reproducibility in ecological research: do we need to worry? », Alexandru Milcu, Centre d’écologie fonctionnelle et évolutive, CNRS

« Reproducibility—the ability to duplicate a study and its findings—is a defining feature of scientific research. Many scientific disciplines are currently experiencing a ‘reproducibility crisis’ because numerous scientific findings cannot be repeated consistently. However, the extent to which the findings of ecological studies can be reproduced is currently unclear. In this talk I will present evidence from a study that repeated a simple ecological experiment in 14 European laboratories. This study shows that the current standardization procedures used in ecological microcosm experiments are inadequate in accounting for laboratory-specific environmental factors and suggests that introducing controlled variability in experiments may buffer some of the effects of laboratory-specific factors. »

Alexandru Milcu

  • CNRS. 2018. « Recherche scientifique : limiter la « crise de reproductibilité » ». 2018. http://www.cnrs.fr/inee/communication/breves/b334.html.
  • Milcu, Alexandru, Ruben Puga-Freitas, Aaron M. Ellison, Manuel Blouin, Stefan Scheu, Grégoire T. Freschet, Laura Rose, et al. 2018. « Genotypic Variability Enhances the Reproducibility of an Ecological Study ». Nature Ecology & Evolution 2 (2): 279. https://doi.org/10.1038/s41559-017-0434-x.

14h-14h20 : échanges avec le public

14h20-14h40 : pause

14h40-15h10 : « rOpenSci, revues de packages R par les pairs pour une meilleure science« , Maëlle Salmon, rOpenSci

« rOpenSci est une communauté de chercheurs et de développeurs informatiques collaborant pour créer des paquets R pour soutenir la science ouverte et reproductible. Certains de ces paquets sont créés et maintenus par le personnel de rOpenSci, d’autres par des volontaires.
Pour assurer la qualité de tous les paquets, rOpenSci a un système de revue des paquets par des pairs, rOpenSci Software Peer Review. Ce système est transparent et accessible sur GitHub. Dans cette intervention nous présenterons les principes du système et son application, dans l’espoir de motiver votre participation… ou la création d’un système similaire dans votre domaine? »

Maëlle Salmon

15h10-15h30 : échanges avec le public

15h30-16h : « ReScience X : projet de revue dédiée à la reproductibilité expérimentale en psychologie », Etienne Roesch, Université de Reading

« D’aucuns considèrent les études de réplication inadaptées à certains domaines de recherche en raison de la nature des données traitées (ex. phénomènes naturels, études cliniques, etc.). Les détracteurs des études de réplication considèrent que ces travaux ont une valeur moindre que les études originales. Comment soutenir le développement d’études de réplication alors que le système d’évaluation des chercheurs met peu l’accent sur ce type de productions scientifiques ? Certains auteurs soulignent aussi l’impact psychologique des études de réplication : ne risquent-elles pas de fragiliser les auteurs de l’étude initiale ? Comment conduire un dialogue entre équipes ? Zwaan et ses co-auteurs évoquent une nouvelle modalité de collaboration entre chercheurs : « adversarial collaboration »(Zwaan et al. 2017).

La revue ReScience X transpose dans le domaine de la psychologie expérimentale le principe de la revue ReScience, fondée en 2015 par Konrad Hinsen et Nicolas Rougier. ReScience est une revue dédiée aux études de réplication dans le domaine des sciences computationnelles. »

Etienne Roesch et Nicolas Rougier

  • Rougier, Nicolas P., Konrad Hinsen, Frédéric Alexandre, Thomas Arildsen, Lorena Barba, Fabien C. Y. Benureau, C. Titus Brown, et al. 2017. « Sustainable computational science: the ReScience initiative ». PeerJ Computer Science 3 (septembre): e142. https://doi.org/10.7717/peerj-cs.142.

16h-16h20 : échanges avec le public

Informations pratiques

Sources

Barba, Lorena A. 2018. « Terminologies for Reproducible Research ». arXiv:1802.03311 [cs], février. http://arxiv.org/abs/1802.03311.

Benureau, Fabien, et Nicolas Rougier. 2017. « Re-run, Repeat, Reproduce, Reuse, Replicate: Transforming Code into Scientific Contributions ». arXiv:1708.08205 [cs], août. http://arxiv.org/abs/1708.08205.

Cornelius, Stephen. 2018. « Scholarly publishing is stuck in 1999 ». Stephen Cornelius (blog). 15 avril 2018. https://medium.com/@stphencornelius/scholarly-publishing-is-stuck-in-1999-507ab9bb06f5.

Desquilbet, Loïc. 2018. « Répétabilité, reproductibilité, et concordance de méthodes de mesure ». https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&ved=0ahUKEwiBy6qMy4fbAhXEfFAKHQRBDp8QFgguMAA&url=https%3A%2F%2Feve.vet-alfort.fr%2Fmod%2Fresource%2Fview.php%3Fid%3D13266&usg=AOvVaw1ZbfUQpfig29zCNvqtcvuv.

Fanelli, Daniele. 2018. « Is Science Really Facing a Reproducibility Crisis, and Do We Need It To? » Proceedings of the National Academy of Sciences 115 (11): 2628‑31. https://doi.org/10.1073/pnas.1708272114.

Frankenhuis, Willem, et Daniel Nettle. 2018. « Open Science is Liberating and Can Foster Creativity ». Open Science Framework, février. https://doi.org/10.17605/OSF.IO/EDHYM.

Goodman, Steven N., Daniele Fanelli, et John P. A. Ioannidis. 2016. « What Does Research Reproducibility Mean? » Science Translational Medicine 8 (341): 341ps12-341ps12. https://doi.org/10.1126/scitranslmed.aaf5027.

Ioannidis, John P. A. 2005. « Why Most Published Research Findings Are False ». PLOS Medicine 2 (8): e124. https://doi.org/10.1371/journal.pmed.0020124.

Lakens, Daniel, Federico G. Adolfi, Casper Albers, Farid Anvari, Matthew A. J. Apps, Shlomo Engelson Argamon, Marcel A. L. M. van Assen, et al. 2017. « Justify Your Alpha: A Response to “Redefine Statistical Significance” ». PsyArXiv, septembre. https://doi.org/10.17605/OSF.IO/9S3Y6.

Lakens, Daniel, et Casper Albers. 2017. « When power analyses based on pilot data are biased: Inaccurate effect size estimators and follow-up bias ». PsyArXiv, juillet. https://doi.org/10.17605/OSF.IO/B7Z4Q.

Lilienfeld, S.O., and I.D. Waldman, eds. 2014. “Maximizing the Reproducibility of Your Research.” Psychological Science Under Scrutiny: Recent Challenges and Proposed Solutions, February. https://doi.org/. 

Milcu, Alexandru, Ruben Puga-Freitas, Aaron M. Ellison, Manuel Blouin, Stefan Scheu, Grégoire T. Freschet, Laura Rose, et al. 2018. « Genotypic Variability Enhances the Reproducibility of an Ecological Study ». Nature Ecology & Evolution 2 (2): 279. https://doi.org/10.1038/s41559-017-0434-x.

MiRoR Project. 2016. « Scientific Programme MiRoR : Methods in Research on Research ». Projet MiRoR (blog). 25 janvier 2016. http://miror-ejd.eu/scientific-programme/.

Nuijten, Michèle B., Chris H. J. Hartgerink, Marcel A. L. M. van Assen, Sacha Epskamp, et Jelte M. Wicherts. 2016. « The Prevalence of Statistical Reporting Errors in Psychology (1985–2013) ». Behavior Research Methods 48 (4): 1205‑26. https://doi.org/10.3758/s13428-015-0664-2.

Stodden, Victoria. 2011. « Trust Your Science? Open Your Data and Code ». Amstat News, 2.

Wilcox, Rand R., et Guillaume A. Rousselet. 2018. « A Guide to Robust Statistical Methods in Neuroscience ». Current Protocols in Neuroscience 82 (janvier): 8.42.1-8.42.30. https://doi.org/10.1002/cpns.41.

Yale Law School Roundtable on Data and Code Sharing. 2010. « Reproducible Research ». Computing in Science & Engineering 12 (5): 8‑13. https://doi.org/10.1109/MCSE.2010.113.

Zwaan, Rolf A., Alexander Etz, Richard E. Lucas, et M. Brent Donnellan. 2017. « Making Replication Mainstream ». Behavioral and Brain Sciences, octobre, 1‑50. https://doi.org/10.1017/S0140525X17001972.

Les commentaires sont fermés.