Bêtises d'éditeurs

Bêtises d'éditeurs 

Parution : lettre 54 - 16.04.2014 

 

En 2008, nous avions inscrit dans notre rubrique "Humour" ces quelques lignes à propos d'une démarche qui nous avait beaucoup amusés :

SCIgen est un programme qui produit des articles scientifiques en informatique de manière aléatoire, y compris des graphiques, des figures, et des citations. Il emploie une grammaire sans contexte manuscrite pour former tous les éléments des articles. Le but ici est de maximiser l'amusement, plutôt que la cohérence.

Un article produit par cet outil fut accepté à une conférence internationale en 2005...

 

Mais l'histoire ne s'arrête pas là et nous reproduisons ici in-extenso un communiqué de l'AFP qui a été repris par grand nombre de journaux depuis le 27 février 2014, soit 10 ans après que l'aventure SCIgen n'ait commené et plus de 6 ans après que nous en ayons parlé à nos abonnés.

 

Un éditeur abusé par de fausses études générées par informatique

Paris (AFP) - 27.02.2014 18:29 - Par Laurent BANGUET 

Sommes d'absurdités générées en un simple clic par un programme informatique, des dizaines de fausses études scientifiques ont pourtant été présentées lors de conférences et certaines publiées par un grand éditeur spécialisé, jusqu'à ce qu'un informaticien français ne dévoile la supercherie. 

L'éditeur allemand Springer a annoncé jeudi qu'il retirait de ses archives 16 de ces faux grossiers. 

Totalement dénuées de sens mais présentant l'aspect et le jargon des publications spécialisées, ces études avaient pourtant été acceptées, entre 2008 et 2013, à des conférences sur les sciences de l'informatique et l'ingénierie. Et les compte-rendus ont ensuite été publiés par Springer pour ses abonnés. 

"Nous sommes en train de retirer tous les papiers, aussi vite que possible (...) car il s'agit d'un tissu d'absurdités", précise le texte adressé par l'éditeur à l'AFP. 

"Nous examinons nos procédures pour trouver les failles qui ont permis à une telle chose de se produire (...) Il y aura toujours des individus qui tenteront de saper les procédures en vigueur pour prouver quelque chose ou en tirer un bénéfice personnel. Malheureusement, l'édition scientifique n'est pas immunisée contre la fraude, pas plus que contre les erreurs", souligne Springer, sans pouvoir donner davantage d'explication à ce stade. 

L'éditeur a été prévenu par un informaticien français de l'Université Joseph Fourier à Grenoble, Cyril Labbé, qui a également repéré plusieurs dizaines de fausses études du même tonneau publiées par l'Institute of Electrical and Electronic Engineers (IEEE, New York), acteur majeur des grandes conférences informatiques. 

Spécialiste de la "fouille de texte", M. Labbé étudie notamment les moyens de débusquer automatiquement ces fausses études, fabriquées par un programme baptisé SCIgen.

Ce programme produit en un seul clic une étude truffée de termes techniques avec graphiques, citations et références à l'appui.

Bref, un papier présentant à première vue tous les critères d'une authentique étude. Sauf qu'une lecture approfondie révèle des théories absurdes et des phrases sans queue ni tête. 

- Plus cité qu'Einstein -

A titre d'exemple, voici la traduction approximative d'un passage d'une fausse étude réalisée par l'AFP grâce à SCIgen, en libre accès sur internet: "La technologie à constante de temps et à points d'accès a suscité un vif intérêt chez les futurologues et les physiciens ces dernières années. Après des années de recherches intensives sur les superpages, nous confirmons l'unification appropriée d'architectures 128 bits et de sommes de contrôle".

Le même article contient des incohérences grossières qui devraient sauter aux yeux des comités de lecture censés en évaluer la pertinence scientifique: une référence à une étude publiée conjointement en 2005 par le physicien Erwin Schrödinger et le mathématicien Alan Turing, respectivement morts en 1961 et 1954... 

"Ca veut dire que dans ces conférences, le processus de +revue par les pairs+ a été très mal fait. Ou que les relecteurs n'étaient pas compétents et se sont laissés impressionner par le jargon", a déclaré M. Labbé à l'AFP. 

Accessible sur le site internet du MIT de Boston, SCIgen a été conçu en 2005 par trois étudiants qui avaient réussi à faire accepter leurs absurdités informatiques à des conférences avant de dévoiler leur arnaque, dans le but de démontrer les failles du système. 

"SCIgen se comporte un peu comme un auteur qui se répète tout le temps. En faisant une recherche sur les morceaux de phrase qui restent identiques, on réussit à les détecter", explique Cyril Labbé, qui précise que "des clones de SCIgen existent aussi pour les maths et la physique".

Dans certains cas, les documents signalés par M. Labbé aux éditeurs avaient toutefois été remaniés manuellement, en modifiant l'introduction et la conclusion par exemple, pour faire "plus authentique." 

Pour tester le système, M. Labbé avait lui-même en 2010 créé 102 études bidonnées signées par un savant fictif et les avaient référencées dans la base de données "Google Scholar", couramment utilisée pour mesurer la réputation d'un chercheur. 

A l'époque, "Ike Antkare" s'était hissé à la 21e place du palmarès des scientifiques les plus cités au monde, loin devant Albert Einstein et sa 36e place. 

© 2014 AFP