6.1 Les principes de la détection de similarités et de plagiat

[1] Si l’on considère une définition large du terme plagiat, comme celle de l’Université de Laval: «Plagier c'est: s'approprier le travail créatif de quelqu'un d'autre et le présenter comme sien; s'accaparer des extraits de texte, des images, des données, etc. provenant de sources externes et de les intégrer à son propre travail sans en mentionner la provenance; résumer l'idée originale d'un auteur en l'exprimant dans ses propres mots, mais en omettant d'en mentionner la source.» On voit que la détection automatique du plagiat est une tâche ardue qu’aucun système informatique actuel ne peut mener à bien en son entier. Il faudrait pour cela être capable de reconnaître qu’un texte emprunte des idées à un autre, ce qu’on est assez loin de savoir faire de manière fiable. C’est pourquoi les logiciels dits de «détection de plagiat» se limitent essentiellement à mettre en évidence des indices de plagiat, par exemple l’apparition de la même séquence de mots dans deux textes.

[2] Pour simplifier, on peut dire que les logiciels de «détection de plagiat» savent, actuellement, tester si le texte A et le texte B ont des chaînes de mots en commun. Il s’agit donc d’une opération purement syntaxique qui ignore le sens des textes. Certes, le résultat obtenu en cas de plagiat manifeste est saisissant puisque, visuellement, on voit immédiatement les parties de textes reproduits à l’identique et la source dont ils sont tirés (6). Cependant, c’est un abus de langage de parler de détection de plagiat. Nous préférons, pour notre part, utiliser l’expression «outils de détection des similarités», car seul l’homme peut déclarer, après analyse des morceaux de textes mis en exergue par l’outil, qu’il s’agit ou non de plagiat. Notons cependant que les créateurs de logiciels tendent peu à peu à intégrer des traitements linguistiques plus sophistiqués dans leurs outils, par exemple la prise en compte du remplacement d’un mot par un synonyme ou l’ajout ou suppression de mots dans une phrase copiée.

[3] De tels logiciels sont aujourd’hui indispensables, car on comprend aisément qu’il n’est absolument pas envisageable de comparer un document suspect successivement avec chacun des milliards de documents du Web. Il faut donc utiliser des techniques dites d’indexation qui permettent de trouver rapidement les documents qui contiennent une liste de mots cherchés. On constitue pour cela des index qui sont des bases de données associant à chaque mot de la langue la liste de tous les documents du Web où ce mot apparaît au moins une fois. Chercher un ensemble de mots revient alors à consulter les listes de documents correspondant à ces mots et à en faire l’intersection.

[4] Il existe déjà de bons index du Web et des moteurs de recherche associés (Google, Yahoo, Exalead…), et la méthode de détection la plus simple à mettre en œuvre consiste à utiliser l’un de ces moteurs en lui soumettant successivement chaque phrase ou partie de phrase du document à vérifier. En principe, on peut facilement créer un logiciel qui effectue automatiquement ces opérations et crée un rapport de similarité en collectant les réponses du ou des moteurs utilisés. En pratique, cette méthode ne fonctionne pas car elle conduirait à surcharger les moteurs de recherche (l’analyse d’un seul texte de quelques dizaines de pages générerait des centaines voire des milliers de requêtes). A l’heure actuelle, les moteurs de recherche se prémunissent contre ce type d’utilisation en interdisant qu’on leur soumette plus d’un nombre donné de requêtes par unité de temps et par utilisateur.

[5] Le deuxième type de méthodes de détection consiste à utiliser un des outils développés spécifiquement à cet usage par des entreprises privées. Les outils les plus connus (Turnitin, Compilatio, etc.) ont créé leur propre index du Web ou d’une partie du Web. La constitution d’un tel index nécessite évidemment des moyens importants: il faut parcourir régulièrement des milliers de sites, récupérer leurs documents, les stocker dans une base de données et constituer un index par mots. C’est ainsi que l’expression «achat d’un logiciel anti-plagiat» est impropre. Lorsqu’une institution se procure l’accès à un tel logiciel de détection, elle n’achète pas un logiciel autonome, mais le droit d’utiliser un logiciel qui est autorisé à accéder à l’index constitué par la société éditrice du logiciel.

 
Pour réagir à cette section...
Nom, prénom
Email
Commentaire
Il vous reste caractères!
 

« Précédent | Suivant »