Initiation à l’analyse de corpus de textes avec le logiciel libre TXM

Qu’est-ce que la textométrie?

La textométrie, née en France dans les années 80, a développé des techniques puissantes et originales pour l’analyse de grands corpus de textes. Reprenant les acquis de la lexicométrie et de la statistique textuelle, elle propose des outils et des méthodes éprouvés dans de multiples branches des SHS et statistiquement solidement fondés. Le projet Textométrie fédère les développements logiciels académiques du domaine pour mettre en place une plateforme modulaire et open-source appelée TXM. Il s’agit à la fois d’une opération patrimoniale au rayonnement international et du lancement d’une nouvelle génération de recherche textométrique, en synergie avec les technologies de corpus actuelles (Unicode, XML, TEI, outils de TAL, CQP, R).

La formation est animée par Serge Heiden, responsable du projet « Textométrie ».

Pourquoi utiliser TXM?

La plateforme TXM est couramment utilisée par des projets de recherche de différentes disciplines de lettres, sciences humaines et sociales comme l’histoire, la littérature, la géographie, la linguistique, la sociologie et les sciences politiques. La plateforme TXM combine des techniques puissantes et originales pour l’analyse de grands corpus de textes au moyen de composants modulaires et open-source. TXM permet actuellement de : construire des sous-corpus à partir de différentes métadonnées (propriétés) des textes (eg. : date de publication, auteur, type de texte, thème) ; construire des partitions à partir de ces propriétés permettant d’appliquer des calculs de contraste entre les textes ou entre groupes de textes ; produire des concordances kwic à partir de recherches de motifs lexicaux complexes – construits à partir des propriétés des mots (eg. : « un mot de lemme ’aimer’ suivi à au plus de 2 mots d’un mot commençant par ’pouv’) ; calculer le vocabulaire d’ensemble d’un corpus ou la liste des valeurs attestées d’une propriété de mot donnée ; construire  une édition HTML de base pour chaque texte du corpus et des tableaux de contingence croisant les mots, les textes et leurs structures, etc.

 

Les commentaires sont fermés.