Méthodes computationnelles et analyse d'une langue de chancellerie : le logiciel d'analyse textuelle Machiato et la correspondance diplomatique et administrative de Machiavel

paper, specified "short paper"
Authorship
  1. 1. Corinne Manchio

    Université Paris 8 Vincennes - Saint-Denis

  2. 2. Marc Lasson

    No Affiliation

Work text
This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.


Cet exposé a pour vocation de présenter un projet en cours qui associe les méthodes traditionnelles des sciences humaines (philologie, histoire et histoire des idées) aux approches computationnelles et statistiques. La création et la mise en place du logiciel d’analyse textuelle MACHIATO (Lasson et Manchio, 2015) constitue le point de convergence de deux perspectives de recherche initialement séparées, celle d’un chercheur en informatique spécialiste de la formalisation mathématique et d’une doctorante en études italiennes, travaillant sur la correspondance diplomatique et administrative de Machiavel (
Legazioni e Commissarie, Scritti di governo, 2002-2012). La mise en place du site internet relève donc en premier lieu d’une coopération, terme central pour tout chercheur en sciences humaines et sociales qui entreprend de se lancer dans un projet relevant des humanités numériques. En effet, la rencontre entre des champs disciplinaires, implique un constant pour créer un langage commun pour appréhender les textes, pour identifier le type de questionnements qu’il est possible de soumettre aux machines et pour dégager les potentialités et les limites de certaines procédures d’automatisation.

1. Question de méthodes
Nous avons suivi un cheminement complexe depuis la philologie traditionnelle, entendue comme combinaison de critique littéraire, historique et linguistique ou comme pratique d’établissement de texte à partir de sources différentes jusqu’à la philologie dite numérique. L’école qui a le plus influencé nos travaux est celle de Jean-Claude Zancarini et Jean-Louis Fournel et leur approche de ce qu'ils appellent « philologie politique ». Ils se sont attachés à historiciser la pensée de Machiavel, et plus généralement cette génération de la guerre, à travers une analyse minutieuse de son usage des mots dans le cadre de la traduction des textes politiques majeurs de la période des guerres d'Italie. Or, le fait de revenir à chaque usage pour parvenir à une élucidation sémantique est d’autant plus ardu que le corpus est important : pour exploiter nos 2214 lettres, nous avons donc rapidement pensé à croiser notre méthode initiale avec les potentialités des méthodes computationnelles et statistiques, qui nous ont ainsi permis de multiplier les points de vue sur le texte (diachronique, synchronique), de modifier l’unité de base de l’analyse (lemme, champ lexical, champ sémantique) et dégager les tendances générales du corpus et les spécificités de sous-corpus. De telles possibilités modifient inévitablement le rapport aux textes du chercheur en SHS qui ne peut parvenir à l’interprétation des résultats qu’à condition d’en comprendre le sens et les enjeux et donc, de suivre une formation (notamment en statistique et en visualisation de données).

2. Les mots et les nombres: machiato

Le logiciel est commandé par une interface Web qui confère à l'utilisateur un accès facile aux ressources du programme avec son navigateur. Les analyses et les pré-calculs statistiques sont faits par un back-end mis en œuvre avec le langage de programmation Python dont le rôle est d'initialiser la base de données. Nous utilisons le Framework
open-source Django pour générer du contenu HTML. Enfin, nous utilisons le langage de programmation Javascript pour afficher les données et les résultats côté utilisateur. Le corpus a tout d’abord été normalisé : différents types d’entrée permettent de le découper en fonction de nos besoins. L’index des lettres permet d’accéder à chaque missive en obtenant les indications de base sur chacune d’elles ; l’index des occurrences donne accès à chacune des 25 007 formes, permettant de cibler des graphies particulières, des noms propres ou des hapax) ; l’index des 6399 familles de mots (qui rassemble toutes les flexions d’un vocable, très nombreuses pour certains verbes du fait de leur emploi et de l’instabilité graphique très forte) consent de mesurer le poids d’un champ lexical. En outre, à chaque missive ont été associés son destinataire, sa date et son lieu de rédaction. Ce
tagging préliminaires nous a ensuite donné la possibilité de formuler de nouvelles questions plus complexes et de croiser différentes variables (à titre d’exemple, quel terme est le plus employé lorsque Machiavel se trouve en mission auprès du roi Louis XII ?).

Nous avons repris une large part des outils proposés dans les logiciels d’analyse textuelle existants et utilisés par les linguistes à l’instar des concordances, particulièrement utiles pour dégager rapidement les nombreux homographes de notre corpus, et des cooccurrences indispensables pour repérer les cas de polysémie, voire de double isotopie typiques de la langue machiavélienne. Nous avons en outre emprunté un modèle d’analyse des cooccurrences multiples (Heiden, 2004) et les principes de mesure et de comparaison développés en statistique textuelle par Lebart et Salem. Les différents types de calcul permettent de décrire de façon toujours plus précise non seulement la nature des usages, mais aussi leur poids et les relations qui les lient les unités du texte entre elles. Nous utilisons trois types de calcul : les fréquences, l’indice de dispersion et l’indice de spécificité qui ont en outre permis de dépasser certains reproches récurrents faits aux méthodes computationnelles (dont celui de ne considérer la langue comme un ensemble d’unités abstraites, sans lien et décontextualisées). Nous avons fait le choix de limiter les types de visualisation pour des raisons de cohérence, de temps et de compétence. Nous proposons d’en donner quelques exemples tels que l’histogramme de répartition des fréquences, celui des graphies, les structures arborescentes (permettant de représenter tous les environnements immédiats en une image) et les histogrammes interactifs représentant la chronologie des missives. Toutes les visualisations de données sont exportables : nous utilisons Excel pour les tables, ainsi que le format SVG pour les données graphiques. Les critères de recherches avancées (permettent d’effectuer des recherches complexes en fonction du nombre d’occurrences ou/et de la fréquence et/ou des indices de répartition et de dispersion). À partir de l’index des lettres, il est aussi possible de questionner un sous-corpus particulier en vertu de critères variés tels que les bornes chronologiques ou la nature des missives (lieu de rédaction). Il est aussi possible de sélectionner un sous-corpus spécifiques et de procéder à une recherche précise en activant (ou non) les filtres sur les occurrences suivants : taille, nombre d’occurrences dans le sous-corpus interrogé, nombre d’occurrences dans l’ensemble du corpus, fréquence dans le sous-corpus, fréquence dans le corpus total, nombre de lettres, indice de dispersion et indice de spécificité. Enfin, nous avons ajouté une fonctionnalité pour comparer deux sous-corpus.

3. Premiers résultats
Le premier résultat que nous ayons obtenu est la réalisation du site internet en lui-même, à savoir la création d’une interface dynamique donnant accès aux textes et consentant de les interroger en fonction de différentes variables. En second lieu, plusieurs types de visualisation permettent de représenter l’évolution (dans une perspective globale) ou les rythmes (en fonction des lieux ou du contexte historique et politique de rédaction) des usages langagiers. Les données et leur visualisation permettent de vérifier ou d’écarter certaines thèses que nous avions postulées initialement mais elles ouvrent également la voie à une nouvelle approche des textes qui implique de nuancer certains phénomènes que nous avions identifiés au niveau local. Les tendances de l’écriture qui était invisibles apparaissent alors. L’analyse systématique des relevés d’occurrences et des mesures effectués mettent ainsi en exergue certaines micro-spécificités de la langue telles que le recours constant à la forme hypothétique et aux métaphores de l’incompréhension pour exprimer l’incertitude face aux événements en cours et à venir. L’examen des affinités lexicales a confirmé cette thèse et a permis de mettre au jour une caractéristique déterminante de notre corpus : l’extrême instabilité du monde politique pendant les guerres d’Italie, qui s’exprime à la fois par la centralité du champ sémantique du conflit (qui semble commander les autres champs sémantiques) et par la présence de différents éléments langagiers traduisant une précarité des temps et une fragilisation de la praxis politique.

Bibliography

Blumenthal, P. and Hausmann F. J. (éd). (2006).
Collocations, corpus, dictionnaires. Langue française, pp. 150.

Burdick, A., Drucker, J., Lunenfeld, P., Presner, T. and Scnapp, J. (2012).
Digital humanities. Massachusetts Institute of Technology.

Genet, J. P. and Zorzi, A. (2011).
Les historiens et l’informatique : un métier à réinventer. Rome: École française de Rome.

Guillot, C., Heiden, S., Lavrentiev, A., Marchello-Nizia, C. and Rainsford, T. (2013).
La « philologie numérique » : tentative de définition d’un nouvel objet éditorial du point de vue des linguistes. 27e Congrès international de philologie et de linguistique romanes.
https://halshs.archives-ouvertes.fr/halshs-00846767.

Heiden, S. (2004). Interface hypertextuelle à un espace de cooccurrences: implémentation dans Weblex. In Purnelle, G. Fairon, C., Dister, A. (eds),
JADT 2004 - Le poids des mots – Actes des 7ème Journées Internationales d’Analyse Statistique des Données Textuelles. Presses Universitaires de Louvain, pp. 577-88.

Lafon, P. (1980). Sur la variabilité de la fréquence des formes dans un corpus.
Mots. n.1
http://www.persee.fr/web/revues/home/prescript/article/mots_0243-6450_1980_num_1_1_1008.

Lasson, M. and Manchio C. (2015). Measuring the Words: Digital Approach to the Official Correspondence of Machiavelli. In Francesca Tomasi, Roberto Rosselli Del Turco, and Anna Maria Tammaro, (eds),
Humanities and Their Methods in the Digital Ecosystem. Proceedings of the Third AIUCD Annual Conference (AIUCD2014). Selected papers. ACM: New York.
http://dl.acm.org/citation.cfm?doid=2802612.2802643.

Lebart, L. and Salem, A. (1994).
Statistique textuelle. Paris: Dunod.
http://lexicometrica.univ-paris3.fr/livre/st94/st94-tdm.html.

Machiavelli, N. Edizione Nazionale delle Opere di Niccolò Machiavelli,
Legazioni. Commissarie. Scritti di governo. Roma: Salerno : t. I (1498-1500), Marchand, J. J. (eds), 2002 ; t. II (1501-1503), Fachard, D. et Cutinelli-Rèndina, E. (eds), 2003 ; t. III (1503-1504), Marchand et Melera-Morettini, M. (eds), 2005 ; t. IV (1504-1505), Fachard et Cutinelli-Rèndina éd., 2006 ; t. V (1505-1507), Marchand, Guidi, A. et Melera-Morettini (eds), 2009 ; t. VI (1507-1510), Fachard et Cutinelli-Rèndina (eds), 2011 ; t. VII (1510-1527), Marchand, Guidi et Melera-Morettini (eds), 2012.

Mayaffre, D. (2007).
Philologie et/ou herméneutique numérique: nouveaux concepts pour de nouvelles pratiques?
http://www.revue-texto.net/Parutions/Livres-E/Albi-2006/Mayaffre.pdf.

Pincemin, B. (2012). Sémantique interprétative et textométrie.
Corpus. 10 | 2011.
http://corpus.revues.org/2121.

Schöch, C. (2012). Nouvelles configurations : textes, outils, méthodes, et infrastructures de recherche dans les études de lettres.
Configuration(s).
https://hal.archives-ouvertes.fr/hal-00951518/document.

ThatCamp. (2011).
Manifeste des Digital humanities.
http://tcp.hypotheses.org/318.

Zancarini, J. C. (2007). Une philologie politique.
Laboratoire italien, pp. 7.
http://laboratoireitalien.revues.org/132.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

Complete

ADHO - 2016
"Digital Identities: the Past and the Future"

Hosted at Jagiellonian University, Pedagogical University of Krakow

Kraków, Poland

July 11, 2016 - July 16, 2016

454 works by 1072 authors indexed

Conference website: https://dh2016.adho.org/

Series: ADHO (11)

Organizers: ADHO