De l'index nominum à l'ontologie. Comment mettre en lumière les réseaux sociaux dans les corpus historiques numériques ?

Gautier Poupeau

Authorship

1. Gautier Poupeau

École Nationale des Chartes - Université PSL

Work text

This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.

Dresser les index fait partie intégrante du travail d’élaboration d’une édition critique de sources. Dans le cadre du support papier, les index permettent de donner aux lecteurs une idée du contenu et, surtout, d’accéder précisément à une information : un nom de lieu ou de personne dans le cas des index nominum, ou un concept dans le cas des index rerum. L’index est en revanche quasiment absent des éditions numériques et des bases de données textuelles, et plusieurs raisons
peuvent expliquer cette absence. D’une part, dans la plupart
des cas, le but de telles entreprises n’est pas de proposer des éditions critiques de sources, mais plutôt des bases de données textuelles. Les formulaires d’interrogation
constituent le point d’accès principal à l’information, et la primauté du texte intégral a pu faire croire dans un
premier temps à l’inutilité de l’index. D’autre part, mettre
en place un index représente un travail long et fastidieux, qui entraîne un coût non négligeable difficile à supporter pour des éditeurs commerciaux.
Pourtant, même dans le cadre du support numérique, en particulier sur le Web, la pratique de l’indexation trouve des justifications. Ainsi, alors que dans le cas de corpus médiévaux, la lemmatisation automatique est très difficile à mettre en place, surtout sur les noms de personnes et de lieux qui présentent les graphies les plus disparates,
l’indexation peut constituer une première réponse à ce
problème. Par ailleurs, l’index offre un panorama des noms
de lieux et de personnes présents dans l’ouvrage, ce qui est impossible avec les bases de données textuelles qui ne proposent aucun moyen de prendre connaissance du contenu du corpus de manière globale. Aujourd’hui
commencent à apparaître sur le Web des éditions critiques
proprement dites, qui s’appuient sur la structure
originelle de ce type de travail de recherche ; logiquement,
elles comprennent aussi un index, celui-ci faisant
partie intégrante de la tradition scientifique de l’édition
critique. C’est en adoptant cette démarche que se
dégagent les prémices d’une exploitation innovante de l’index dans le contexte de l’édition électronique.
Dans le cadre de l’organisation hypertextuelle de
l’information, alors que l’index n’était qu’un outil de
repérage souvent difficile d’emploi sur le support papier, il devient un moyen rapide d’accès à l’information surtout
dans le cas d’un survol et d’une prise de contact du
corpus par l’internaute, et fait apparaître de nouveaux parcours de lecture.
Malgré ces disparités existantes d’un ouvrage à l’autre, quatre parties récurrentes peuvent être distinguées dans un index :
• L’entrée de l’index ;
• L’ensemble des formes présentes dans le texte et
faisant référence à cette entrée ;
• Des indications biographiques et/ou généalogiques ;
• L’emplacement dans l’ouvrage des occurrences de l’index.
Les index de noms sont souvent organisés de manière hiérarchique, induisant des liens entre les entrées. Toutes
ces informations constituent une première couche
interprétative. Pourtant, l’index est cantonné dans ce rôle de repérage et d’accès à l’information, et ces données sont rarement exploitées pour traiter le corpus. Or, ce travail pourrait servir de socle à la construction d’une ontologie, qui constituerait un index commun à plusieurs corpus, jouant en quelque sorte le rôle d’un fichier d’autorité.
Une ontologie informatique, à ne pas confondre avec
celle des philosophes, permet de définir des concepts et de décrire les relations qui peuvent exister entre ces différents concepts. L’avantage d’une ontologie sur une base de données relationnelle réside dans la possibilité de définir des règles logiques entre les concepts et entre les relations, et de dépasser ainsi le concept d’organisation
hiérarchique qui prévaut dans les formes traditionnelles de l’index. Par exemple, soit la relation « frère de » symétrique et la propriété « A frère de B », alors l’inférence « B frère
de A » est déduite automatiquement. De la même façon, soit la relation « enfant de » transitive de la relation
« parent de » et la propriété « A parent de B », alors la propriété « B est enfant de A » est déduite automatiquement.
Ce mécanisme, qui peut sembler simple et logique à l’appréhension humaine, est en réalité assez complexe à reproduire dans un contexte d’automatisation du traitement de l’information.
Il existe plusieurs langages pour mettre au point une ontologie. Le langage OWL défini par le W3C et basé sur RDF, permet d’envisager, grâce à sa syntaxe XML, une transformation simple par feuilles de style XSL des données du corpus encodés en XML vers l’ontologie au format OWL. Pour peupler l’ontologie, en récupérant à la fois l’ensemble des noms de personnes et de lieux
indexés sous une forme régularisée, et la relation de ces noms avec les différents documents du corpus, nous
pouvons alors nous appuyer sur la structuration en XML des corpus historiques selon la DTD TEI.
Pour un corpus encodé selon la version dite P4 de la TEI, l’élément vide <index/> peut être utilisé pour indexer un point dans le texte. Mais cet élément ne permet pas la récupération des différentes formes des entrées indexées.
En revanche, l’élément <persName> accompagné de l’attribut reg permet d’encoder un nom de personne
et d’indiquer une forme régularisée, et l’élément
<placeName> permet quant à lui d’encoder un nom de lieu.
Une fois le cadre structurel des entrées d’index ainsi défini,
il importe de mettre en place ce qui sera la structure de
l’ontologie adaptée pour représenter les réseaux sociaux. L’indication de l’emplacement des occurrences d’une entrée d’index dans le corpus structuré en XML permet de créer automatiquement les relations entre les noms de personnes ou de lieux et les unités structurelles du corpus. Pour autant, le rôle ou la place des personnes dans l’unité
structurelle peuvent être précisés. Dans le cas de chartes, nous pouvons préciser s’il s’agit de l’auteur de l’acte juridique, du bénéficiaire ou d’un témoin, par exemple. Pour finir, il faut ajouter les relations entre les personnes et entre les personnes et les lieux, en s’appuyant sur les relations mises en lumière à travers la présence dans un document et/ou sur d’autres sources de première ou de seconde main.
Trois méthodes de visualisation sont à mettre en oeuvre pour exploiter pleinement le potentiel de cette démarche.
Tout d’abord, une visualisation proche de la mise en page d’un index traditionnel est indispensable pour
assurer le rôle de transition vers l’appropriation du support
électronique par les chercheurs. Dans un second temps, l’ontologie est proposée dans une forme apte à donner la
vision d’ensemble du contenu : des interfaces de navigation à facettes offrent sous forme de listes combinables des parcours dans le corpus qui sont entièrement définis par l’utilisateur. Enfin, une visualisation graphique révèle
pleinement le potentiel de l’ontologie. Le graphe fait
apparaître de manière tangible les relations entre les
personnes, les documents et les lieux, ainsi que le type de relations qui ont été définies. C’est alors que peuvent être mis en lumière les réseaux sociaux qui existent à l’état sous-jacent dans les documents.
Grâce à cette dernière méthode de visualisation sous forme de graphe, l’ontologie prouve son utilité dans le cadre de l’encodage des index nominum. Une base de données relationnelle, étant incapable de modéliser des relations autres que hiérarchiques, ou de déduire les
inférences des relations exprimées, rend impossible la modélisation complète des réseaux sociaux. L’ontologie, au contraire, autorise ce processus et permet à l’index de dépasser son rôle de point d’accès pour devenir un véritable
outil d’analyse de corpus. Les réseaux sociaux mis en
lumière par l’ontologie sous forme de graphe deviennent
plus faciles à appréhender, ce qui constituera, une fois cette technologie déployée sur des corpus historiques significatifs, un moyen essentiel d’étudier la présence d’un groupe de personnes dans un espace géographique
en fonction de leurs relations. La mise en place de
l’index nominum sous forme d’ontologie, s’appuyant sur des corpus structurés en XML, montre bien comment une technologie comme RDF, en transformant la façon dont l’information est modélisée, peut décupler l’intérêt d’un outil bien identifié.
The elaboration of critical edition of sources
basically includes the setting up of indexes. In the paper media, the index provides an overview of the content, and makes it possible to access directly a piece
of information : the name of a place or a person in the case of index nominum, or a concept in the case of
index rerum. Though, indexes are hardly ever integrated in electronic publishing and textual databases, and this
can be easily explained. On the first hand, in most
cases, the goal of such initiatives isn’t to propose critical
editions of sources, but to gather vast amounts of texts. Search forms are the main access tool, and the primacy of full text used to make indexes seem useless. On the other hand, setting up an index is a long and fastidious
work, and the cost is not affordable for commercial
publishers. Though, even within the digital media, and particularly on the Web, indexing is a worthy effort. It can solve the problem of lemmatisation, which is very hard to proceed automatically on a medieval corpus,
especially regarding the diversity of writings of the names
of people and places. Moreover, the index provides an overview of the names that appear in the work, when in textual databases there is no way to have a global
approach of the corpus. Today, we’re beginning to see on the Web real critical editions, that rely upon the original structure of this kind of scholarly work ; logically, they also include an index, since this is part of the academic tradition of critical edition. Through this approach, it is possible to outline innovative uses of indexes within the context of electronic publishing.
While in the paper media the index was only a hard to use location tool, within hypertextual organisation of information, it becomes a quick access tool, gives the overview of the corpus when discovering it for the first time, and reveals new courses of reading. Beside
some disparities between different works, an index is composed of four stable parts :
• the entry
• the different writings in the text corresponding to this entry
• biographical and/or genealogical explanations
• the location of occurrences in the text.
Name indexes are often organized hierarchically,
inducing links between entries. All this information
represents a first interpretative layer. Though, the
index is stuck in this purpose of finding and accessing
information, and these data aren’t used to analyse the corpus. It would be possible to use this work as the
basis of an ontology, which would be a common index for various works or corpus, playing a role similar to a list of authorities. A computer ontology, not to be confused
with philosophical ontologies, allows to describe
concepts and relations between these concepts. The
advantage of an ontology over a relational database is to enable logical rules between concepts and relations, and to go further than the hierarchical classification
traditionally used for indexes. For instance, the symmetric
relation “ brother of ” and the property “ A is brother of B ” allows to automatically deduce the inference “ B is brother of A ”. Similarly, the relation “ child of ”, transitive
to the relation “ parent of ”, and the property “ A is
parent of B ” the inference “ B is child of A ” is deduced.
This mechanism, for simple and obvious that it seems to a human being, is actually quite complex to reproduce in the context of information treatment automation.
There are various languages to set up an ontology. The OWL language, defined by the W3C and based on RDF,
allows, thanks to the XML syntax, a simple XSLT
transformation of the data encoded in the corpus in XML towards the OWL ontology. To populate the ontology, we can use the XML structure of historical works encoded following the TEI DTD, to gather all the names of people and places indexed in a regular form, and the relation of these names with the documents in the corpus. For a corpus encoded with the P4 version of TEI, the empty
tag <index/> can be used to locate a point in the text, but it is not possible to reuse the different forms of the indexed entries. On the contrary, the <persName> tag with the reg attribute allows to encode the name of a
person and to indicate the regular form, and so is it with the <placeName> for places. Once we defined the structural
framework on index entries, we can work on the intended structure of the ontology in order to represent social networks. The location of the occurrences of the entry in the corpus structured in XML allows to automatically create relations between names of persons and places, and the structural entities of the corpus. Thus we can also indicate the role or place of the persons : in the case of a charter, we can indicate if it’s the author of the juridical action, the beneficiary or a witness, for example. Finally, we have to add the relations between people and placing,
basing ourselves upon the relations revealed by the
document, or other primary or secondary resources.
Three visualisation methods can be used to fully reveal the benefits of this approach. In the first place, a visualisation close to the presentation of traditional indexes is required
in order to ensure the transition towards assimilation of the digital media by the scholars. Second, the ontology is proposed in a manner proper for giving an overview of the content : faceted navigation interfaces propose combined lists that allow the end-user to define by himself different courses in the corpus. Finally, the graphical visualisation
reveals the full potential of the ontology. The graph
makes the relations between people, documents and places tangible, as well as the relations types that have been
defined. Thus we can unveil the social networks that exist in a hidden state in the documents. The visualisation in the form of a graph proves the usefulness of ontologies when encoding an index nominum. Because a relational database cannot show relations other than hierarchical, or deduce inferences of expressed relations, it cannot
completely realise the modelling of social networks.
On the contrary, an ontology allows this process and transforms the index from a classical access point into an real tool for analysing the corpus. The social networks revealed by the ontology in the graph form become easier
to apprehend, and this will constitute, once this technology
is implemented on significant historical corpus, an
essential manner to study the presence of a group of people
in a geographic space according to their relations. The setting up of the index nominum as an ontology relying on XML structured works shows how a technology like RDF can grow the interest of a well identified tool using the modelling of information.

Full text license: This text is republished here with permission from the original rights holder.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

Complete

ACH/ALLC / ACH/ICCH / ADHO / ALLC/EADH - 2006

Hosted at Université Paris-Sorbonne, Paris IV (Paris-Sorbonne University)

Paris, France

July 5, 2006 - July 9, 2006

151 works by 245 authors indexed

The effort to establish ADHO began in Tuebingen, at the ALLC/ACH conference in 2002: a Steering Committee was appointed at the ALLC/ACH meeting in 2004, in Gothenburg, Sweden. At the 2005 meeting in Victoria, the executive committees of the ACH and ALLC approved the governance and conference protocols and nominated their first representatives to the ‘official’ ADHO Steering Committee and various ADHO standing committees. The 2006 conference was the first Digital Humanities conference.

Conference website: http://www.allc-ach2006.colloques.paris-sorbonne.fr/

Series: ACH/ICCH (26), ACH/ALLC (18), ALLC/EADH (33), ADHO (1)

Organizers: ACH, ADHO, ALLC

De l'index nominum à l'ontologie. Comment mettre en lumière les réseaux sociaux dans les corpus historiques numériques ?

1. Gautier Poupeau

ACH/ALLC / ACH/ICCH / ADHO / ALLC/EADH - 2006