OpenTermAlign : Interface Web d’alignements de vocabulaires archéologiques hétérogènes.

paper, specified "short paper"
Authorship
  1. 1. Marion LAMÉ

    Istituto di Scienza e Tecnologie dell'Informazione (ISTI) - Consiglio Nazionale delle Ricerche (CNR), UMR 7324 CITERES-LAT - Laboratoire Archéologie et Territoires

  2. 2. Federico PONCHIO

    Istituto di Scienza e Tecnologie dell'Informazione (ISTI) - Consiglio Nazionale delle Ricerche (CNR)

  3. 3. Perrine PITTET

    Intelligence des Patrimoines, UMR 7323, CESR - Ecole Polytechnique de l'Université de Tours

  4. 4. Olivier MARLET

    UMR 7324 CITERES-LAT - Laboratoire Archéologie et Territoires

Work text
This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.


OpenTermAlign

est un outil en ligne permettant de faciliter l’alignement et le suivi de la qualité scientifique et sémantique des contenus entre un vocabulaire issu d’un jeu de données avec le vocabulaire d’un thésaurus normalisé, vocabulaires que nous appellerons respectivement “terminologie source” et “terminologie cible” dans le reste de ce document. Cet outil a été mis en oeuvre dans le cadre des collaborations et des développements du
Consortium MASA
pour accompagner la communauté des archéologues dans la publication de leur données scientifiques selon les
FAIR principles
,
et en particulier pour rendre les données archéologiques interopérables. Créé en 2014, le Consortium MASA est labellisé par la très grande infrastructure de recherche
Huma-Num
. Le Consortium rassemble plusieurs équipes et institutions françaises dans le champs de l’archéologie. Au niveau européen, le consortium MASA diffuse ses outils, parmi lesquels
OpenTermAlign
, au sein du programme H2020
ARIADNEplus
, dont le partenaire
ISTI
réalise le développement.

Dans ce cadre, les outils d'alignement actuels entre terminologies spécialisées se distinguent plus par le type de service rendu aux communautés impliquées (archéologie, informatique, organisation des connaissances) que par leurs différences entre leurs fonctionnements respectifs, fonctionnement qui se révèlent relativement proches. Ainsi, ces outils d'alignement terminologique, dans la chaîne de production et de publication de la connaissance scientifique en ligne, offrent différentes modalités de travail selon les terminologies prises en considération et les objectifs à atteindre. Il s’avère possible d'aligner une terminologie source vers une terminologie cible déterminée (BBTalk aligne vers le méta-thésaurus Backbones), vers des terminologies de structures homogènes (ex. : Vocabulary Matching Tool et VISTA sont deux exemples - ce dernier permet l’alignement entre thésaurus, sans définition, ce qui implique de partager une sémantique implicite), vers des structures différentes (ex. 3M - permet l’appariement de structures XML vers l'ontologie formelle du CIDOC-CRM). En revanche, il n’existe pas d’outil intermédiaire pour faciliter l’alignement entre des terminologies peu ou pas structurées. Ces dernières se présentent sans organisation standardisée de la connaissance tout en étant fortement contrôlées, d’un point de vue scientifique et sémantique, par les producteurs de données eux-mêmes. Au sein d’OpenTermAlign, ces producteurs de données doivent coordonner, valider et travailler explicitement la qualité sémantique et scientifique de ces données, s’engageant de fait dans une démarche à la fois scientifique et numérique. Ces terminologies sont ici produites par des archéologues avec une certaine liberté linguistique (ex. cluster de mots-clés). Ces caractéristiques hétérogènes (peu ou pas de structure, liberté linguistique) génèrent une complexité encore non traitées par les outils d’alignement et qui concerne potentiellement de nombreux jeux de données en archéologie.
La figure suivante représente les diverses fonctionnalités des outils d’alignement en fonction du type de terminologie.

Fig.1 Usages de différents outils d’alignement en fonction de différents modèles d’organisation de la connaissance

Notre outil
OpenTermAlign

propose de gérer le flux de ce travail d’alignement, travail rendu complexe de par l’hétérogénéité structurelle et d’usage des terminologies, en s’appuyant sur six pratiques pour assurer la qualité scientifique des données : (1) employer les mêmes fonctionnalités que les outils traditionnels d’alignement (confrontation des termes et des contextes sémantiques), (2) assurer une compatibilité et une continuité technique avec d’autres terminologies et les outils d’alignement qui existent déjà (import et export au format machine comme le CSV ou l’XML, de type SKOS par exemple), (3) accompagner de la façon la plus simple possible le travail et le dialogue entre les différents acteurs (archéologues et experts de l'organisation de la connaissance, informaticiens), (4) simplifier l’appariement
pour l’expert du domaine, et enfin (5) permettre l’élaboration, la coordination et la validation d’une sémantique partagée explicite entre la terminologie source et la terminologie cible. Cette élaboration doit aboutir à une
situation définitoire
ainsi appelée, car elle ne peut, à cette étape, accepter que trois options (aucune, une ou deux définitions) et représentée dans l’interface par une zone définitoire où se déroule une coordination sémantique à valider par l’expert ; (6) vérifier le positionnement entre les éventuelles structures et,
ipso facto
, la sémantique afférente aux structures.

La bonne pratique (3) implique de (a) limiter les actions d’alignement confiées à l’usager. Celles-ci sont ramenées à quatre étapes (terminologie, définition, positionnement et enrichissements) durant lesquelles un seul choix est requis parmi quelques propositions assertives, pré-sélectionnées chaque fois que possible (pré-alignement automatique et conditions logiques)
. Cette même pratique (3) implique de
(b)
produire
une table de correspondance (
lookup table
) composée d’une table de concordances terme à terme (URI à URI) et des résultats de l’alignement. Les différentes combinaisons possibles à chaque étape (plusieurs dizaines au total) sont ramenées à sept situations décrites ci-après : (i) le constat d’une incohérence entre le terme et la définition dans la cible, (ii) la situation définitoire doit être harmonisée (le plus souvent les deux définitions sont à discuter), (iii) Les deux termes sont à discuter (le plus souvent incohérence morphologique), (iv) les termes et la situation définitoire sont à discuter (discordances entre les termes des deux terminologies et la sémantique apportée par la ou les définitions ou l’absence de définition)
,
(v) le positionnement du terme source dans la structure cible crée une difficulté (avec ou sans polyhiérarchie), (vi) la définition de la source est à préciser (car elle est parfois nécessaire pour comprendre l’alignement à réaliser), (vii) Aucun problème (soit le terme est candidat pour enrichir la cible, soit un terme a été trouvé et l’alignement est validé).

Fig. 2 Table de correspondance
Ces sept situations se répartissent en quatre actions d’équipe autour du travail d’alignement afin de faciliter la prise de décision, la redistribution des tâches et la mise à jour automatique des bases de données sources et l’enrichissement semi-automatique de la terminologie cible. En outre, l’information
état de l’alignement se retrouve aussi bien dans la table de correspondance que dans la notice de l’alignement lui-même. Ces quatre actions sont les suivantes : (i’) Réélaboration - concerne une situation trop problématique pour être maintenue en l’état, (ii’) Concertation avec les équipes de la terminologie cible - regroupe un ensemble de problématiques sémantiques concernant la terminologie cible, (iii’) Concertation avec l’équipe de la terminologie source - regroupe un ensemble de problématiques nécessitant une réflexion scientifique en amont, (iv’) Consensus - regroupe les situations validées à savoir alignement (avec ou sans synonymie) ou proposition d’enrichissement avec un nouveau candidat.

Fig. 3 Notice d’enregistrement de l’alignement pour le mot “abside”
L’outil a été testé avec

Une terminologie source composée d’un cluster de mots de 600 termes en provenance de quatre bases de données archéologiques différentes (
AERBA,
ARSOL,
I-CERAMM,
OUTAGR).

Vers une terminologie cible spécialisée servant de référentiel pour l’archéologie francophone. Il s’agit du thésaurus
PACTOLS. Celui-ci, débuté en 1987, référence aujourd’hui plus de 50 000 concepts, organisés en sept domaines, chacun disposant d’un URI ARK (Archival Resource Key). Il respecte la norme ISO 25964 sur les thésaurus multilingues et sur l’organisation et l’interopérabilité des thésaurus. L’alignement avec le méta-thésaurus Backbones, Geonames et Wikidata est un travail en cours.

La structure du thésaurus cible permet de solliciter l’expert sur un nombre de choix limité aux seules quatre étapes. Par exemple, à l’étape 1, le terme peut être candidat dans la cible, convenir à la cible, être synonyme de la cible, être incompatible avec la cible, être associé à un positionnement sans candidater.
Les combinaisons exploitables retenues dans ce test précis sont au nombre de trente-deux.
Sur les 600 termes alignés, 300 candidats sont proposés à l’enrichissement des PACTOLS. Sur les 300 termes restants, environ 70% ne posent pas de problème particulier et les 30 % restant nécessite des consultations d’équipe pour les ajuster,  les préciser et aboutir à un alignement satisfaisant et fonctionnel aussi bien sur le plan sémantique que technique.

OpenTermAlign
, est un fork d’

Heterotoki

et a été adapté aux exigences des archéologues en permettant de conserver et de caractériser de la terminologie source en langue ancienne (ex.: latin), en moissonnant les traductions des termes dans les pages Wikipédia correspondantes dans les vingt-quatre langues (pour un enrichissement multilingue de la terminologie source et la terminologie cible), en interagissant avec l’endpoint du thésaurus archéologique cible (interrogation en directe), en installant en local ce même thésaurus (pour obvier à de ponctuels problèmes de réseau) et en moissonnant ses identifiants ARK. L’outil a été mis à l’épreuve avec d’autres terminologies cibles de type thésaurus offrant les mêmes garanties techniques (Iconclass et Inventaire Général) et les fonctionnalités permettant l’alignement d’un même terme vers plusieurs vocabulaires cibles sont à l’étude.

Notre outil s’appuie sur une configuration GUI standard, est en accès libre et produit ou participe à produire des données respectant les principes FAIR (Findable, Accessible, Interoperable and Re-usable). L’interface web repose sur des technologies standard du web : php / MySQL, JavaScript. L’importation de la terminologie source se fait au format CSV ou SKOS (en RDF ou JsonLD). La navigation dans la terminologie cible est possible selon deux modalités : (i) l’importation (RDF) dans un triplestore - particulièrement utile pour les
thésaurus ne disposant pas d’un endpoint opérationnel. (ii) Accès directe via l’API (RDF ou JsonLD, SPARQL endpoint). L’export quant à lui advient au format csv ou SKOS (RDF ou JsonLD).

Bibliography

AERBA.
(2016). Atlas des Établissements Ruraux de la Beauce Antique. CITERES-LAT Université de Tours/CNRS.
http://aerba.huma-num.fr
(accessed 3 May 2019).

Axaridou, A., Konsolaki, K., Theodoridou, M., Kozlov, A., Haase, P.
and
Doerr, M. (2018). Vista: Visual terminology alignment tool for factual knowledge aggregation, Proceedings of the Third International Workshop on Semantic Web for Cultural Heritage co-located with the 15th Extended Semantic Web Conference, SW4CH@ESWC 2018, Heraklion, Crete, Greece, 3 June 2018.

Binding, C. and Tudhope, D.(2016). Improving interoperability using vocabulary linked data. International Journal on Digital Libraries, 7 (1): 5–21.

Doerr, M., Theodoridou, M., Aspöck, E. and Masur, A.
(2015). Mapping archaeological databases to CIDOC CRM, Proceedings of the 43rd Annual Conference on Computer Applications and Quantitative Methods in Archaeology, pp. 443-452.

Husi, P. and Rodier, X.

(2011). ArSol: an archaeological data processing system. In Erzsébet, J., Redő F. and Szeverényi V. (eds), On the Road to Reconstructing the Past, Proceedings of the 36th CAA Conference, Budapest, 2-6 April 2008, pp. 86-92.
http://arsol.univ-tours.fr
(accessed 3 May 2019).

I-CERAMM.

(2006). Information sur la CÉRAmique Médiévale et Moderne.
CITERES-LAT Université de Tours/CNRS.
http://iceramm.univ-tours.fr
(accessed 3 May 2019).

Minadakis, N., Marketakis, Y., Kondylakis, H., Flouris, G., Theodoridou, M., de Jong, G. and Doerr, M.
(2015
)
. X3ML Framework: An Effective Suite for Supporting Data Mappings,
Proceedings
of the Workshop on Extending, Mapping and Focusing the CRM co-located with 19th International Conference on Theory and Practice of Digital Libraries, EMF-CRM@ TPDL
2015
, Poznań, Poland,
17
September 2015, pp. 1-12.

Noy, N. F.

(2004). Semantic integration: a survey of ontology-based approaches. ACM Sigmod Record, 33 (4): 65-70.

OUTAGR.

(2017). Inventaire des Outils Agricoles de la Gaule Romaine. CITERES-LAT Université de Tours/CNRS.
http://outagr.huma-num.fr
(accessed 3 May 2019).

PACTOLS.

(1987).
Thesaurus PACTOLS.

(accessed 3 May 2019).

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.