Laboratoire LaLICC UMR 8139 - Université Paris-Sorbonne, Paris IV (Paris-Sorbonne University)
Laboratoire LaLICC UMR 8139 - Université Paris-Sorbonne, Paris IV (Paris-Sorbonne University)
Laboratoire LaLICC UMR 8139 - Université Paris-Sorbonne, Paris IV (Paris-Sorbonne University)
Automatic summarization appears to be for the
future an important domain in textual mining and information retrieval. The main purpose of automatic
summarization is the extraction of the relevant information
contained in a document. There are various approaches
to make a summary, some approaches use a semantic
representation of the text to generate a summary, and others find relevant parts of a text to extract them and to constitute the summary. In the first place, we introduce the domain of automatic summarization and then we present the two main approaches. Finally, we expose our method, ours choices, and the software application which proceed from it.
1. Présentation du résumé automatique
Le résumé automatique a pour but de fournir à un
utilisateur l’information pertinente et essentielle d’un document sous forme de rapport synthétique. Il doit au travers d’un résumé retranscrire le sens général de ce que le document original à voulu exprimer. Le parcours
d’un document pour connaître son intérêt lors d’une
recherche par un utilisateur peut être long et inutile,
notamment s’il doit parcourir un grand nombre de textes.
Un logiciel de résumé automatique permet ainsi à
des utilisateurs de ne pas parcourir les textes dans leur
totalité, en ne leur faisant lire que le résumé, ce qui
produit ainsi pour eux un gain de temps important
dans leurs recherches. L’intérêt du résumé automatique apparaît pour la consultation sélective de documents par des personnes dont la lecture entière de ceux-ci est
impossible. Permettant une lecture synthétique, il aide le lecteur à filtrer les documents qui peuvent l’intéresser
pour une lecture ultérieure alors normale du ou des
documents choisis selon sa recherche. On note que la nature du résumé reste floue, il n’existe
pas en effet de résumé standard. De nombreuses
expériences sur des résumeurs professionnels montrent qu’il n’existe pas de résumé type.
Le laboratoire LaLICC de l’université Paris4-Sorbonne
a par ailleurs acquis une expérience dans le domaine
du résumé automatique depuis plusieurs années. La
réalisation de plusieurs projets tels que SERAPHIN,
SAFIR et ContextO ont participé à la réflexion et à la mise en place d’applications concrètes dans ce domaine.
Dans la phase actuelle, ces travaux entrepris sont
repris en étant introduit dans la nouvelle plate-forme
informatique EXCOM (EXploration COntextuelle
Multilingue) qui a pour objectif principal l’annotation
sémantique automatique de texte (dont la tâche de résumé
automatique fait partie).
2. Les différentes approches du résumé automatique
Nous allons présenter ici les deux grandes méthodes
existantes dans le résumé automatiques afin
d’introduire ensuite le projet EXCOM.
La méthode par compréhension
Cette méthode est issue essentiellement du domaine de l’intelligence artificielle. Elle considère la tâche de
résumé automatique comme devant être calquée par
l’activité résumante humaine. La constitution d’un résumé
par un logiciel doit ainsi passer par la compréhension totale du texte. Le logiciel doit pouvoir construire une
représentation du texte, qui éventuellement peut être
modifier ensuite, afin de pouvoir générer à partir de celle-ci
un résumé. L’avantage de cette méthode est de vouloir s’inspirer des processus cognitifs humains utilisés dans la compréhension de texte. Néanmoins en dehors de
cet aspect, des problèmes surgissent. Premièrement, la compréhension de texte par l’homme est une tâche
très loin d’être comprise, donc son implémentation
informatique semble encore impossible. Deuxièmement, la
représentation d’un texte est également très compliquée, et cette notion reste encore difficile pour les linguistes.
Chaque méthode par compréhension propose une
représentation propre, mais aucune n’arrive à représenter
le texte correctement. La complexité d’un texte sous tous ses aspects (discursif, temporel, etc.) est toujours une barrière à la construction correcte d’une représentation. Enfin la génération du résumé qui apparaît comme étant l’étape finale est aussi difficile. Les travaux sur la
production automatique de textes à partir de représentations
sont encore très limitées dans leurs résultats.
La méthode par extraction
Cette méthode est issue essentiellement du domaine de la recherche d’information. L’objectif de cette méthode
est de fournir rapidement un résumé simple à valeur
informative pour l’utilisateur. Elle consiste par l’extraction
des phrases les plus pertinentes du texte traité afin de constituer le résumé devant retransmettre l’essentielle de l’information pertinente générale qui se dégage du texte
original. Le résumé est alors constitué des phrases
extraites du document. Le travail principal se situe alors
dans l’évaluation de la pertinence des phrases du texte suivant un ou plusieurs critères. On peut dissocier alors deux grandes façons de faire. Les techniques statistiques qui prennent comme critère de pertinence la présence de termes fortement représentatifs du texte traité (grâce à un calcul de fréquence). Une phrase est alors extraite ou non suivant la présence de ces termes représentatifs dans celle-ci. Ces techniques sont limitées et se trouvent
confrontées à certains problèmes, comme la synonymie des termes par exemple. Les techniques plutôt linguistiques s’appuient sur la présence de marques linguistiques de surfaces pour établir l’importance ou non d’une phrase dans le texte. Certaines marques bien précises permettent d’attribuer une valeur sémantico-discursive à la phrase
et ainsi de connaître sa pertinence ou non dans la
structure discursive du texte. L’avantage de la méthode par extraction est de ne pas passer par des représentations complexes du texte, et de pouvoir fournir un résumé de façon assez simple (en comparaison d’une méthode par compréhension). Néanmoins les problèmes surviennent dans la qualité du résumé obtenu. Comme le résumé est le résultat de l’extraction d’un ensemble de phrases du texte que l’on a concaténée, la cohésion et la cohérence du résumé peuvent devenir médiocre. Il faut donc dans ces méthodes veiller à la qualité du résumé en sortie,
notamment par des méthodes d’évaluations.
3. La plate forme EXCOM et le résumé automatique
La plate-forme EXCOM est un moteur d’annotation
sémantique travaillant à partir de ressources
linguistiques préalablement rentrées par des linguistes. D’un point de vue technique EXCOM repose
essentiellement sur les technologies XML. Par ailleurs la plate-forme propose une ouverture vers le multilinguisme en prenant en compte d’autres langues que le français
tels que l’arabe et le coréen. La technique utilisée pour l’annotation est celle de la méthode d’exploration
contextuelle constituée au sein du laboratoire. Cette
méthode recherche à identifier des indicateurs linguistiques dans le texte, puis dans le cas où ils seraient présents, explorer le contexte textuel dans lequel ils se situent à la recherche d’autres indices linguistiques afin de pouvoir
attribuer une annotation sémantique sur le segment
textuel désigné par le linguiste. Ce traitement textuel repose
sur deux hypothèses fondamentales : la première admet la présence dans un texte de marques discursives affectées à des points de vue, et la seconde affirmant l’invariance de ces points de vue suivant les domaines traités dans le document. Le choix de points de vue adaptés est ainsi
en rapport avec la nature du texte traitée : articles
scientifiques, articles de journaux, essais, etc… L’essentiel des ressources utilisées correspond donc à un ensemble
de règles d’explorations préalablement construites par les linguistes. Il convient de remarquer que cette méthode
d’exploration contextuelle ne fait pas appel à des
ontologies externes mais que le système reste
entièrement compatible avec celles-ci.
La tâche de résumé automatique, actuellement en
développement sous EXCOM, utilise pour la constitution
de résumé une méthode par extraction de phrases basée sur quatre critères. A la suite de la segmentation préalable du texte en phrases, on attribue à chaque phrase quatre valeurs, correspondant aux quatre critères de pertinence.
Le premier critère de pertinence que nous avons retenu pour une phrase est la valeur de son annotation sémantique qui est attribuée par une règle d’exploration contextuelle. Les principaux points de vue que nous retenons pour le résumé sont l’annonce thématique, la conclusion, la récapitulation et les soulignements de l’auteur.
Le second critère correspond à la position de la phrase dans la structure textuelle. La position de certains types
de phrases (comme les annonces thématiques ou les
conclusions) par rapport à l’organisation des éléments constitutifs de l’argumentation de l’auteur, est déjà une information essentielle pour l’attribution du rôle de la phrase et de sa pertinence au niveau discursif. Ce second critère se trouve ainsi fortement lié au premier. Le troisième critère est lié à la thématique présente dans le texte. Nous cherchons dans les phrases des termes de filtrage, c’est-à-dire qu’ils correspondent aux mots les plus représentatifs de l’univers thématique qui se trouve dans le texte.
Enfin le dernier critère, qui est un critère négatif,
est la présence ou non dans la phrase d’anaphores pronominales. La présence de pronoms personnels sans référent dans le résumé contribue à sa mauvaise lisibilité, et des stratégies discursives devront alors être étudiées pour la sélection ou non de ces phrases.
Il existe donc trois étapes fondamentales dans la
construction du résumé :
• la première étant la phase d’annotation du texte
selon les points de vue
• la seconde étant la construction du résumé par la
sélection des phrases disposant de la meilleure valeur
de pertinence P. La valeur de pertinence P d’une
phrase correspond à une valeur numérique qui est calculée en fonction des quatre critères qualitatifs qui sont affectés à chaque phrase
• enfin la troisième étape étant la phase de nettoyage du résumé obtenu dans la seconde étape à l’aide de règles appropriées, afin d’assurer une cohésion et une cohérence meilleure.
Nous montrerons donc dans la présentation des exemples
de résumés que nous commenterons en expliquant
l’avantage de notre stratégie.
If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.
Complete
Hosted at Université Paris-Sorbonne, Paris IV (Paris-Sorbonne University)
Paris, France
July 5, 2006 - July 9, 2006
151 works by 245 authors indexed
The effort to establish ADHO began in Tuebingen, at the ALLC/ACH conference in 2002: a Steering Committee was appointed at the ALLC/ACH meeting in 2004, in Gothenburg, Sweden. At the 2005 meeting in Victoria, the executive committees of the ACH and ALLC approved the governance and conference protocols and nominated their first representatives to the ‘official’ ADHO Steering Committee and various ADHO standing committees. The 2006 conference was the first Digital Humanities conference.
Conference website: http://www.allc-ach2006.colloques.paris-sorbonne.fr/