Analyse du discours assistée par ordinateur - Version 3AD95

poster / demo / art installation
Authorship
  1. 1. Ismaïl Timimi

    Université Stendhal Grenoble III (Stendhal University)

Work text
This plain text was ingested for the purpose of full-text search, not to preserve original formatting or readability. For the most complete copy, refer to the original conference program.

Analyse du discours assistée par ordinateur - Version 3AD95
Ismaïl Timimi
Equipe CRISTAL, Laboratoire GRESEC, Université STENDHAL
timimi@u-grenoble3.fr
Mots-clé : analyse du discours, paraphrase et indexation, traitement automatique des langues

Objectifs de la méthode
Source d'embarras dans le traitement des questionnaires, des enquêtes et des observations sociologiques, les réponses aux questions ouvertes ont suscité un intérêt très particulier vu les difficultés qu'elles engendrent pour le dépouillement. Les premières recherches ont eu recours aux outils statistiques en se basant sur le seul critère des occurrences des mots et des segments répétés. Mais après, il est apparu plus judicieux de conjuguer ces outils avec ceux de l'analyse linguistique (procédés morpho-syntaxiques et sémantiques). Car les méthodes statistiques, utilisées seules, ne rendent pas compte des aspects linguistiques d'un corpus qui sont très utiles pour l'analyse de son contenu [SAL, 86]. Par exemple, en se basant uniquement sur le concept des occurrences, les formes "prendre, prise, reprendre" sont dépourvues de tout lien entre elles et seront scrutées comme des items complètement différents. En réalité, les mots de la langue sont liés par des relations morphologiques, syntaxiques, et sémantiques ; et ne pas tenir compte de ce fait, entraîne explicitement des résultats incomplets et imparfaits. Par le biais d'une normalisation des formes et des énoncés en langage naturel, on arrive à rapprocher les formes, augmenter ainsi leur nombre d'occurrences, et extraire par suite les énoncés considérés "proches" au sens sémantique.
Or, la définition de la sémantique entre énoncés a également causé des difficultés. Plusieurs écoles ont préféré alors le recours à la notion de la paraphrase et deux grands concepts se sont succédés historiquement [FUC, 94]. Un concept qualifié de pré-linguistique : c'est l'approche traditionnelle rhétorico-littéraire et pragmatique qui a utilisé le terme de paraphrase pour désigner la reformulation ; mais le manque de propriétés d'équivalence (symétrie, transitivité) dans ce concept d'une part et la difficulté de sa modélisation et de son automatisation d'autre part, l'ont conduit à des impasses. Ensuite, est apparu le second concept dans les travaux de Z. Harris [HAR, 52] et M. Pêcheux [PEC, 69] : c'est l'approche classique de la linguistique qui a défini la paraphrase dans un cadre mathématique étranger à son terrain d'origine. Il s'agit de la paraphrase comme relation d'équivalence, dont la modélisation paraît précisément dans la méthode 3AD (Approximation de l'Analyse Automatique du Discours) et le logiciel 3AD95.

En bref, la méthode 3AD, contrairement aux méthodes classiques de l'analyse de contenu, se veut un outil de dépouillement de corpus offrant plusieurs fonctionnalités en matière d'analyse textuelle notamment la paraphrase qui fait son originalité. Elle combine l'analyse du discours et plusieurs autres disciplines telles que l'étude des textes (analyse de contenu et traitement d'enquêtes), l'analyse linguistique (morphologie et syntaxe), la recherche d'information (documentaire et indexation), les mathématiques (algébrique et métrique) et évidemment l'informatique.

Aspect linguistique
La méthode 3AD consiste à faire une confrontation entre les différents énoncés d'un corpus afin d'en extraire des classes formées des énoncés en paraphrase, dans le sens que les éléments de chaque classe ont un invariant en commun. Pour ce faire, le corpus doit être formé de discours produits dans des conditions socio-linguistiques homogènes ; comme les discours relevant d'une enquˆte sur un phénomène, des archives d'un parti politique, des bases documentaires, ou des tracts sur un événement social... L'homogénéité des conditions de production assure, en principe, une certaine répétition dans le vocabulaire des discours. Ceci se remarque nettement dans les corpus produits par des enfants o— le vocabulaire est bien restreint et permet une répétition des termes.
Chaque discours est segmenté en énoncés (par une analyse syntaxique) ; et chaque énoncé est analysé (par la morphologie flexionnelle et dérivationnelle) et présenté comme une chaîne de couples (b/t). b est la base lexicale (forme canonique) et t le trait morphologique (catégorie grammaticale avec des variables descriptives). On utilise l'analyseur morphologique Cristal et le modèle de Markov pour la désambiguïsation. Exemple : l'énoncé "le travail de la campagne est dur." sera codé et présenté ainsi : "(le/D) (travailler/F-nom) (de/P) (le/D) (campagne/F-nom) (être/V) (durcir/F-adj) (./T)"

Aspect mathématique
Par ailleurs, chaque trait morphologique est pondéré par un poids numérique suivant l'importance de son apport informatif (par exemple : les verbes et les noms apportent plus d'information, donc ils sont plus pesants que les déterminants et les prépositions, ce qui implique que deux énoncés ayant un même verbe seront plus proches que ceux ayant seulement une préposition en commun). Les verbes, les noms, les adjectifs et les adverbes sont alors affectés des poids numériques largement plus grands que ceux des autres traits morphologiques.
Pour transformer un énoncé A en un autre B, on utilise une combinaison des opérations d'édition élémentaires sur les formes (insertion, suppression et substitution). On définit une fonction numérique coût liée aux trois opérations, et le coût d'une transformation sera la somme des coûts des opérations élémentaires la constituant. Le système calcule alors la distance entre A et B comme le coût minimum de l'ensemble des suites transformant A en B tout en prenant en compte la longueur des énoncés [WAG, 74]. Par suite, deux énoncés sont considérés en paraphrase quand la distance entre eux est inférieure au seuil fixé par l'utilisateur. Les deux énoncés seront ainsi répertoriés et indexés dans la même classe d'équivalence, idem pour les énoncés qui deviennent en relation par la fermeture transitive.

Aspect informatique
Ce travail théorique est traduit par l'élaboration d'un logiciel dit 3AD95, écrit en langage "C" sur station IBM RISC 6000 sous le système AIX version 3.02. Il comprend trois grandes phases successives [TIM, 96] :
1/ Phase de prétraitement : (codage linguistique) consiste à formater le corpus, initialement écrit en mode ascii, grâce à une segmentation syntaxique, une analyse morphologique et une désambiguïsation par le modèle de Markov.

2/ Phase de traitement : (traitement discursif) consiste à créer à partir du corpus formaté des fichiers descriptifs tels que le dictionnaire du corpus, la liste des occurrences des formes, la ventilation des traits morphologiques, le degré de la stéréotypie du corpus... etc.

3/ Phase de dépouillement : consiste à calculer les distances entre énoncés en fonction des variations du seuil et des poids, et éditer par suite les classes d'équivalence de paraphrase.

L'interface utilisateur est à base de menus présentés en mode texte. Elle permet à tout instant de consulter les fichiers intermédiaires, de comparer les résultats grâce à l'autonomie des commandes et des phases. Il est en outre possible d'enchaîner des étapes élémentaires à l'aide de scripts et d'accéder constamment à une aide en ligne. Enfin, une version graphique sur PC sous Windows 95 est en cours.

Conclusion et perspectives
La méthode 3AD était censée initialement répondre à la problématique de la paraphrase liée aux corpus. Mais actuellement et dans le cadre de la recherche au sein de l'équipe Cristal [CRI, 95], l'extension de la méthode en 3AD95 a dépassé le cadre de la paraphrase et s'est trouvée en mesure de contribuer également à la résolution des problèmes liés au dépouillement des questions ouvertes dans les questionnaires, et à la recherche d'information documentaire (indexation automatique et extraction terminologique). Moyennant quelques modifications d'articulation, l'application est aussi possible dans d'autres langues que le français.
Son expérimentation actuelle sur plusieurs corpus donne des résultats satisfaisants. Cependant, pour un dépouillement plus pertinent, il faut régulariser certaines ambiguïtés issues du codage linguistique notamment celles liées aux homographes et aux fonctions grammaticales. Pour ce faire, un recours à l'intégration d'une nouvelle opération d'édition élémentaire dite "déplacement" avec le calcul de distances entre arbres syntaxiques et non pas entre énoncés semble plus judicieux. Ce projet d'amélioration est en cours d'instauration.

Bibliographie
[HAR, 52] Zellig S. HARRIS "Discourse analysis". Language, vol. 28, traduction française dans Langages, vol. 13.
[PEC, 69] Michel PECHEUX "Analyse automatique du discours". Ed. Dunod, Paris.

[WAG, 74] Robert A. WAGNER, Michael J. FISHER "The string to string, correction problem", Journal of the Association for Computing Machinery (ACM), vol. 21, no 1, January 1974, pp. 168-173.

[SAL, 86] André SALEM "Segments répétés et analyse statistique des données textuelles". Histoire et mesure 1986 - T2.

[FUC, 94] Catherine FUCHS "Paraphrase et énonciation". Ophrys Paris, 1994, pp. 58-67.

[CRI, 95] V. CLAVIER, G. LALLICH-BOIDIN, J. ROUAULT, I. TIMIMI "Analyse Automatique du Discours, Perspectives 1995". 3rd International Conference on Statistical Analysis of Textual Data JADT95, Rome.

[TIM, 96] Ismaïl TIMIMI "Manuel d'utilisation de 3AD95 - version 1.0" Manuscrit interne de GRESEC-CRISTAL, Université de Stendhal.

If this content appears in violation of your intellectual property rights, or you see errors or omissions, please reach out to Scott B. Weingart to discuss removing or amending the materials.

Conference Info

In review

ACH/ALLC / ACH/ICCH / ALLC/EADH - 1997

Hosted at Queen's University

Kingston, Ontario, Canada

June 3, 1997 - June 7, 1997

76 works by 119 authors indexed

Series: ACH/ALLC (9), ACH/ICCH (17), ALLC/EADH (24)

Organizers: ACH, ALLC