Groupe Syntaxe

Syntaxe et Analyse Syntaxique Automatique

Enseignant-Chercheurs : Jacques Vergne (MC), S. Ferrari (MC)

Chargé de Recherche : Nadine Lucas (CR1)

Doctorants et postdoctorants : Emmanuel Giguet, Yann Picand, Gérald Vannier, Cornélia Stratulat, Thomas Lebarbé

Thèses soutenues : Emmanuel Giguet, Hervé Déjean

Collaborations au sein du GREYC : Equipe Algorithmique, Groupes Infodoc, Apprentissage et autres groupes "LangNat" de l'équipe I3

Collaborations universitaires : ESIT (Madrid), LIMSI (Orsay), LPCP (Caen), ELSAP (Caen)

Collaborations industrielles : Mémodata (Caen), Electrel (Caen), Club MicroSon (Paris), Datops (Paris, Nimes)

Les recherches du Groupe Syntaxe se développent simultanément sur les deux axes conjoints de la linguistique informatique et de l'informatique linguistique :

Nos travaux portent sur l'écrit et sur l'oral (liens prosodie-syntaxe), deux types de formes linguistiques dont les recherches s'enrichissent mutuellement; notre groupe est sensible à l'algorithmique et à la complexité des algorithmes comme signe de la justesse des solutions adoptées; on observe une convergence des concepts : le syntagme non récursif défini par Jacques Vergne et Emmanuel Giguet (diagnostic automatique de langue, analyse syntaxique multilingue - thèse soutenue en décembre 1988) se trouve être le groupe accentuel de Gérald Vannier dans le projet Synthèse Vocale (génération automatique de la prosodie - soutenance prévue début 1999), et est validé par l'approche multilingue de Hervé Déjean (découverte semi-automatique de structures syntaxiques - thèse soutenue en décembre 1988); les concepts établis dans le cadre de la phrase sont cohérents avec les travaux de Nadine Lucas (linguiste intégrée au GREYC en 1998) sur la syntaxe des textes entiers.

Ces orientations permettent à notre groupe d'être innovant et créatif et nous confèrent une avance théorique et opératoire non négligeable dans notre communauté.

De septembre 92 à décembre 95, nous avons collaboré avec la Escuela Superior de Ingenieros de Telecomunicacion de Madrid (ESIT), avec un objectif théorique: confronter les concepts linguistiques aux réalités de l'espagnol; et un objectif applicatif: dans un système de synthèse vocale en espagnol, construire le module d'analyse syntaxique servant à synthétiser la prosodie et à calculer la durée des pauses. Ce travail, qui a constitué une partie de la thèse dÕEduardo López-Gonzalo, a permis de mettre au point une méthodologie de transposition des concepts linguistiques et des algorithmes à d'autres langues, et a initié nos recherches sur les liens entre syntaxe et prosodie, entre les formes écrite et orale.

Signalons encore une collaboration de transfert de techniques d'analyse syntaxique automatique avec la société caennaise Mémodata, dans le cadre de la convention cadre entre Mémodata et l'Université de Caen depuis 1994.

Perspectives

Le groupe Syntaxe se propose de développer des logiciels de recherche et des logiciels d'ingéniérie linguistique en travaillant sur trois axes: - Approfondir les modes de résolution de problèmes en dégageant des opérateurs (les processus) et des opérandes (les données, les structures vues comme résultats partiels, et les résultats finaux instanciés). - Décrire les tâches visées et rechercher les algorithmes les plus légers pour parvenir à des résultats exploitables. - Se donner les moyens de mieux définir la description des algorithmes.

Les collaborations internes au GREYC avec les autres groupes de l'équipe I3, dont les recherches portent sur la sémantique, la pragmatique et le dialogue homme-machine, permettront la construction d'un atelier commun de génie logiciel linguistique. La collaboration avec le groupe Info-doc documents sur le thème du traitement des documents électroniques devrait permettre de traiter les corpus sous le double éclairage du data-mining (bases de données textuelles) ou du text-mining d'une part et de la caractérisation des documents individuels d'autre part.

Les collaborations externes au GREYC devraient permettre au groupe Syntaxe d'intégrer des savoirs-faire existants sur la mise en forme matérielle, avec l'équipe de Jacques VIRBEL à Toulouse, en prenant appui sur les travaux de Mustapha MOJAHID (anciennement au GREYC) et les travaux conjoints de Elsa PASCUAL et Marie-Paule Pery-Woodley de l'Université Toulouse-le Mirail, illustrés en particulier par la détection de la définition dans le texte. Des projets communs sont élaborés également avec l'équipe de Daniel LUZZATI au Mans.

À partir de 1999, démarre un nouveau projet industriel sur le traitement des flux textuels avec la société DATOPS de Nimes, soutenu par le MENRT. Ce projet rassemble les groupes Info-doc et Syntaxe, et permet d'intégrer les apports de deux nouveaux chercheurs, Stéphane FERRARI (détection de métaphore) et Nadine LUCAS (structuration de textes). En outre, il permettra de transposer des prototypes d'ingéniérie linguistique (analyseur, diagnostiqueur) dans un contexte d'utilisation réelle.

*