Jacques Vergne



 
Département d'Informatique
Équipe HULTECH : "HUman Language TECHnology" : thème "Rhétorique et Génie linguistique"
Laboratoire GREYC
Université de Caen
F14032 Caen Cedex
 
Site :  Campus II
Bâtiment :  S3
Étage :  3
Bureau :  S3 391

Tél. : +33 (0)2 31 56 73 36
Fax : +33 (0)2 31 56 73 30
email Jacques.Vergne@unicaen.fr
Fonction : Professeur

page modifiée le 24 avril 2008


Creative Commons License   NB : les textes non publiés sont mis à disposition sous un contrat Creative Commons.

un algorithme pour supprimer les mots vides d'une requête
an algorithm to discard function words from a query

English version   Abstracts in English and English version of some slides

English version  [Article à CIDE 8  - mai 2005]

[Conférences invitées à l'Université Stendhal Grenoble 3  - novembre 2004]

English version  [Local function words discovery in raw corpora of unknown languages, without any resource submitted to SIGIR'2004]

English version  [Article et poster aux Journées internationales d'Analyse statistique des Données Textuelles (JADT 2004) - mars 2004]

English version  [Article et présentation aux Journées Francophones de la Toile 2003 (JFT 2003) du 2 juillet 2003]

English version  [Article et présentation à l'atelier "TALN et multilinguisme" de TALN 2003 du 14 juin 2003]

English version  [Article et présentation à TALN 2002 du 24 juin 2002]

[Séminaire I3 du GREYC du 9 octobre 2001]

English version  [Conférence invitée à TALN 2001 du 3 juillet 2001]

[Exposé à la journée "Prédication" du CRISCO du 26 janvier 2001]

English version  [Exposé au séminaire TALANA du 4 décembre 2000]

English version  [Tutoriel au Coling 2000 :  Trends in Robust Parsing

English version  [ A linear algorithm for chunk linking]  submitted to Coling'2000

English version  [ Between dependency tree and linear order, two transforming processes]  submitted to Coling'98's DG workshop

 [ Une hypothèse sur l'ordre linéaire: l'arbre de dépendance et sa linéarisation, optimisée sous des contraintes topologiques, métriques et mémorielles]  soumis en 1996 à la revue Linguisticae Investigationes

English version  [ A short term memory based algorithm for linking segments]   submitted to Coling'96

 [ Les cadres théoriques des TAL syntaxiques: quelle adéquation linguistique et algorithmique ?]   TALN'95

English version  [ Some syntactic properties of natural languages, applied to parsing of linear complexity in time]   submitted to Coling'94

English version  [ A non-recursive sentence segmentation, applied to parsing of linear complexity in time]   NEMLAP'94

English version  [ Syntactic properties of natural languages and application to automatic parsing]   SEPLN'93

English version  [ Syntax as clipping blocks: structures, algorithms and rules ]   SEPLN'92

English version  [ Syntax as clipping blocks: structures, algorithms and rules ]   submitted to Coling'92

English version  [ A parser without a dictionary as a tool for research into French syntax ]   Coling'90


[Publications] [Axes de recherche] [Groupe Syntaxe] [Étudiants en thèse

[Analyseur syntaxique 98] [Analyseur syntaxique du GREYC

[Habilitation à diriger des recherches] [GRACE] [Projet Synthèse Vocale] [Projet industriel DATOPS]





Article à CIDE 8  - mai 2005

Une méthode indépendante des langues pour indexer les documents de l'internet par extraction de termes de structure contrôlée

Résumé - Abstract 

Nous présentons dans cet article une méthode d'indexation automatique de documents de l'internet, fondée sur l'extraction de termes de structure contrôlée, et qui ne nécessite aucun traitement linguistique, ni stop-list, ni connaissance de la(les) langue(s) du document. Cette méthode s'appuie sur la récurrence de suites de mots, et sur le contrôle de la structure de ces suites. Ce contrôle de structure est basé sur un étiquetage du texte à indexer avec un jeu de deux étiquettes : mots informatifs ou non informatifs. Les mots informatifs sont définis comme étant plus longs et moins fréquents que leurs voisins. On exploite ainsi des propriétés très générales des langues, découvertes par Zipf et par Saussure.

Mots-clés,  Key-words : indexation automatique, termes de structure contrôlée, méthode d’indexation indépendante des langues. automatic indexing, structure controlled terms, language independent indexing method.

English version In this paper, we present an automatic indexing method of web documents, based on structure controlled terms extraction, and which does not require any linguistic processing, neither stop-list, nor knowing the document language(s). This method relies on the words sequences recurrence, and on the structure control of these sequences. This structure control is based on tagging the text to index with a two label tagset : informative words or not. Informative words are defined longer and less frequent than their neighbours. Very general linguistic properties, discovered by Zipf and by Saussure are thus exploited.

Téléchargez l'article (.pdf 288 Ko)

Vergne Jacques. Une méthode indépendante des langues pour indexer les documents de l'internet par extraction de termes de structure contrôlée. Actes de CIDE 8, 2005, 155-168.



Conférences invitées à l'Université Stendhal Grenoble 3  - novembre 2004

Un exemple de traitement "alingue" endogène :
extraction de candidats termes  dans des corpus bruts de langues non identifiées
par étiquetage mot vide - mot plein

Téléchargez la présentation   (.ppt 224 Ko)

"Ceci n'est pas une pipe"

dissocier un phénomène de sa représentation
--->
multiplicité des modèles
 

Téléchargez la présentation   (.ppt 680 Ko)



Article soumis à SIGIR'2004 - juillet 2004

Local function words discovery in raw corpora of unknown languages, without any resource

Abstract 

English version Our present research is in the field of exploring NLP methods which use no other resource than the text to analyse itself. This drives us to analysis methods which use very general linguistic properties, as for instance differences of length and frequencies of words. To illustrate our approach, we present in this paper a local computation method to discover function words from raw corpora. This method can be used to extract term candidates or to index raw texts in unidentified alphabetic natural languages.

Key-words : multilingual NLP, natural language learning, grammar induction, function words discovery


Téléchargez l'article (.pdf 244 Ko)



Article et poster aux JADT 2004 - mars 2004

Découverte locale des mots vides dans des corpus bruts de langues inconnues, sans aucune ressource

Résumé - Abstract 

Nous nous plaçons dans une perspective de traitements linguistiques sans autre ressource que le texte à analyser. Ceci nous conduit à des méthodes d’analyse exploitant des propriétés très générales des langues, comme par exemple les différences de longueur et de fréquence des mots. Pour illustrer notre démarche, nous présentons dans cet article une méthode de découverte des mots vides par un calcul local. Cette méthode peut s’appliquer à l’extraction de candidats termes ou à l’indexation de textes bruts de langues alphabétiques non identifiées.

Mots-clés,  Key-words : traitements multilingues, découverte des mots vides, multilingual NLP, natural language learning, grammar induction, function words discovery

English version Our present research is in the field of exploring NLP methods using no other resource than the text to analyse itself. This drives us to analysis methods which use very general linguistic properties, as for instance differences of length and frequencies of words. To illustrate our approach, we present in this paper a method of local computation for discovering function words from raw corpora. This method can be used for extracting term candidates or indexing raw texts of unidentified alphabetic natural languages.

Téléchargez l'article (.pdf184 Ko)

Vergne Jacques. Découverte locale des mots vides dans des corpus bruts de langues inconnues, sans aucune ressource. Actes des JADT 2004, volume 2, 2004, 1158-1164.



Article et présentation aux JFT 2003 du 2 juillet 2003

Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet

Résumé - Abstract 

Dans cet article, nous présentons un système de constitution de revue de presse à partir des sites de presse présents sur l'internet . Il s'agit de répondre à des questions telles que : "de qui, de quoi est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?". L'utilisateur, qu'il soit un journaliste qui prépare sa revue de presse, ou simplement une personne intéressée par l'actualité, définit en entrée l'espace de recherche qui l'intéresse. Ce système inverse la problématique des moteurs de recherche : au lieu de rechercher des documents à partir de mots-clés qui représentent des thèmes, il s'agit de produire en sortie les thèmes principaux de l'actualité, et de donner accès aux articles concernés par ces thèmes. Les thèmes d'actualité sont capturés en relevant les termes récurrents dans les "textes" d'hyperliens des "Unes" des sites de presse. Le système calcule un graphe de termes dans lequel les nœuds sont les termes et les arcs sont les relations entre termes, relations définies par la co-occurrence de deux termes dans un "texte" d'hyperlien. L'interface exploite ce graphe en permettant à l'utilisateur de naviguer parmi les termes et d'avoir accès aux articles contenant ces termes.

Mots-clés : hypertextes, web, internet, documents électroniques, web mining, recherche d'informations, veille stratégique, fouille de textes.

English version In this paper, we present a system for building a news review, from news sites on the web. We want to be able to answer questions as : "who, what are papers speaking about today in the news of a given geographic or linguistic search space". The user, a journalist preparing his news review, or somebody interested in news, defines as input the search space he is interested in. This system reverses the issues of search engines : in spite of searching documents from key-words which represents topics, we want to produce as output the main topics of the news, and to give access to related papers. News topics are captured while computing recurrent terms in hyperlinks texts of front-pages of news sites. The system computes a graph in which nodes are terms and arcs are links between terms; a link is defined as a co-occurrence of two terms in a same link text. The interface is based on this graph as the user can browse through the terms and have access to papers containing these terms.

Key-words : hypertexts, web, internet, electronic documents, web mining, information retrieval, strategic watching, text mining.

Téléchargez l'article (.pdf 256 Ko), la présentation   (.ppt 544 Ko)

Une démonstration est accessible sur : https://lucasn01.users.greyc.fr/JacquesVergne/demoRevueDePresse/

Vergne Jacques. Un système de calcul des thèmes de l'actualité à partir des sites de presse de l'internet. Actes des JFT 2003, tome 2, 2003, 215-224.


Article et présentation à l'atelier "TALN et multilinguisme" de TALN 2003 du 14 juin 2003

Un outil d'extraction terminologique endogène et multilingue

A tool for endogenous and multilingual terminological extraction

Résumé - Abstract 

Dans cet article, nous présentons un outil d'extraction terminologique "endogène" à partir d'un corpus multilingue. Cet outil est qualifié d'endogène car, sans autre ressource que le corpus dont il doit extraire les termes, il calcule les mots vides à partir de ce corpus pour centrer les termes candidats sur des mots pleins. Il est placé dans le cadre d'un système de constitution automatique de revue de presse à partir de sites de presse présents sur l'internet . Il s'agit de répondre à des questions telles que : "de qui, de quoi est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?". Le corpus est constitué des textes des hyperliens des "Unes" des sites de presse de langues inconnues a priori. Il est renouvelé quotidiennement, et sa taille est d'environ 100 Ko (débalisé). La méthode est fondée sur l'analyse distributionnelle, et utilise des différences entre mots contigus : les différences de longueur et d'effectif.

English version In this paper, we present an "endogenous" terminology mining tool, from a multilingual corpus. This tool is described as endogenous because, without any other resource than the corpus from which it has to extract terms, it computes function words from this corpus to focus candidate terms on content terms. It is used inside an automatic news review system from news web sites. The system is able to answer questions as : "who, what are newspapers speaking about today in a given geographic or linguistic search space?". The corpus is made of hyperlinks texts of news web site front-pages in unknown languages. It is daily downloaded, and its size is about 100 Kbytes (untagged). The method is based on distributional analysis, and uses differences between contiguous words : differences of length and of frequency.

Mots Clés – Keywords
extraction terminologique, endogène, multilingue, internet, fouille de texte.
terminology mining, endogenous, multilingual, internet, web mining, text mining.

Téléchargez l'article (.pdf 96 Ko), la présentation   (.ppt 490 Ko, English version .ppt 540 Ko, )

Une démonstration est accessible sur : https://lucasn01.users.greyc.fr/JacquesVergne/demoRevueDePresse/

Vergne Jacques. Un outil d'extraction terminologique endogène et multilingue. Actes de TALN 2003, tome 2, 2003, 139-148.   


Article et présentation à TALN 2002 du 24 juin 2002

Une méthode pour l'analyse descendante et calculatoire 
de corpus multilingues : 
application au calcul des relations sujet-verbe

A method for top-down and deterministic parsing of multilingual corpora
application : computing subject-verb links


Résumé - Abstract 

Nous présentons une méthode d'analyse descendante et calculatoire. La démarche d'analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d'opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d'une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l'exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l'efficacité.

English version We present a method for top-down and calculatory parsing. The prototype we present is top-down from the document to the clause, through the sentence. Its inputs are documents in English, French, Italian, Spanish, or German. It tokenises sentences into clauses, and computes subject-verb links inside clauses. It is calculatory, as it executes few operations on data. It uses very few resources (about 200 words or locutions per natural language), and the sentence processing size is about 60 Kb Perl, including lexical resources. This method takes place in the frame of more general researches of the "Groupe Syntaxe et Ingénierie Multilingue du GREYC" into exploring minimal and multilingual solutions, close fitted to a given task, exploiting few deep linguistic properties, presuming that genericity implies efficiency.

Téléchargez l'article (.pdf 120 Ko), la présentation   (.ppt 210 Ko, English version .ppt 260 Ko, )

Vergne Jacques  (2002). Une méthode pour l'analyse descendante et calculatoire de corpus multilingues : application au calcul des relations sujet-verbe, Actes de TALN 2002, 63-74.



Séminaire I3 du GREYC du 9 octobre 2001

Une expérience d’analyse syntaxique calculatoire minimale


Objectifs du Groupe Syntaxe :

  • recherche de solutions minimales :      pour une tâche donnée, minimiser les moyens utilisés

  • - tout petits programmes
    - algorithmes très simples
    - solutions calculatoires (pas d’exploration combinatoire)
    - bases linguistiques minimales :
          . utilisation de très peu de propriétés, seulement celles qui servent aux calculs
          . très peu de ressources (lexicales, morphologiques, typographiques)
Caractéristiques de l'expérience  :
  • à titres expérimental et pédagogique, choix d'une tâche classique, limitée et (apparemment) simple :
  • détecter et relier sujets et verbes, avec le plus petit programme possible


    Téléchargez la présentation : (.ppt.zip 70 Ko)  (.ppt 330Ko)


    Conférence invitée à TALN 2001 du 3 juillet 2001

    Analyse syntaxique automatique de langues : du "combinatoire" au "calculatoire"

    Parsing natural languages : from "combinatorial" to "deterministic" parsing

    Point de départ :

    • notre analyseur 98 : 
      - 1ère place à l'action d'évaluation GRACE (1995-1998)
      - Grammaires et Ressources pour les Analyseurs de Corpus et leur évaluation 
      - 22 participants de France, Suisse, Allemagne, Québec, USA :  labos, entreprises (dont AT&T, IBM, Xerox, France-Télécom)
      - jeu de 311 étiquettes
      - décision = 100% (= tokens avec étiquette unique / total des tokens) 
      - précision = 94,5% (= tokens ayant la même étiquette que l'humain / tokens avec étiquette unique)
       
    • quelles sont les caractéristiques de cet analyseur ?   c'est un analyseur calculatoire
    Objectifs  :
    • nous placer dans l'évolution historique des analyseurs
    • comprendre les principes de l'analyse calculatoire
    • pouvoir construire des analyseurs calculatoires


    Téléchargez l'article (.pdf 56 Ko), la présentation : (.ppt.zip 120 Ko)  (.ppt 340Ko, English version .ppt 390 Ko)

    Vergne Jacques  (2001). Analyse syntaxique automatique de langues : du combinatoire au calculatoire (communication invitée), Actes de TALN 2001, 15-29.


    Exposé à la journée "Prédication" du CRISCO du 26 janvier 2001

    Comment discriminer automatiquement les formes verbales des formes nominales ?

    Comment modéliser la proposition ? Et comment utiliser ce modèle en analyse automatique ?

  • téléchargez la présentation : (.ppt.zip 130 Ko)  (.pdf.zip 1,2 Mo)


  • Exposé au séminaire TALANA du 4 décembre 2000

    Ordre linéaire des constituants : vers une généralisation

    Linear order of constituents : towards a generalisation

     
                Comment poser plus généralement la question de 
                      l'ordre  des mots dans une phrase en telle langue 

                   en allant vers une étude de 
                      l'ordre  des   X  dans les Y  (indépendamment de la langue) 

                   en généralisant : - dans la dimension des constituants 
                                              - dans la dimension des langues

                Quelques liens avec la prosodie et avec l'analyse syntaxique
     
     

  • téléchargez la présentation : (.ppt.zip 108 Ko)  (.pdf.zip 208 Ko, English version .ppt 550 Ko)


  • Axes de recherche

    Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur

    Analyse syntaxique automatique non combinatoire

    Mes recherches se développent simultanément sur les deux axes conjoints de la linguistique informatique et de l'informatique linguistique :

    • linguistique informatique : Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur
       La syntaxe des langues consiste en l'étude des formes (phrases et textes) indépendamment du sens. Dans cet aspect de mes recherches, l'ordinateur est un outil de recherche en syntaxe des langues; il sert à observer le matériau, à modéliser ses propriétés, à confronter les concepts avec les corpus. L'originalité de mon approche est que je cherche d'abord à expliciter les processus de production et de réception de phrases, processus qui contraignent les structures, principalement à cause du fait qu'une phrase est un objet à une dimension, et que l'effort de mémoire en production et en réception est minimisé en plaçant les segments reliés les plus proches possible.
        Jacques Vergne. 1998. Entre arbre de dépendance et ordre linéaire, les deux processus de transformation : linéarisation, puis reconstruction de l'arbre. Cahiers de Grammaire, n°23 (Cahiers de Grammaire), Toulouse, France, (paru le 12 avril 99). 
        (.pdf 196 Ko)
    • informatique linguistique : Analyse syntaxique automatique non combinatoire
       L'analyse syntaxique automatique consiste à prendre un texte en entrée, et à produire en sortie un texte segmenté (en "mots", syntagmes et phrases), dont les segments sont catégorisés et reliés. Les analyseurs actuels cherchent à affecter à une phrase entrante une des structures stockées sous forme d'une grammaire formelle, par un processus combinatoire, de complexité pratique en temps au mieux en O(n2), n étant le nombre de mots de la phrase. J'ai caractérisé les causes des dysfonctionnements de ces analyseurs et j'ai mis au point un algorithme totalement original, de complexité pratique linéaire sur corpus, qui fonctionne sur du texte tout venant, et ne fait aucune hypothèse sur les structures globales des phrases.
        Jacques Vergne et Emmanuel Giguet. 1998. Regards Théoriques sur le "Tagging". In actes de la cinquième conférence Le Traitement Automatique des Langues Naturelles (TALN 1998), Paris, France, 10-12 juin. 
        (Postscript, PDF, RTF, HTML)
    (mots-clés : syntax - corpus-based linguistics - dependency grammar - robust parsing - dependency parsing)


    Étudiants encadrés :

    • Emmanuel Giguet : analyse syntaxique multilingue (thèse soutenue le 22 décembre 1998)
    • Hervé Déjean : découverte de structures syntaxiques à partir de corpus (thèse soutenue le 18 décembre 1998)
    • Gérald Vannier : prosodie et syntaxe, dans le cadre du Projet Synthèse Vocale (thèse soutenue le 29 juin 1999)
    • Thomas Lebarbé : Explorations Linguistiques en Intelligence Artificielle Distribuée (thèse soutenue le 23 mai 2002)
    • Frédérick Houben : Découverte automatique des structures formelles des langues à partir de corpus brut
    • Luquet Pierre-Sylvain  : Méthode pour la classification d'échantillons de signal de parole
    • Grégory Smits  : Évaluation dynamique multicritères des résultats d’une chaîne d’analyse linguistique

    Analyseur syntaxique 98 : visualiseur développé en Java par Emmanuel Giguet


    Habilitation à Diriger des Recherches, soutenue le 29 septembre 1999, devant le jury :

      Patrice Enjalbert, Violaine Prince, Jean Véronis, Daniel Kayser, Bernard Victorri, Pierre Zweigenbaum 
    Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur

    Analyse syntaxique automatique non combinatoire

    Synthèse et Résultats 

    • Mémoire de Synthèse et Résultats (.pdf 420 Ko)
    • Transparents de la soutenance (.pdf 86 Ko)

    Participation à l'action d'évaluation comparative des étiqueteurs du français : GRACE

      Grammaires et Ressources pour les Analyseurs de Corpus et leur Evaluation 

      publication du graphique des premiers résultats au 6 novembre 1998

      greyc : décision = 1,00 et précision = 0,945 (petitecroixXen haut à droite)

      Le système du GREYC est le plus proche du point : décision = 1 et précision = 1
       

        Jacques Vergne et Emmanuel Giguet. 1998. Regards Théoriques sur le "Tagging". In actes de la cinquième conférence Le Traitement Automatique des Langues Naturelles (TALN 1998), Paris, France, 10-12 juin. 
        (Postscript, PDF, RTF, HTML)
    (mots-clés : POS tagging - part of speech tagging)


    Projet Synthèse Vocale (financement FEDER) avec les partenaires :

    lancement officiel de la synthèse vocale logicielle KALI : 9 avril 1999 (voir l'article publié dans Ouest-France du 10-11 avril 1999)

    démonstration (fichiers wav)

    démonstration en ligne, avec accès à tous les paramètres

        Gérald Vannier, Anne Lacheret-Dujour, Jacques Vergne. 1999. Pauses location and duration calculated with syntactic dependencies and textual considerations for t.t.s. system. ICPhS 1999, San Francisco, USA, aôut 99. 
        (PDF 80 Ko) 
    (mots-clés : text to speech - tts)


    Projet industriel DATOPS (financement MENRT)

    (mot-clé : text mining)


    Membre de l'ATALa, Association pour les Traitements Atutomatiques des Langues
     

    Membre de l'ACL, Association for Computational Linguistics



    [Article et présentation à TALN 2002 du 24 juin 2002]

    [Séminaire I3 du GREYC du 9 octobre 2001]

    [Conférence invitée à TALN 2001 du 3 juillet 2001]

    [Exposé à la journée "Prédication" du CRISCO du 26 janvier 2001]

    [Exposé au séminaire TALANA du 4 décembre 2000]

    [Tutoriel au Coling 2000 :  Trends in Robust Parsing]

    [Publications] [Axes de recherche] [Groupe Syntaxe] [Étudiants en thèse]

    [Analyseur syntaxique 98] [Analyseur syntaxique du GREYC]

    [Habilitation à diriger des recherches] [GRACE] [Projet Synthèse Vocale] [Projet industriel DATOPS]

    [haut de la page]

    *