Page personnelle de Jacques Vergne

Tél. : +33 (0)2 31 56 73 36
Fax : +33 (0)2 31 56 73 30
email

Jacques.Vergne@unicaen.fr
Fonction : Professeur

Résumé - Abstract

Nous présentons dans cet article une méthode d'indexation automatique de documents de l'internet, fondée sur l'extraction de termes de structure contrôlée, et qui ne nécessite aucun traitement linguistique, ni stop-list, ni connaissance de la(les) langue(s) du document. Cette méthode s'appuie sur la récurrence de suites de mots, et sur le contrôle de la structure de ces suites. Ce contrôle de structure est basé sur un étiquetage du texte à indexer avec un jeu de deux étiquettes : mots informatifs ou non informatifs. Les mots informatifs sont définis comme étant plus longs et moins fréquents que leurs voisins. On exploite ainsi des propriétés très générales des langues, découvertes par Zipf et par Saussure.

Mots-clés, Key-words : indexation automatique, termes de structure contrôlée, méthode d’indexation indépendante des langues. automatic indexing, structure controlled terms, language independent indexing method.

In this paper, we present an automatic indexing method of web documents, based on structure controlled terms extraction, and which does not require any linguistic processing, neither stop-list, nor knowing the document language(s). This method relies on the words sequences recurrence, and on the structure control of these sequences. This structure control is based on tagging the text to index with a two label tagset : informative words or not. Informative words are defined longer and less frequent than their neighbours. Very general linguistic properties, discovered by Zipf and by Saussure are thus exploited.

Téléchargez l'article (.pdf 288 Ko)

Vergne Jacques. Une méthode indépendante des langues pour indexer les documents de l'internet par extraction de termes de structure contrôlée. Actes de CIDE 8, 2005, 155-168.

Our present research is in the field of exploring NLP methods which use no other resource than the text to analyse itself. This drives us to analysis methods which use very general linguistic properties, as for instance differences of length and frequencies of words. To illustrate our approach, we present in this paper a local computation method to discover function words from raw corpora. This method can be used to extract term candidates or to index raw texts in unidentified alphabetic natural languages.

Key-words : multilingual NLP, natural language learning, grammar induction, function words discovery

Nous nous plaçons dans une perspective de traitements linguistiques sans autre ressource que le texte à analyser. Ceci nous conduit à des méthodes d’analyse exploitant des propriétés très générales des langues, comme par exemple les différences de longueur et de fréquence des mots. Pour illustrer notre démarche, nous présentons dans cet article une méthode de découverte des mots vides par un calcul local. Cette méthode peut s’appliquer à l’extraction de candidats termes ou à l’indexation de textes bruts de langues alphabétiques non identifiées.

Mots-clés, Key-words : traitements multilingues, découverte des mots vides, multilingual NLP, natural language learning, grammar induction, function words discovery

Our present research is in the field of exploring NLP methods using no other resource than the text to analyse itself. This drives us to analysis methods which use very general linguistic properties, as for instance differences of length and frequencies of words. To illustrate our approach, we present in this paper a method of local computation for discovering function words from raw corpora. This method can be used for extracting term candidates or indexing raw texts of unidentified alphabetic natural languages.

Téléchargez l'article (.pdf184 Ko)

Dans cet article, nous présentons un système de constitution de revue de presse à partir des sites de presse présents sur l'internet . Il s'agit de répondre à des questions telles que : "de qui, de quoi est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?". L'utilisateur, qu'il soit un journaliste qui prépare sa revue de presse, ou simplement une personne intéressée par l'actualité, définit en entrée l'espace de recherche qui l'intéresse. Ce système inverse la problématique des moteurs de recherche : au lieu de rechercher des documents à partir de mots-clés qui représentent des thèmes, il s'agit de produire en sortie les thèmes principaux de l'actualité, et de donner accès aux articles concernés par ces thèmes. Les thèmes d'actualité sont capturés en relevant les termes récurrents dans les "textes" d'hyperliens des "Unes" des sites de presse. Le système calcule un graphe de termes dans lequel les nœuds sont les termes et les arcs sont les relations entre termes, relations définies par la co-occurrence de deux termes dans un "texte" d'hyperlien. L'interface exploite ce graphe en permettant à l'utilisateur de naviguer parmi les termes et d'avoir accès aux articles contenant ces termes.

Mots-clés : hypertextes, web, internet, documents électroniques, web mining, recherche d'informations, veille stratégique, fouille de textes.

In this paper, we present a system for building a news review, from news sites on the web. We want to be able to answer questions as : "who, what are papers speaking about today in the news of a given geographic or linguistic search space". The user, a journalist preparing his news review, or somebody interested in news, defines as input the search space he is interested in. This system reverses the issues of search engines : in spite of searching documents from key-words which represents topics, we want to produce as output the main topics of the news, and to give access to related papers. News topics are captured while computing recurrent terms in hyperlinks texts of front-pages of news sites. The system computes a graph in which nodes are terms and arcs are links between terms; a link is defined as a co-occurrence of two terms in a same link text. The interface is based on this graph as the user can browse through the terms and have access to papers containing these terms.

Key-words : hypertexts, web, internet, electronic documents, web mining, information retrieval, strategic watching, text mining.

Téléchargez l'article (.pdf 256 Ko), la présentation (.ppt 544 Ko)

Une démonstration est accessible sur : https://lucasn01.users.greyc.fr/JacquesVergne/demoRevueDePresse/

Dans cet article, nous présentons un outil d'extraction terminologique "endogène" à partir d'un corpus multilingue. Cet outil est qualifié d'endogène car, sans autre ressource que le corpus dont il doit extraire les termes, il calcule les mots vides à partir de ce corpus pour centrer les termes candidats sur des mots pleins. Il est placé dans le cadre d'un système de constitution automatique de revue de presse à partir de sites de presse présents sur l'internet . Il s'agit de répondre à des questions telles que : "de qui, de quoi est-il question aujourd'hui dans la presse de tel espace géographique ou linguistique ?". Le corpus est constitué des textes des hyperliens des "Unes" des sites de presse de langues inconnues a priori. Il est renouvelé quotidiennement, et sa taille est d'environ 100 Ko (débalisé). La méthode est fondée sur l'analyse distributionnelle, et utilise des différences entre mots contigus : les différences de longueur et d'effectif.

In this paper, we present an "endogenous" terminology mining tool, from a multilingual corpus. This tool is described as endogenous because, without any other resource than the corpus from which it has to extract terms, it computes function words from this corpus to focus candidate terms on content terms. It is used inside an automatic news review system from news web sites. The system is able to answer questions as : "who, what are newspapers speaking about today in a given geographic or linguistic search space?". The corpus is made of hyperlinks texts of news web site front-pages in unknown languages. It is daily downloaded, and its size is about 100 Kbytes (untagged). The method is based on distributional analysis, and uses differences between contiguous words : differences of length and of frequency.

Mots Clés – Keywords
extraction terminologique, endogène, multilingue, internet, fouille de texte.
terminology mining, endogenous, multilingual, internet, web mining, text mining.

Téléchargez l'article (.pdf 96 Ko), la présentation (.ppt 490 Ko,

.ppt 540 Ko, )

Une démonstration est accessible sur : https://lucasn01.users.greyc.fr/JacquesVergne/demoRevueDePresse/

Nous présentons une méthode d'analyse descendante et calculatoire. La démarche d'analyse est descendante du document à la proposition, en passant par la phrase. Le prototype présenté prend en entrée des documents en anglais, français, italien, espagnol, ou allemand. Il segmente les phrases en propositions, et calcule les relations sujet-verbe dans les propositions. Il est calculatoire, car il exécute un petit nombre d'opérations sur les données. Il utilise très peu de ressources (environ 200 mots et locutions par langue), et le traitement de la phrase fait environ 60 Ko de Perl, ressources lexicales comprises. La méthode présentée se situe dans le cadre d'une recherche plus générale du Groupe Syntaxe et Ingénierie Multilingue du GREYC sur l'exploration de solutions minimales et multilingues, ajustées à une tâche donnée, exploitant peu de propriétés linguistiques profondes, la généricité allant de pair avec l'efficacité.

We present a method for top-down and calculatory parsing. The prototype we present is top-down from the document to the clause, through the sentence. Its inputs are documents in English, French, Italian, Spanish, or German. It tokenises sentences into clauses, and computes subject-verb links inside clauses. It is calculatory, as it executes few operations on data. It uses very few resources (about 200 words or locutions per natural language), and the sentence processing size is about 60 Kb Perl, including lexical resources. This method takes place in the frame of more general researches of the "Groupe Syntaxe et Ingénierie Multilingue du GREYC" into exploring minimal and multilingual solutions, close fitted to a given task, exploiting few deep linguistic properties, presuming that genericity implies efficiency.

Téléchargez l'article (.pdf 120 Ko), la présentation (.ppt 210 Ko,

.ppt 260 Ko, )

Téléchargez l'article (.pdf 56 Ko), la présentation : (.ppt.zip 120 Ko) (.ppt 340Ko,

.ppt 390 Ko)

Mes recherches se développent simultanément sur les deux axes conjoints de la linguistique informatique et de l'informatique linguistique :

Analyseur syntaxique 98 : visualiseur développé en Java par Emmanuel Giguet

Habilitation à Diriger des Recherches, soutenue le 29 septembre 1999, devant le jury :

Participation à l'action d'évaluation comparative des étiqueteurs du français : GRACE

Membre de l'ATALa, Association pour les Traitements Atutomatiques des Langues