Quelques réalisations en informatique linguistique



Logiciels d'études,
équipe Island

Exemples de sortie de traitements automatiques

Logiciels d'études

Une famille d'analyseurs de textes à ressources réduites, utilisant des théories ou modèles linguistiques.
Les programmes notés * sont implémentés en ligne sur la plate-forme wims (E. Giguet).

Cita0 Logiciel de détection des citations
Auteurs : conception N. Lucas, réalisation N. Lucas & E. Giguet (1999)
Descriptif : a pour fonction d'afficher le discours rapporté (citations), dans les articles de presse en anglais.  Les ressources sont minimales (ponctuations et mots grammaticaux ; pas de dictionnaires de noms propres, ni de titres et métiers).

Entrée : texte HTML, sortie : XML. Langage Perl.
un exemple de sortie

Cita1 Logiciel de détection des citations et des locuteurs
Auteurs : conception N. Lucas, réalisation E. Giguet (2001)
Descriptif : a pour fonction d'afficher le discours rapporté (citations), et de relier les citations par locuteur (personne citée) dans les articles de presse en français.  Les ressources sont minimales (ponctuations et mots grammaticaux ; pas de dictionnaires de noms propres, ni de titres et métiers).

Entrée : texte HTML, sortie : XML. Langage PHP.
un exemple de sortie

LAEtiTIA Logiciel analogique d'étiquetage des textes complexes académiques
Auteurs : conception N. Lucas, réalisation L. Voisin (2002)
Descriptif : a pour fonction de segmenter un texte complexe selon sa hiérarchie typographique et de l'annoter. C'est un tokeniseur à plusieurs grains (zone, partie, section, paragraphe, phrase et virgulot) doublé d'un tagueur spécialisé (marques rhétoriques en anglais) destiné à l'analyse des articles académiques. Prend en entrée du texte Word (non normalisé) ou HTML, produit en sortie un document balisé et annoté XML. Langage Perl.

CitAcad Logiciel de détection d'auto-citation
Auteurs : conception N. Lucas, réalisation L. Voisin (2002)
Descriptif : a pour fonction de détecter les citations bibliographiques dans les articles académiques et de signaler les auto-citations. Basé sur la segmentation par le logiciel LAEtiCIA. Produit en sortie un document balisé et annoté XML. Langage Perl.

TexALI Logiciel d'alignement de textes
Auteurs : scénario N. Lucas, réalisation Nicolas Stienne (2003)
Descriptif : a pour fonction de segmenter un texte complexe selon sa hiérarchie typographique et d'aligner des versions successives de ce texte. C'est un outil de structuration à plusieurs grains (zone, partie, section, paragraphe, phrase et virgulot) doublé d'un aligneur spécialisé, destiné à l'analyse des articles académiques. Prend en entrée des textes HTML, produit en sortie des documents balisés et annotés XML. Langages Perl et Java.


THEMA Analyseur thématique *
Auteurs : conception N. Lucas, réalisation P. Pinatel (2002), d'après un modèle de Yamada
Descriptif : a pour fonction d'afficher la hiérarchie des thèmes traités dans un texte, segmenté selon sa hiérarchie typographique (paragraphe, phrase, virgulot). La visualisation du texte est possible sur 3 niveaux d'enchâssement thématique. THEMA propose aussi des mots-clés pour l'indexation. C'est un outil de structuration et coloriage destiné à des articles journalistiques, en français, et aux langues européennes, anglais, espagnol, italien.
Entrée : texte HTML, sortie : XML. Langage PHP.
un exemple de sortie

UniTHEM Analyseur thématique multilingue *
Auteurs : conception N. Lucas, réalisation E. Giguet (2004), d'après un modèle de Yamada
Descriptif : a pour fonction d'afficher la hiérarchie des thèmes traités dans un texte, segmenté selon sa hiérarchie typographique (paragraphe, phrase, virgulot).
UniTHEM est un outil de structuration et coloriage destiné à des articles journalistiques, en toutes langues couvertes par Unicode. La visualisation du texte est possible sur 3 niveaux d'enchâssement thématique.
Entrée : texte HTML, sortie : XML. Langage PHP.

plusieurs exemples de sortie

ThemAgora Analyseur thématique de forums *
Auteurs : conception N. Lucas, réalisation E. Giguet (2006), d'après un modèle de Yamada
Descriptif : a pour fonction d'afficher la hiérarchie des thèmes traités dans un forum orienté par une tâche, segmenté selon sa hiérarchie typographique (contribution, paragraphe, phrase).
ThemAgora  est un outil de structuration et coloriage destiné à des forums clos, en langues couvertes par Unicode.  La visualisation du texte est possible sur 3 niveaux d'enchâssement thématique.
Entrée : texte HTML, sortie : XML. Langage PHP.

un exemple de sortie


Exemples de sortie de logiciels, équipe Island parcoursmatériau

Type de texte traité
Objet
Logiciel
Article de vulgarisation scientifique
structuration thématique de l'exposé
THEMA
Dépêches et articles de presse détection des citations (discours rapporté)  Cita1, Cita0
structuration thématique de l'exposé UniTHEM
Article académique
détection des auto-citations CitAcad
Forum clos
détection des épisodes dans l'exposé collectif ThemAgora
Ouvrages

THEMA article en français

article vulgarisation

UniTHEM

Détection de la structure thématique dans des dépêches et articles de presse (multilingue) avec Emmanuel Giguet

article en chinois

article en chinois

article en japonais
article en japonais

article en arabe
article en arabe
article en russe
article en russe

article en anglais

article en anglais

ThemAgora 

Détection de la structure discursive des forums d'enseignement à distance (français) avec Emmanuel Giguet
forum3ansFOADforumsFOADPicardie3ans

forum FOAD tâche par trinôme

Cita 1

Détection du discours rapporté dans des dépêches de presse (français) avec Emmanuel Giguet

citation presse FR

Cita0 Détection du discours rapporté dans des dépêches de presse (anglais) avec Jacques Vergne, Emmanuel Giguet

dépêche en anglais            dépêche en français

citations dans presse

retour à la page informatique     retour à la page d'orientationsymboleorientation                retour à la page d'accueil symboleaccueil